蹒(pán)跚学(xué)步的孩(hái)童,学会(huì)了跌倒后如何站(zhàn)起(qǐ)来,慢慢感(gǎn)受平衡,最终(zhōng)学会用(yòng)双腿走(zǒu)路,这个过程很(hěn)大程度上(shàng)是通过反复试验学会的。但是,波士顿动力(lì)公(gōng)司的Spot和Atlas等机器人并不是这样的,他们被精心编码处(chù)理(lǐ)特定的任务,结果可能会非常好,但是在软件编程没有(yǒu)设计(jì)到情况(kuàng)下,机(jī)器人可(kě)能就会(huì)无(wú)所适从。据(jù)国外媒体1月6日消息,来自中国浙江大学和英国爱丁(dīng)堡大学的一个联合(hé)研究小组(zǔ)称,他(tā)们开发出了(le)更好的方(fāng)式来解决这样的问(wèn)题。
在最近发(fā)表在(zài)《科学机器人》杂志上的一篇(piān)论文中,联(lián)合研究小组详(xiáng)细介绍了一种人工(gōng)智能强化方法,他们用这种方法让自己的机器狗“绝(jué)影(yǐng)”学会如(rú)何(hé)走路和自主(zhǔ)从跌(diē)倒中恢复过来。该团队表(biǎo)示,他们首(shǒu)先在(zài)模拟(nǐ)环境中通(tōng)过软(ruǎn)件训练虚拟机(jī)器人。这个软件由八名经过培训以(yǐ)掌握(wò)特定技能(néng)的AI“专家(jiā)”组成,例(lì)如,一个(gè)“专家”训练机器人流(liú)利的(de)行走,而另一个训练机器人如何保持平衡。每次虚拟机器人成功完成一项任务时,团队都会以虚拟(nǐ)积分奖(jiǎng)励它。这个过程听(tīng)起来与Google最近用来训练MuZero算法的方法相同。
当八种专项技能培训完成后,研究团(tuán)队开(kāi)发了一个额(é)外(wài)的神经网(wǎng)络,有些类似于运动队伍中(zhōng)的(de)总教练(liàn)管理,它将(jiāng)管理其他八种专项技(jì)能,在特定(dìng)的情况(kuàng)下,还会根据需(xū)要对一种或(huò)者多种(zhǒng)技能进(jìn)行优先排序。最后,研究(jiū)团队会将软件移植到原型机器人上进行(háng)实际测试。
他们研究的目标是创(chuàng)造更加智能化的机器人(rén),这种机器人能够在行进中更加灵活地根据实际情况自适应选择技(jì)能,以便于处(chù)理未经训练(liàn)过(guò)的任务内容。目前,该(gāi)团队面临(lín)的挑战之一(yī)是如何减少模拟机(jī)器人训练所需要的计算力,这(zhè)样研究(jiū)才更具有实用(yòng)性价值。