机(jī)器人学习(xí)目(mù)前已经被广泛应用(yòng)于现实世界,并可以完成精密的手部、腿(tuǐ)部动(dòng)作。但在动态且高(gāo)速的人机互(hù)动中,机(jī)器(qì)人学习并不常见。谷歌选择(zé)开发乒乓球机器(qì)人(rén),正是为(wéi)了探索这(zhè)类(lèi)情况下人工智能的可能性。
·使用(yòng)i-Sim2Real这种方式,在模拟环(huán)境下可(kě)以让数年的实时训练(liàn)在几分(fèn)钟或几小时内完成。
谷歌i-Sim2Real项目(mù)乒(pīng)乓球机器人与人类训练。本文图片(piàn)来源:谷歌
似乎(hū)现存的每一种桌(zhuō)上运动(dòng)中,人工(gōng)智能都立于不(bú)败之(zhī)地。乒乓(pāng)球竞技中,谷歌AI同样难逢敌(dí)手。10月(yuè)18日,谷歌(gē)公布其正在研究的“乒(pīng)乓球(qiú)机器人”项目(mù),在与人类(lèi)对打时一回合(hé)可接球340次。目前,谷歌(gē)强调这只是人类与AI的“合作(zuò)”,并非击败人类,但以AI成长的速度,它将很快成为专业选(xuǎn)手。
机器人(rén)学习(xí)目前已经被广(guǎng)泛应用于现实世(shì)界(jiè),并(bìng)可以完(wán)成精密的手部、腿部动作。但在动态且高(gāo)速的人机互动中,机(jī)器人学习(xí)并不常见。谷歌(gē)选择开(kāi)发乒乓球机(jī)器(qì)人(rén),正是为了(le)探索这类(lèi)情况下人工(gōng)智能的可能性。
解(jiě)决“先有鸡还是先有蛋”
在这个名为(wéi)i-Sim2Real的项目中(zhōng),谷歌的乒乓球(qiú)机器人(rén)在模拟环境(jìng)中不断学习(xí),并将学(xué)习成(chéng)果(guǒ)运用(yòng)于现实世(shì)界,最终(zhōng)可以在一(yī)个与人(rén)类的乒乓球接(jiē)发(fā)回合中,接球超过三百次。它还(hái)能把球送回不(bú)同的区域,虽然不能(néng)精确到数字上,但已经足(zú)够精确到让(ràng)机器人规划策略,来控制(zhì)乒乓球(qiú)的(de)最终目(mù)的地(dì)。
i-Sim2Real也不(bú)仅仅是关于(yú)乒乓球机器(qì)人,更是一种(zhǒng)人工(gōng)智能(néng)创造(zào)过(guò)程(chéng)的方式,在这个过程中,机器学习模型被教会在虚拟环境或模拟中做什么,然后再应用这些知识,目标是(shì)尽可能长时间地与人(rén)类进行接球回合(hé)而不失误。在现实世界中直接与(yǔ)人类玩家进(jìn)行训练既繁琐又耗(hào)时,当(dāng)需要数年(nián)的试(shì)验和错误才(cái)能建立一(yī)个工(gōng)作模型时,使用i-Sim2Real这种方式显(xiǎn)得十分有效,它在模拟环境下(xià)可以让(ràng)数年的实时训练在几分钟或几(jǐ)小时内(nèi)完成。
这种方式听起来简(jiǎn)单(dān)高效,但在模拟中机器人并不(bú)是万能(néng)的。人类(lèi)的活动具(jù)有一定的不可预测性(xìng),并不容易模拟,需要先有人类的(de)行为模型作为支撑。而人类的行为模型(xíng),又需要与(yǔ)机器人(rén)互动获(huò)得。这就陷入了一个“是先有(yǒu)鸡还是先(xiān)有(yǒu)蛋”的死循环。
i-Sim2Real解决(jué)这(zhè)一鸡和(hé)蛋问题的方法,是使用一个简单的人(rén)类行为模型(xíng)作为近似起点,并让机器人(rén)在模(mó)拟训练和(hé)现实训练之(zhī)间(jiān)交(jiāo)替学习。在每次迭代中,都会细化人类行为模型和策略。在机器(qì)人接近人类行为(wéi)的过程中,初期的不理想是(shì)可以接受的,因为机器人也只是刚刚(gāng)开始学习,之后(hòu)每(měi)一(yī)场比赛都会收集更多真实的人类数据,提高准确性,让AI学到更(gèng)多(duō)。
i-Sim2Real的训练(liàn)方法(fǎ)。
GoalsEye:通过自我监督来(lái)自(zì)主练习
除了i-Sim2Real这种模拟与现实交替进(jìn)行的方(fāng)法,研究人员也在探索(suǒ)只使(shǐ)用现(xiàn)实的数(shù)据学习的方(fāng)法(fǎ),即GoalsEye项目。
一开始,模仿(fǎng)学习(IL)为(wéi)研究人员提供了一种简单而稳定的思路,但它(tā)需要人类行为进(jìn)行演示,并且机器人的技(jì)术无法超过(guò)演示(shì)者的(de)水平。同(tóng)时,当演示者拥有(yǒu)在高速环境下精确接球(qiú)的(de)能力(lì)时,收集其数据具有一定挑战性,而且在刚开始时(shí)可能非(fēi)常低(dī)效(xiào)。因此研究人员(yuán)尝试(shì)了一种结合最近行为进行重复的(de)方法,从(cóng)一个(gè)小的、结构薄弱(ruò)的、非(fēi)目(mù)标(biāo)数据集开始,不断学习精(jīng)确定位目(mù)标(biāo)的策略。
这种方(fāng)法(fǎ)使(shǐ)得在(zài)训练的过程中,机器人的自主学习(xí)能力显得至关重要。研究人员设置(zhì)了一个强调精度的乒乓球任务,要求机器人将球返回(huí)到桌子上的任(rèn)意(yì)目标位置(zhì)。机器人可以通过(guò)自我监督来实(shí)现自主练(liàn)习。例如,机(jī)器人可以设置随机目标,“击中左(zuǒ)后角”或“将球从右(yòu)侧过网”,并尝试使用当前掌(zhǎng)握的策略(luè)来实现这些目标,从而不断改进。所有尝(cháng)试都会记录并添加到不断扩展的数(shù)据集中。这种(zhǒng)自主练习是(shì)反复进(jìn)行的,机器人(rén)通(tōng)过不断的设置随机目标(biāo)并尝试目标,从(cóng)而扩(kuò)展训(xùn)练数(shù)据,调整策略。
GoalsEye策略旨在实现直径20厘米的目标(左)。人(rén)类(lèi)玩家瞄(miáo)准同一(yī)个目标(biāo)(右)。
GoalsEye的训练(liàn)方法。
其效果也是显而易见的,在进行最(zuì)初的2480次人类行为演示后,机器人只在9%的情(qíng)况下能准确地达到距(jù)离目(mù)标30厘米以内(nèi)的目(mù)标。然而,当机器人又自主练习(xí)了大约13500次后,达到目(mù)标的准确率上升到43%。同时,演示(shì)数量的提升提高了后续自我练习的效率,这说明,计算时间、成(chéng)本等因素后,演示(shì)可以适当替换自我练习,从而更高效的进行(háng)训练(liàn)。
在(zài)这两个使(shǐ)用机器(qì)人乒乓球研究平台的互补项目中,i-Sim2Real可以在模拟与现(xiàn)实中交替学习策略,而(ér)GoalsEye则证明,从现实世界(jiè)的非结构化(huà)数据中学习,结(jié)合自我训练,对于在精(jīng)确且动(dòng)态的要求中学习(xí)目标(biāo)条件策略(luè)是有效的(de)。