认知体系作为人工智能的一(yī)个重(chóng)要分支(zhī),它的(de)研(yán)究和应用经过了近40年的发展,已取(qǔ)得了可见的成果。
关于认知体系(xì)的分类(lèi),目前相对(duì)主(zhǔ)流(liú)的三大范式是:符号(hào)(也称(chēng)为认(rèn)知)、涌现(xiàn)(也(yě)称(chēng)为联结)和混合。到底哪一个正确(què)地(dì)反映了人(rén)类的(de)认知过(guò)程(chéng),仍然是一个悬而(ér)未决的问(wèn)题,在过去的30年里一直在争论.
符号范式通(tōng)常使用预定(dìng)义指令集等(děng)符号来(lái)表示概念。指令通常以if-then的规则形式执行,例如ACT-R, Soar等产生式体系。这是一种(zhǒng)自然而(ér)直观的(de)表示方式(shì),因此符号操作仍然(rán)是一种公(gōng)认的表示(shì)方式(shì)之一(yī)。虽(suī)然(rán)符号范式擅长计划(规划(huá))和推理(lǐ),但不具有处理环境变化和(hé)感知(zhī)所需要的灵活性和鲁棒性。
涌现范式通常建立大规(guī)模并(bìng)行模型来解决(jué)适应性和学习问题(tí),例如神经网络模型,其数据来自输入节点。然而,由于信息或知(zhī)识不再是一组可解释的符号实体,而(ér)往往分布在整个网络中,这导致模型(xíng)不再透(tòu)明。在涌现模式中(zhōng),传统意义上的(de)逻辑推理似乎成(chéng)为不可能。
自然(rán)地,每种范式都有优缺点。一方(fāng)面,任(rèn)何符号体系结(jié)构创建初始知识库需要大量工作,可(kě)一旦完成(chéng),体系结构就完(wán)全功能性。另一方面,涌现(xiàn)体系结构更易于设(shè)计,但它(tā)们必(bì)须经过大量训练才(cái)能产生有(yǒu)用的行为;此外,他们的现有知识可能随(suí)着(zhe)新行为的学(xué)习而(ér)恶化。
由于符号和(hé)涌现范式都(dōu)不能解(jiě)决认知的所有问题,混合范式(shì)试图结合(hé)符(fú)号和涌现的元素,这样的混合体系在我(wǒ)们(men)选择的架构中是最常(cháng)见的。一(yī)般来说,混合方式(shì)没有(yǒu)限制,而且(qiě)已经探索了许多可能性。除了考虑(lǜ)表(biǎo)示,还考虑系统是单模块还是多模块、异(yì)构还(hái)是同(tóng)质,或考虑混合(hé)的粒度(粗粒度还是细粒(lì)度)、符号和子符号组件之间的(de)耦合性(xìng)。此外,并(bìng)不是所有的混合架构都明确地解决(jué)了所(suǒ)谓的符(fú)号和(hé)次符号元素以(yǐ)及(jí)将它们组合起来的(de)问题。只有少数几个体(tǐ)系结构,例如ACTR、CLARION、DUAL、CogPrime、CAPS、SiMA、GMU-BICA和Sigma,认为这种集(jí)成是必要的(de)。我们将重(chóng)点(diǎn)放(fàng)在表(biǎo)示和处理(lǐ)上。
图1显示了分类分组(zǔ)的组织(zhī)结构。在顶层分(fèn)成了:符(fú)号的、涌现的(de)和(hé)混合的。关于这(zhè)些术语的界定也是(shì)模糊的(de),即使对(duì)于最著名(míng)的架构(例(lì)如Soar和ACT-R)也不(bú)能达成一致(zhì)。尽管(guǎn)两者都将符(fú)号和次符号(hào)元素结合起来,ACT-R的作者明确地(dì)表达为混合(hé)模式,而Soar没(méi)有。各位学者的(de)观点也不一致,Soar和ACT-R在[14,15]中都(dōu)被称(chēng)为符号主(zhǔ)义者,而[16]将它们列为混合体。
图1
为了避(bì)免分组的不一致性,我(wǒ)们假设显式(shì)符号是符号表示的原(yuán)子,可以(yǐ)组(zǔ)合成有意义的表达式。这些符(fú)号用于推理或句法分(fèn)析。子符(fú)号表示通常与神经元的隐喻联系在(zài)一起,这种表示(shì)的一个(gè)典型(xíng)是神经网络。在神经网(wǎng)络中(zhōng),知识被编(biān)码为分布(bù)在神经(jīng)元之间的数值模式,与(yǔ)单(dān)元相(xiàng)关联的权重影响处理,并通过(guò)学习获得。
对于我(wǒ)们的分类(lèi),我们假设任何非显(xiǎn)式符号和处理(句法操作(zuò)除外)都是(shì)子符号(例(lì)如数(shù)值数据、像素、概(gài)率,传(chuán)播(bō)激活、强化学习等)。结(jié)合了两种(zhǒng)表示中的(de)任(rèn)意组合(hé)都(dōu)被当作混合模式。给(gěi)定这些定义,将标(biāo)签分(fèn)配给所有架构并将它们可视化(huà)为图1。
我们区分了(le)两类涌现(xiàn)类别:实现类生物神经元的神经元模型和更接近人工神经网络的连接(逻辑)模式。在混合模式中(zhōng),我们将符号子处理(lǐ)(其中符号模式与执行子符号计算模块相结(jié)合)作为混(hún)合模式的一个子类,符号(hào)子(zǐ)处理组中的架构至少包括一个(gè)用于(yú)感(gǎn)知(zhī)处理的子(zǐ)符(fú)号模块,而其(qí)余的知识和(hé)处理是符号的,例(lì)如3T, ATLANTIS, RCS, DIARC, CARACaS and CoSy。虽然存在其(qí)他类型(xíng)的功能(néng)组合(例如(rú)协同(tóng)处理、元处理和(hé)链处理),但(dàn)是难以(yǐ)归类。因此,其他(tā)的都归类(lèi)为完(wán)全集(jí)成的混合模式。完全集(jí)成的体系结构使用多种方法来组合(hé)不同的表示。ACT-R、Soar、CAPS、Copycat/metacat、CHREST、CHARISMA、CELTS、CoJACK、CLARION、REM、NARS和Xapagy将(jiāng)符号概(gài)念和具有次符号(hào)元素(如激(jī)活值、扩散激活、随(suí)机选(xuǎn)择(zé)过程(chéng)、强化学习等)的规则结合起来(lái)。
综上所述,混合架构是数量最多的(de)一组,并显示出(chū)增长(zhǎng)趋势。混合架(jià)构根据符号和次符号组件的比(bǐ)例和扮演的角色,在涌现范式和符号范式之间形(xíng)成(chéng)一个连(lián)续统。例如,CogPrime和Sigma在概(gài)念(niàn)上更接近(jìn)于涌现系统,因(yīn)为它们与神经网络有许多共同的属性。而(ér)REM、CHREST和RALPH以(yǐ)及3T和ATLANTIS,在很大程度上属于符号范式;因为这些架构主要(yào)是(shì)符(fú)号化(huà)的,虽然可以利用概率推理(lǐ)和学习机制。
4 感(gǎn)知(perception)
虽然早期的认知结构主要侧重(chóng)于高层(céng)次的推(tuī)理,但同样(yàng)重要的是感知和行为(wéi)。
感知可以(yǐ)定义为将(jiāng)原始输入数据(jù)转(zhuǎn)换(huàn)为系统内部表示以执(zhí)行认知任务的过程。根据输入数据的来源(yuán)和性质(zhì)可以区分多种感知模式。例如,最常见的五种(zhǒng)是视(shì)觉、听(tīng)觉、嗅(xiù)觉、触(chù)觉和味(wèi)觉;其(qí)他的(de)感觉包括本体感觉、热感、痛觉、时间感等。
当然,认知结构也实(shí)现了其中的(de)一些与人(rén)类感官无关的(de)符号输入(rù)(使(shǐ)用(yòng)键盘或图(tú)形用(yòng)户界面(miàn)(GUI))和各(gè)种传感器(激(jī)光雷达、激光、红外等)。根据其认知功(gōng)能,智能系统可以将各种数量(liàng)和(hé)类型的数据作为感(gǎn)知输入。
因此,本节将研究使用各(gè)种数据(jù)输(shū)入,从这些数据源中提取信息(xī)以及如何应用这(zhè)些信息的(de)认知体系。图4中的将调研结果进行了可视化。
图2:视(shì)觉(V)、听(tīng)觉(jiào)(A)、触(chù)觉(T)、嗅觉(S)、本(běn)体感觉(P)、数据(jù)输入(D)、其他传感器(O)和多(duō)模(mó)态(M)
从图2的可视化中可以观(guān)察到(dào)如下(xià)情况。例如,视觉是最常用的实现方式,然而,超过一半的体系使(shǐ)用模拟进行视(shì)觉输(shū)入,而不是摄像机。触觉和本体(tǐ)感觉等方式主要(yào)用于物理(lǐ)体现的设计。有些感知未被充分探索,例如嗅觉(jiào)只在三种(zhǒng)体(tǐ)系中出(chū)现(GLAIR、DAC和PRS0)。总的来说,符(fú)号范式在(zài)设计上具有(yǒu)有限的感知能力,并且倾向于(yú)使用直接的(de)输入(rù)数据作为(wéi)唯一的信息来源(参见图的左侧(cè))。另一方面,混合范式和涌现范式(主要(yào)位于右半部(bù)分图中(zhōng)的)使用模拟和物(wù)理传感器实现更广泛的感(gǎn)知模式。然(rán)而,不管其来源如(rú)何,传入的感(gǎn)知数据通常不(bú)能以原始形(xíng)式使用(除(chú)了符号(hào)输入之外),往往需要进(jìn)一步处理。下面将讨(tǎo)论在认体系中如何进行有效且充分(fèn)的感知处理(lǐ)。
4.1视觉(vision)
长期以来(lái),视觉是(shì)主要的感知模态,虽然最近(jìn)的研究建议更平衡的(de)感知体验(yàn)观[17],但(dàn)认知(zhī)结构的(de)研究仍(réng)然以视觉为中心(xīn),相对也是研究最(zuì)多的感知模态。尽管在机器人技术中,各种非视觉(jiào)传(chuán)感器(qì)(如声(shēng)纳、超声(shēng)波距离传(chuán)感器)和本体感(gǎn)觉传感器(如陀螺仪(yí)、圆规)被(bèi)用于解决诸如导(dǎo)航、避障和搜(sōu)索等视觉任务,但视觉输入占(zhàn)所有可能输入(rù)模式的一半以(yǐ)上。根据(jù)Marr[18]的说法,视觉处理通常(cháng)包括了三个不同(tóng)的阶段:早(zǎo)期、中期和(hé)晚期(qī)。早期视(shì)觉技(jì)术是数据驱动的,涉及到对视觉场景(jǐng)的并行处理(lǐ),提(tí)取简单的元素,如颜色、亮(liàng)度、形状(zhuàng)、运(yùn)动等。中期视觉技术(shù)将(jiāng)元素(sù)分组到(dào)区域中,然后在后期进行进一步处理,以识(shí)别(bié)对象,并使用可用的知识赋予它们(men)意义。尽(jìn)管Marr没有提到,但视觉注意机(jī)制、情感(gǎn)和奖励也会影响视(shì)觉处理的(de)各个阶段[19]。因此,感知和认知在各个处理阶段都是紧密关联(lián)的。
在认知体系中,基(jī)于图像理(lǐ)解(jiě)的视(shì)觉处(chù)理(lǐ)是分阶(jiē)段(duàn)进行(háng)的【20】。这些阶(jiē)段包括:1)强(qiáng)度(dù)-位置-时(shí)间值的检测和分组(产生边缘、区域、流向量);2)边缘(yuán)、区域等(děng)的进一步(bù)分组(产生表面、体积,边界、深(shēn)度信息;3)对象识别及其运动识别(bié);4)为实体建立以(yǐ)对象为中心(xīn)的(de)表示;5)基(jī)于任务为对象(xiàng)分配标签;6)时空推断实(shí)体之间的关系(xì)。在这里,只(zhī)有(yǒu)阶段1代表Marr三阶段理论(lùn)的早期阶(jiē)段,所有后续阶段都需要一个(gè)附加的任务(wù)或世界(jiè)知识。已(yǐ)经在第2阶段,特征的分组可以由(yóu)被观察的(de)特定对象的视点信息和知识来促进。最后,后(hòu)期阶段对从早期和中间处理结果中抽象出来(lái)的高(gāo)级表(biǎo)示(shì)进行推理和操作。
值得注(zhù)意的(de)是(shì),在许多(duō)图像理(lǐ)解的(de)研究中通过执行(háng)了隐式深度学习方法而实现的。在(zài)最近(jìn)几年中,我们已经看到了深度学习在图(tú)像处理和自然语(yǔ)言(yán)处理很多卓越表现,然而令人惊讶(yà)的是很(hěn)少认知架构(gòu)使用(yòng)它(tā)。在(zài)CogPrime、LIDA、SPA和BECCA中可以找到深(shēn)度学(xué)习在简单(dān)视觉任务中的一些应用。
图(tú)5显(xiǎn)示(shì)真实视觉和模拟视觉执(zhí)行处(chù)理的各个阶段。真实视觉系统只接收像素级(jí)的输入,而没有附加信息(如摄像机参数、物体的位置和特征等)。图像本身由相(xiàng)机生成,但体系结(jié)构不需要连接到物理相(xiàng)机。模拟视觉系统通常忽略(luè)早(zǎo)期(qī)和中期处(chù)理阶段,并以适合视觉(jiào)处理后期阶(jiē)段的形式接(jiē)收输(shū)入(例(lì)如(rú)形状(zhuàng)和(hé)颜色的符号描述、对(duì)象标签、坐(zuò)标等(děng))。技(jì)术上,任何不支(zhī)持真(zhēn)实视觉或其他感知模(mó)式的(de)体系(xì)结构,都可以通过(guò)接口进行扩展,该接(jiē)口将其连接到传感器或(huò)将原始数据(jù)预处理(lǐ)为更合适的格(gé)式(如Soar、ACT-R)。但图5仅仅显示执行(háng)了(le)什(shí)么样图像解释阶段,而没有反映(yìng)出这样处理的复杂性。
图5:这些阶(jiē)段从早期(qī)到后期(qī)依次为:1)特征,2)原(yuán)型对象,3)对象,4)对象(xiàng)模型,5)对象标签,6)空间(jiān)关系
不同深浅的蓝(lán)色用来表示属于早期、中期(qī)和晚期视(shì)觉的(de)过程。这个具有真实(shí)和模拟(nǐ)视觉的架构分别(bié)显示在左栏和右栏中(zhōng)。每列(liè)中的顺序(xù)按字母(mǔ)顺序排列。
4.2基于传感器的视觉(Vision using physical sensors)
大多数体系(xì)处理视觉(jiào)各个阶段都是(shì)物理嵌入的,包括机器人(rén)控制、生物启发和(hé)仿生结构。早期视(shì)觉(步骤1)通常涉及边缘检测和视差估计。然后(hòu)这些特征分(fèn)组(步骤(zhòu)2)为(wéi)具有类似特(tè)征(颜(yán)色、深度等(děng))的东西(xī),这些东西被解析(xī)为具有(yǒu)质(zhì)心坐标(biāo)的候选(xuǎn)对象(步(bù)骤3)。使(shǐ)用(yòng)离线方式学习对象模型(步骤4),并可用于(yú)对候选对象进(jìn)行分类(步骤5)。
基于生物启发的体系(xì)也使用计算机视觉算(suàn)法,并(bìng)遵循类似的处理阶段。例如(rú),用于目标(biāo)检测的神(shén)经网络(RCS、DIARC、Kismet),用(yòng)于(yú)对象(xiàng)识别的SIFT特征(DIARC),用于手部检测和跟踪的SURF特征、AdaBoost学习和高斯混合(iCub),用于(yú)识别人体并确定年龄性(xìng)别(bié)的Kinect和结合支持向量机的LBP特征(RoboCog和CORTEX)。
在有些体(tǐ)系结构中,视觉与(yǔ)记忆、控(kòng)制系统的联(lián)系(xì)更(gèng)加紧密,视觉处理中的一些步骤(zhòu)与人类视觉系统有明显的相关性。其中一(yī)个例(lì)子是显著(zhe)性【saliency?】,它根据视觉刺激的(de)特征或与(yǔ)任务的相(xiàng)关(guān)性(xìng),对视觉刺激的优先级(jí)进行建(jiàn)模。因此,显著性(xìng)被(bèi)用来(lái)寻找场景中感兴趣的区域(Kismet、ARCADIA、DIARC、iCub、STAR)。自我球,一种在一些机器人结构中发现的结构,模拟了海马体在感觉信息和(hé)动作整合中的功能,尽(jìn)管在生物学上不是合理的。本质上,自我(wǒ)球在机(jī)器人周围形成一个虚(xū)拟(nǐ)穹顶(dǐng),突出的物体(tǐ)和事(shì)件被映射到上面(miàn)。这个(gè)概念的各种实现包括在RCS、ISAC、iCub和MACSi中。
图2体系中的第三个亚组追求生物学上合理的视觉。其中一(yī)个最详细的例子(zǐ)是基(jī)于大脑腹侧通路解剖的Leabra视觉系统(LVis)。它模拟(nǐ)了初(chū)级视(shì)觉皮层(V1)、纹状(zhuàng)体外区(V2、V4)和下颞叶皮层(IT)。这(zhè)些区域中的计(jì)算大(dà)致(zhì)对应(yīng)于早期和(hé)中期处理步骤。LVis具有人类视觉系统(tǒng)的其他(tā)特征,例如在更高层次上(shàng)的神(shén)经元的更大的(de)感(gǎn)受野、层之间的相互联系以(yǐ)及限(xiàn)制跨层活动水平的反复抑制动力学。Darwin VIII(BBD)、SPA(Spaun)和ART的视觉系统也(yě)模仿了灵长类动物(wù)的腹侧视觉通路。
SASE架(jià)构并没有(yǒu)紧密地复制(zhì)人类(lèi)的视觉系统。相反,它使(shǐ)用具有局部(bù)连接的层次神经网络,每个神经元从(cóng)前(qián)一层的限(xiàn)制区域获得输(shū)入。一层内的感(gǎn)受野大小(xiǎo)相同,并且在(zài)较高的水平上增加。该系统在一(yī)个室内导航(háng)场景中的帆式机器人上进行了测试(shì)。MDB、BECCA和(hé)DAC中实现了类似的视觉方法(fǎ)。值得指出的是,尽管涌现范式没有显式(shì)地将标签(qiān)分(fèn)配给对象,但是(shì)它(tā)们能够形成场(chǎng)景中对象之间空间关系的某种隐(yǐn)式表示(shì)(比(bǐ)如向(xiàng)量表示),并(bìng)将(jiāng)这些表示用于视觉导航等任务(BBD、BECCA、DAC、MDB、SASE)
4.3模拟视(shì)觉(Simulated vision)
从图(tú)2可以明显看出,大多数模拟只支持视觉处理的后期阶段。最(zuì)简单(dān)的模拟是由物体(tǐ)填(tián)充的二维网格,例如ERE和PR使用的NASA TileWorld、GLAIR agents使用的Wumpus World、Ariadne agents使用的(de)二维迷宫和CLARION social agents设(shè)计(jì)的部(bù)落模拟。网格环境中的代理(lǐ)通常(cháng)只能看到有限的周围环(huán)境,每个方(fāng)向只能看到几(jǐ)个单元格。Blocks world是另一(yī)个经(jīng)典领(lǐng)域,其一般任务是构建各(gè)种形(xíng)状和(hé)颜色的块堆栈(ACT-R、ICARUS、MIDCA。
尽管它们的复(fù)杂性(xìng)和目的不同,不同(tóng)的模拟通常提供关于环境的相同类(lèi)型的数据(jù):对象、它们(men)的(de)属性(xìng)(颜色、形状、标签等)、代理(lǐ)本身的位置和(hé)属性、对象和环境因(yīn)素之间的空间关系(例如天(tiān)气和风(fēng)向(xiàng))。这种模拟主要用作(zuò)可(kě)视化工具,与直接输入的数据(jù)相(xiàng)差不大,因为几乎不需(xū)要(yào)任何感官处理。更高级的模拟将场景表示为具有角点(diǎn)颜色和三(sān)维坐标的多边(biān)形,这些角(jiǎo)点必须进一步(bù)处理(lǐ)以识别对象(Novamente)。否则,3D模(mó)拟的视觉真实(shí)性主(zhǔ)要是为了美学和感官,因为(wéi)信(xìn)息是(shì)直(zhí)接以符号(hào)形式提供(gòng)的(例如(rú)CoJACK,Pogamut)。
如(rú)前所(suǒ)述,图2并(bìng)不(bú)反(fǎn)映个体体系的环(huán)境或能力的复杂(zá)性差异。然而,在体现认知结构的环境之间的大小和真实性。例如,ATLANTIS控制的行星漫游者在户外岩(yán)石地形(xíng)中进行越野导航。销售机器(qì)人(rén)Gualzru(CORTEX)在一(yī)个满(mǎn)是人的大房间里移动,iCub(MACsi)从桌子上(shàng)识(shí)别并捡(jiǎn)起各种玩具(jù)。另一方面,简单即(jí)没有障碍(ài)的环境也被用于认知结构研(yán)究(BECCA,MDB)。此外,颜色编码对象是简(jiǎn)化视觉处理的常(cháng)用方法。例如,ADAPT跟踪(zōng)一个红色在桌子上滚动的球和DAC将自己朝向标记有(yǒu)不同颜色的(de)目标。此外,大(dà)多体系的应用只能(néng)识别少(shǎo)数不同的对象类别。只有(yǒu)Leabra能够区分几十个对(duì)象类别。随着OpenCV、Cloud Point Library或Kinect API等(děng)可用软件工具包的普及,可视化(huà)处理的质量(liàng)大(dà)大提高。但在试图建(jiàn)立(lì)通用的生物学(xué)意义上的(de)视觉系统模型,并没有取得太多进展。目前,应用仅限于受(shòu)控环(huán)境。
4.4听觉(Audition)
听觉是认知体(tǐ)系中一种常见的模态,因(yīn)为语音命令常常是用于指导智能系统或与之(zhī)通(tōng)信。由于听觉模态是纯(chún)功能性的,许多(duō)体系结构使用可用(yòng)的语音到文本软件而不是开(kāi)发听觉(jiào)模型。为(wéi)数不多的进行了听觉感知建模的体系(xì)包括了ACT-R、SPA和EPIC。例如,ARTWORD和ARTSTREAM被(bèi)用(yòng)来研究音(yīn)位整合和音源隔离(鸡尾酒会问题)。基于ACT-R发展了(le)一个音乐解释模型(xíng)。
使用(yòng)专用软件进行语(yǔ)音处理和通信有助于实现复杂(zá)性和现(xiàn)实主义。例如,在机器人应(yīng)用中(zhōng),它允许销售(shòu)机器人编写(xiě)脚(jiǎo)本在拥挤的房间里与人互(hù)动(CORTEX)或(huò)对话英语的(de)子集(CoSy)。一个更高级(jí)的应用包括使用语音识别来完成这个任务通过电话向公共图书馆订购书籍(jí)(FORR)。使用现成语音的(de)其他系统处理软件(jiàn)包括(kuò)PolyScheme和ISAC。在选择的体系中,大部分工作都是针对自然语言处理,即语(yǔ)言(yán)和语音所承载(zǎi)的语义信息,很(hěn)少有(yǒu)人(rén)注意(yì)到据情感(gǎn)内容(如响度、语速和(hé)语(yǔ)调)。在这个方向上的一些尝试都是(shì)社会机器人。例如,社交机(jī)器人(rén)Kismet不明白(bái)人们在说什(shí)么,但它可以根(gēn)据演讲的韵律轮廓来确定赞同、禁止或安慰(wèi)。这(zhè)个Ymir体系结构还具有(yǒu)韵律分析器和基于语法的语音识别器(qì),可以理解100个单(dān)词(cí)的(de)有限词汇(huì)。甚至(zhì)声(shēng)音本身也可以作为线索,例如(rú),BBD机器人可以将自己定(dìng)向到(dào)一个响亮的声音源。
4.5符号输入(Symbolic input)
符号输入结合了几种不(bú)同于(yú)物理传感和仿真模(mó)拟的输入,包括(kuò)了文本命令、数据(jù)以及通过(guò)GUI的输入。文(wén)本是用于执行规划和(hé)逻辑推理任务的典型输入形式(例如:NARS , OSCAR , MAX , Homer )。文本命令通常是根(gēn)据(jù)体(tǐ)系结构(gòu)中使用的基元(yuán)谓词编写的,因此不(bú)需要额外的解析。
4.6 多模态(tài)感知
在前面各(gè)节中,单独(dú)考虑了各种的感知模(mó)式。然而,在(zài)现(xiàn)实中人(rén)脑从不同(tóng)的感官接(jiē)收到源源不(bú)断的信息流,并将其(qí)整(zhěng)合(hé)成(chéng)一个关(guān)联的世界表(biǎo)征。认(rèn)知结构也是如此(cǐ),因为(wéi)近一(yī)半(bàn)的认(rèn)知结构有两(liǎng)种及以(yǐ)上不同的感(gǎn)知模式(图1)。并非(fēi)所有这些模式可(kě)能出现(xiàn)在一个单(dān)一的体系中,大多数体系同时使用两种不(bú)同(tóng)的模式,例如视(shì)觉和听(tīng)觉、视觉和符号输入或(huò)视觉和距(jù)离传感器。除了少数(shù)例外(wài),这些体系结构基本上执行了认知科学中的(de)特征集成或机器人(rén)学中的传感器数据融合。显(xiǎn)然(rán),可以使用不同的传感器(qì),而不必(bì)显式地(dì)组(zǔ)合它(tā)们的输出。
多感(gǎn)知通过互补和冗余提高感知的稳健(jiàn)性,但在实践中,使(shǐ)用(yòng)许多(duō)不同的传感(gǎn)器会带来许多挑战,例如不完整或虚假或冲突的(de)数据、具有不同属性的数据(例如维(wéi)度(dù)或值范围)、对(duì)数据对齐(qí)和关联的需(xū)要等。机器(qì)人研(yán)究领域(yù)对这些实际问题进行了(le)深入的研究,但是还没有提出通用的解决(jué)方案。每个解决方(fāng)案都必须为特(tè)定的应用(yòng)程序定制,这是大多数认知架构(gòu)采用的一种普遍做法。不幸的是(shì),文献中(zhōng)很少有技(jì)术信息来确定所使用的(de)确(què)切技术,并将(jiāng)它们与已建立的分类法(fǎ)联系起来。
总的(de)来说,传感器集成的(de)特定(dìng)实(shí)现(xiàn)依赖于用于推理和任务(wù)的(de)知识表示。在(zài)典型的具有(yǒu)符号推理的体系结构中(zhōng),来(lái)自不(bú)同(tóng)传感器的数据被独立地(dì)处理,并(bìng)映射到以代理为中心的3D地(dì)图上,该地图可用于导航(CaRACAS , CoSy)。在社(shè)会机(jī)器人的应用中,世界的表(biǎo)现形式可以(yǐ)是一(yī)个围绕着主体的自我球体,它包(bāo)含以自我为中(zhōng)心的坐标(biāo)和(hé)视觉(jiào)检测对象(xiàng)的(de)属性(xìng),这些都与通过三角测量确定的声音位置(zhì)相(xiàng)关联(ISAC,MACsi)。
RCS,一个具有(yǒu)层(céng)次结构的(de)模型,在每个层(céng)次上都有一个具有相应世界(jiè)表示的(de)感知处理模(mó)块(例如(rú):像素图、3D模型、状态表等)。有些体系隐式地(dì)执行(háng)数据关(guān)联和对(duì)齐,即传感(gǎn)器数据和特征提取(例如,来自摄像机的物体坐(zuò)标和来自激光的(de)障碍物距(jù)离)是独(dú)立进行的。然后将提取的信息直接(jiē)添加到工(gōng)作内存。任何模(mó)棱两可和(hé)不一致都可以通过高阶推理(lǐ)过程来(lái)解决。这是分布式体(tǐ)系结构中(zhōng)的一种常见方法,其中独立模(mó)块(kuài)同(tóng)时(shí)为实现一个共同(tóng)目标而工作(例(lì)如CERACRANIUM、Polyscheme、RoboCog、Ymir和LIDA)。
在许多受生物启发的体系(xì)中,不(bú)同(tóng)传(chuán)感器的读(dú)数之间的关联被学习。例如(rú),DAC使用Hebbian学习来建立(lì)数据对齐,以便将不同感知模式的神经表示映射到一个(gè)共同的框架,模拟大脑上丘(qiū)的功能。ART通过(guò)神经(jīng)融(róng)合(ARTMAP网络)将视觉和(hé)超声(shēng)波感官信(xìn)息集成到移动机器人导航中(zhōng)。同样,MDB使用神(shén)经网络从传感器输入学习世界模型(xíng),并使(shǐ)用遗传算法(fǎ)调整网络参数。
目前为止提到的所有方法都有(yǒu)一些相似的传感集成,因为都使(shǐ)用空间和时间的接近(jìn)或学习来消除多模(mó)态数据的歧(qí)义。但总的来说,只有很少的体系(xì)在感知(zhī)层面(miàn)上追(zhuī)求生物逼真度。唯一的一个在生物(wù)学上看似合理的感知集成模型是用(yòng)基于大脑的设备(BBD)体系,被称(chēng)为Darwin XI的具体神经模型是用来研究多感(gǎn)觉信息(来(lái)自触摸传感器、激光、相机和磁罗盘)的整合和在迷宫导航中的海马体[163]。Darwin XI的(de)神经网络由大约(yuē)80000个神经元和(hé)120万(wàn)个(gè)突触(chù)组成,并模(mó)拟50个(gè)神经区域。在损伤研究(jiū)中,通过去除一个或多个(gè)感(gǎn)觉输入(rù)并重新映射感觉神经(jīng)元单元,证(zhèng)明了系统的鲁棒性。
一(yī)般来说,很多认知体系在很大程度上忽(hū)略了跨模态交互作用。这些体系,包(bāo)括面向生物和(hé)面向认知的,在处理不同的感知(zhī)模式时通常采用模块化的方法。同时(shí),在过去几(jǐ)十年中进(jìn)行的许多心理和神经成像实(shí)验表明(míng),不同的感知相(xiàng)互影响(xiǎng)。例如,视觉(jiào)改变(biàn)听(tīng)觉处理,反之亦(yì)然。然(rán)而,据我们所知,一些仿生体系(xì),如上文提到(dào)的BBD,可能代表跨模态效应,这个问题还有待调研(yán)。