AI技术要(yào)实(shí)现应用,首(shǒu)先数据要达到一定的体量(liàng),此外(wài)算力也(yě)要能支持(chí)大规模的模型(xíng)训(xùn)练,而后算法(fǎ)方(fāng)面需要达到一定的精度,端侧(cè)算力也要具备一定(dìng)的推理(lǐ)能力。之所以目前只有消(xiāo)费互(hù)联网公司(sī)在大(dà)规(guī)模应(yīng)用AI算法技术,主要(yào)是在这三方面消费(fèi)互联网公(gōng)司都(dōu)更具优势。——朱鹏飞 天津大(dà)学智(zhì)能与(yǔ)计算学部副教授
近(jìn)日,知名人工智能学者吴恩达发表文章,阐述了(le)他(tā)对(duì)于人工智能在传统行业中应用缓慢的理解。无论是(shì)刷短视频(pín)时(shí)的个性化推荐,还是外卖配送时的耗时(shí)预估(gū),或者(zhě)是移(yí)动(dòng)支付时的人脸(liǎn)识(shí)别,以算法为代(dài)表的AI技术在(zài)消费互联网行业被应用得(dé)“得(dé)心应手”。然而提到(dào)传统行业,人们却很难快速想起(qǐ)非常成熟的(de)应(yīng)用人工(gōng)智能(néng)的(de)典型案例。为何(hé)AI技术在传统(tǒng)行(háng)业的应用速度和范围远不如消费互联网等行业?
消费(fèi)互联(lián)网行业应用(yòng)AI更具优势
“AI技(jì)术的应用主要取决于(yú)数据、算力和(hé)算(suàn)法。”天津大学智能与计算学部副教授(shòu)朱鹏飞介绍(shào),首先数(shù)据要(yào)达(dá)到一定(dìng)的(de)体量,这是应用的基础,此外算力也要能支持大规模(mó)的模型(xíng)训练,而后(hòu)算(suàn)法方(fāng)面需要达(dá)到一定的精(jīng)度(dù),端侧(cè)算力也(yě)要(yào)具备一定的推理能力。
之所以目前只有消费互联网公司(sī)在大(dà)规模(mó)应用AI技术,主要是在这三方面(miàn)消费互联网公司都更(gèng)具优势。
前(qián)些年短视(shì)频(pín)并没有(yǒu)现在这么火(huǒ)爆,例如发展初期的淘宝,也(yě)并没有很强的(de)用户黏性(xìng)。而随着推送越来(lái)越精(jīng)准(zhǔn),用户的体验感也得到了极大的提升(shēng),最终呈现(xiàn)井(jǐng)喷式(shì)的用户增长(zhǎng)。
“精(jīng)准推(tuī)送主要依赖于算法精度的提升,而算法精度的(de)提升(shēng)又(yòu)离不开海(hǎi)量的数据作为基础(chǔ)。”朱(zhū)鹏(péng)飞解释(shì),在这个单一的(de)场景中,算(suàn)法模型需要不断进化,终(zhōng)身学习。由(yóu)于不(bú)是封闭(bì)数据环境,总(zǒng)有新的数(shù)据(jù)加入,算法模(mó)型(xíng)需要(yào)不断(duàn)通过学习进行调整、迭代升(shēng)级,使(shǐ)其精度越来越高,形成一个良(liáng)性循环(huán)。
“与此同时(shí),虽(suī)然目前消费互联网(wǎng)行业(yè)在算(suàn)法(fǎ)精(jīng)度上(shàng)已(yǐ)经上升到一定的(de)高(gāo)度,但相比一些(xiē)传(chuán)统行业的应用(yòng)场景,消费互联网行业对于AI算(suàn)法精(jīng)度接受的阈(yù)值都比较(jiào)低。比如短视频、淘宝偏好(hǎo)推荐、百度热(rè)搜关键词,只需要达到用户产生(shēng)黏性(xìng)的目的,只要有一(yī)定准确性,用户都可以(yǐ)接受。”朱鹏飞表示,相比之下,在很多传统行业,对于技术精度的要求就高得多。比如(rú)基于视(shì)觉的(de)AI技术在人脸识别方(fāng)面的(de)应用,在高铁站、飞机场核实身份(fèn),1∶1的比对准确度要高达99.99%甚至更高(gāo)才可以进行应(yīng)用。
在(zài)算(suàn)力方面,目前云端算力已(yǐ)经可以支持(chí)大规模模型训(xùn)练和(hé)推(tuī)理,比如短视频、淘宝推荐等(děng)。但(dàn)在大量传统行(háng)业应(yīng)用场(chǎng)景中(zhōng),智(zhì)能(néng)终端(duān)上的端侧算力还无法满足推理的实时(shí)性和准确性要(yào)求。
“相比于(yú)社交(jiāo)网络(luò)和电(diàn)商系统,传统行(háng)业应用场景的封闭生态系统使得云端算力无法得到有效应用。”朱鹏飞举例(lì)说,以智能无人系统(tǒng)巡检(jiǎn)为例,电力巡检、管道(dào)巡检、交通巡检、河道巡检以及(jí)光伏巡检等要求搭载(zǎi)在无人机(jī)和机器(qì)人上的(de)算力满足实(shí)时(shí)巡检要(yào)求,由于视频(pín)分析的模(mó)型复杂度(dù)较高,端侧往往无法实现精准高效的(de)实时推理,轻量级网络在满(mǎn)足实时(shí)性的同时(shí)损失了识别精度。由于算法精(jīng)度(dù)达不到使(shǐ)用要求(qiú),使得在很多场景中无法实(shí)现AI技术的应用。
传统行(háng)业应用AI面临三大挑战
吴恩达认为,在AI应用方(fāng)面,消(xiāo)费互联(lián)网行业之外的其他行业都(dōu)面临着三大挑战:数据(jù)集(jí)很小;定(dìng)制(zhì)化成本很高;从验证想法到部署生产的过程很长。
对此,朱鹏飞也深有感触,他以(yǐ)传(chuán)统制造业为例进行了(le)分析。
“传统制造企业在(zài)制(zhì)造向智造(zào)转型(xíng)的过程中,数据是一个很(hěn)突(tū)出的问题(tí)。”朱(zhū)鹏飞介绍(shào),首先在数据的获取方面存(cún)在一定难度。传(chuán)统制造企业的数据是封(fēng)闭的(de),因为很(hěn)多传统企业并不是新(xīn)型(xíng)信息化设备,没有传感器(qì)收集(jí)实时数据,也没有数(shù)据(jù)中心,因(yīn)此数据零散,缺失(shī)严重,很难(nán)获(huò)取像消费互联网企业里那种(zhǒng)海量、高质量的数据。
其次,行业内部各个(gè)工厂的数据很多具有商(shāng)业价值,因此(cǐ)工厂都严格(gé)保(bǎo)密,这导致(zhì)数据不流通,没有办法(fǎ)进行共享,进而形成(chéng)了数(shù)据孤(gū)岛效(xiào)应,影响了AI算法(fǎ)模(mó)型的优化(huà)。
“我们在开发一个AI算法模型的时候,因为数据的保(bǎo)密性,往往得到的数据都是经过‘脱敏’的,这也严重(chóng)地影响了我(wǒ)们的判(pàn)断。而传统行业的企业中(zhōng),又缺乏(fá)具(jù)有AI算法(fǎ)模型开(kāi)发能(néng)力(lì)的技术人员,因此双方在(zài)合作研发过程中也存(cún)在着很高(gāo)的壁垒(lěi)。”朱鹏飞说(shuō)。
此外,传统(tǒng)行(háng)业中的数据来源并不像(xiàng)消费(fèi)互联网领域那(nà)样来(lái)自单一场(chǎng)景,复杂的业务(wù)场(chǎng)景导致数据(jù)往往很(hěn)“脏”,必(bì)须进行“清洗(xǐ)”,去掉大(dà)量无效信(xìn)息(xī),AI算法(fǎ)模型才(cái)能高效率(lǜ)的学习以提高精度(dù)。“这就像我们教小朋友知识,只讲知识(shí)点,小朋友们才(cái)能学得快,如果在(zài)知(zhī)识点中(zhōng)夹杂(zá)着大量无用的信息,小朋(péng)友(yǒu)无从分辨,学习效率肯(kěn)定降低。”朱鹏(péng)飞介绍(shào),而给数据标注“知识点(diǎn)”的工作是巨大而(ér)繁琐的(de),需要(yào)企业有专人去做,要花费很多(duō)时间(jiān)精力。
“传统制(zhì)造业要想获得高质(zhì)量的数据,就必须对生产设(shè)备进行(háng)信(xìn)息化(huà)、智(zhì)能(néng)化的改造。”朱鹏飞表示,这种改造需要(yào)企(qǐ)业(yè)投入大量的时间(jiān)和精力,还会增加(jiā)生(shēng)产成本,这也成为AI在传统(tǒng)制造业中应用的壁垒。
高质量数(shù)据是应用(yòng)前提
过(guò)去这10年(nián),大部分(fèn)AI的研发和应用是“以软件(jiàn)为中心(xīn)”驱动的。在海量数据的支(zhī)撑(chēng)下,不断优化软件和(hé)算法,来(lái)获得(dé)更高的算法(fǎ)精度(dù)。在传统行业无法(fǎ)提(tí)高(gāo)数据质量和数量的情(qíng)况下,吴恩达认(rèn)为(wéi),传统(tǒng)行(háng)业应该采用“以数据(jù)为中心”的模式,把重点放在(zài)获(huò)得质量更好、匹配度更高的数据(jù)上。
“在这种(zhǒng)思路下,传(chuán)统行业也涌现了一(yī)些不错的应用案例(lì)。比如医学(xué)领(lǐng)域的影像识别(bié)AI系统(tǒng),可以帮医生‘看(kàn)’CT影像片子,对肿瘤等病变加以(yǐ)识(shí)别,辅(fǔ)助医生做(zuò)出(chū)判(pàn)断。”朱鹏飞介绍,由于很多数据(jù)都由专业(yè)的放射科医生在影像(xiàng)片子上进行了(le)标注,因此数据比较准确,AI算法模型在学习的(de)过程中进步很(hěn)快(kuài)。目前(qián)很(hěn)多影像识别系统的准(zhǔn)确率都(dōu)能达到90%以上(shàng),由于是(shì)辅助医生,最后还需医生做医疗决策(cè),但这个水平的准确率在很大程度上降低了医(yī)生的工作强度。
“尽管传统(tǒng)行业(yè)有了一些应用AI技术的成功案例,但是要想更好地和AI结合,还得在提高数据质(zhì)量方面下功夫。”朱鹏飞建议,首(shǒu)先对(duì)于已经积累了海量数(shù)据(jù)的(de)传统行业,在保证数据安全的(de)前提下,主(zhǔ)动开放数据。挖掘数据中蕴藏的价值,和需(xū)求关联起来,会(huì)有很大的(de)发展(zhǎn)空间。其次(cì),对(duì)于新兴行(háng)业(yè),比如新能源汽车(chē)等,在构建智能工厂规划的时候,就把获取(qǔ)数(shù)据、智能化的因素考虑进去。
不(bú)过朱鹏飞强(qiáng)调,在传统行业(yè)用好AI技术的同时,也不(bú)要(yào)滥(làn)用AI技术(shù),在应用前(qián)做好评估,如果不能提高生产效率,对行业整体有所(suǒ)提升,那么(me)盲目(mù)强行使用AI技术,就是对资源的浪费。“比如一些应用场景需要AI算(suàn)法达到99%以上的精(jīng)度才可以使用,通过评估(gū),现有模型算法只能达到(dào)90%的精(jīng)度,那么这个场景就没必要强行上马AI技术了。”
“总(zǒng)而言(yán)之,对于AI技术的应用要数据先(xiān)行,有高质量的数据再谈应用,没有好的数据很难有好的(de)应用(yòng)。”朱(zhū)鹏(péng)飞说。