人工智能里面有一(yī)部分算法是需要数据的,首先要进去数据,然后才能(néng)学习(xí)。
比如一个大数据库叫ImageNet,有十(shí)几(jǐ)亿张图片(piàn),用了这么大量的(de)图片(piàn),我们才能训练我们的深度神经(jīng)网络(luò)去(qù)做图片中猫猫、狗狗(gǒu)、车辆的(de)识别。
如果没有这些海量的数据,很多(duō)机器学习算法是不能用的,像我们现在看视频网站它是面向(xiàng)百亿特征,千亿(yì)参数,万亿样本,你没有万亿样本就(jiù)支撑不了百亿特征,你可能要(yào)有(yǒu)一个亿的(de)样本才有可能支撑(chēng)百万特征,而且深度学习是需要海(hǎi)量特征做特征工程的,所以这个时候大数据(jù)实际是很多机器学习(xí)算法得以能够发展的基础(chǔ),但(dàn)是发展(zhǎn)到一定程度,有些算法它又突(tū)然脱离数据(jù)了,比如(rú)说我们做增(zēng)强(qiáng)学习,像早期的阿法狗(AlphaGo),它(tā)学了几(jǐ)十万专业棋手(shǒu)之间的对局,它是大师,那它就下得(dé)很(hěn)好,后(hòu)来(lái)的阿法Zero(AlphaZero),它是自己和自(zì)己下棋,反正有规则(zé),所以它的数据实际不(bú)是真的数(shù)据,是生(shēng)成出来的(de),它没(méi)有用真实数据(jù),但(dàn)是它用了增强学(xué)习,所以说它最后下得比阿法狗还强。
我觉得从大的范(fàn)畴(chóu)来说(shuō),大数据人工智能(néng)肯定是互相(xiàng)增益的,没(méi)有(yǒu)人工智能很多数据发挥不了价值,更多时候我们需要人工智能算法才能挖掘大数据的价值,相当于一(yī)个是矿,一个是挖掘和提炼矿的这样一个设备和(hé)工厂,人工智能是后者,很大程度上(shàng)有(yǒu)了数据我们才能开发出数(shù)据相关的人工智能算法,但是有(yǒu)些算(suàn)法和数据(jù)无关,大体是这样的关系。