据(jù)VentureBeat报道,在语(yǔ)音嘈杂的环境中,要想分辨出(chū)有几(jǐ)个人讲话、在什(shí)么时间讲话,对于(yú)机(jī)器来说(shuō)非常困(kùn)难。但谷歌人(rén)工智能(AI)研究(jiū)部门在(zài)语音识别方面(miàn)取(qǔ)得了新进展,能以92%的准确率(lǜ)识别出每个人声音的专(zhuān)属模式。
谷歌AI研究部门(mén)在最新名为《FullySupervisedSpeakerDiarization》的(de)论文和相关(guān)博客文(wén)章(zhāng)中,研(yán)究人员描述了一种新的AI系统,它“能(néng)以(yǐ)一种更有效的方式识别声(shēng)音”。
这套系统(tǒng)涉及到Speakerdiarization任(rèn)务,即(jí)需(xū)要标注出(chū)“谁(shuí)”从“什(shí)么时候”到“什么时候”在说话(huà),将语音样本分割(gē)成(chéng)独特的、同构片段的(de)过程。强(qiáng)大(dà)的AI系统必须能够(gòu)将新的演讲者发音与它(tā)以(yǐ)前从(cóng)未遇(yù)到(dào)过(guò)的(de)语音片(piàn)段关(guān)联起来。
这篇(piān)论文(wén)的作(zuò)者声称,核(hé)心算法已经可在(zài)Github上的开源软件中(zhōng)可用,它实现了一个在线二值化错误率(DER),在NISTSRE2000CALLHOME基准上是7.6%,这对于实时应用来(lái)说已经足够低了,而谷歌之前使用(yòng)的方法DER为8.8%。
谷歌研究人(rén)员的新方(fāng)法是通过递归神经(jīng)网(wǎng)络(luò)(RNN)模拟演讲者的(de)嵌(qiàn)入(如词汇和短语的数学表示),递(dì)归(guī)神经(jīng)网络(luò)是一种机器学习模型,它可以利(lì)用内部状态来处理输入序列。每个演(yǎn)讲者都从自己的RNN实例开始,该实(shí)例不断(duàn)更新给定(dìng)新嵌入的RNN状态,使(shǐ)系(xì)统能够学习发言者共享的高级知识。
研究人员在(zài)论(lùn)文中写(xiě)道:“由于该系统的所有(yǒu)组件都可(kě)以在监督环境下学习,所以在(zài)有(yǒu)高质量时间标(biāo)记演讲者(zhě)标签训练数据的情况下,它比无监督系统更(gèng)受青睐(lài)。我们的系统受到全面监督,能够从带(dài)有时间戳的演讲者标签例(lì)子中学习。”
在未来的工作(zuò)中(zhōng),研究团队计(jì)划(huá)改(gǎi)进模(mó)型,使(shǐ)其能够集成上下文信息来(lái)执行脱(tuō)机(jī)解码,他们希望这将进(jìn)一步减少(shǎo)DER。研究人员还希望能够直(zhí)接对声学(xué)特征进行建模,这样整个Speakerdiarization系统就(jiù)可以进行端到端训练。