加州大學(xué)舊金山分校的科學(xué)家利用深度學(xué)習(xí)算法開發(fā)出了一套高效的語音合成器,,有望讓因為患病而失聲的人群以正常的語速“說話”,,相關(guān)的研究成果發(fā)表在了 4 月 24 日出版的《自然》(Nature)上。
中風(fēng),、腦癱,、肌萎縮性脊髓側(cè)索硬化癥(漸凍癥)等疾病都有可能會讓患者失去說話的能力,。目前市面上已有一些設(shè)備能夠通過追蹤患者眼球或者面部肌肉運動的方式,逐字拼出患者想要說的話,,再利用語音合成器將這些話“說”出來,。最為著名的例子就是身患漸凍癥的已故英國物理學(xué)家斯蒂芬·霍金在晚年的時候需要利用單邊臉頰肌肉控制語音合成器發(fā)聲。
但是這樣的方式溝通效率極其低下,,一般每分鐘不會超過 10 個單詞,,而正常人說話的語速大約是每分鐘 150 個單詞。
不同于先打字再朗讀的方式,,加州大學(xué)舊金山分校的科學(xué)家試圖利用算法,,建立起大腦信號和聲道(vocal tract)活動間的關(guān)系——找出這樣的關(guān)系之后,便能夠?qū)⒋竽X中的信號轉(zhuǎn)變?yōu)橄鄳?yīng)的聲道運動,,進而發(fā)出聲音,。
為了實現(xiàn)這一點,研究人員招募了 5 名患有癲癇的志愿者,。志愿者均能正常說話,,而且他們的大腦中被臨時植入了用于術(shù)前確定病灶的電極。這就讓研究人員能夠在志愿者說話的同時,,監(jiān)測大腦語言中樞的活動情況,。
研究人員要求志愿者大聲朗讀一些給定的句子,在志愿者朗讀的同時,,大腦中語言中樞的活動便被記錄了下來,。之后,研究人員將這些大腦活動記錄與之前已經(jīng)確定了的聲道運動數(shù)據(jù)進行了結(jié)合,。
研究人員利用這些數(shù)據(jù)對一套深度學(xué)習(xí)算法進行了訓(xùn)練,,然后將算法整合進了解碼器中。這一裝置先將大腦信號轉(zhuǎn)變?yōu)槁暤肋\動,,再將聲道運動轉(zhuǎn)變?yōu)楹铣烧Z音,。
未參與這項研究的圣地亞哥州立大學(xué)的神經(jīng)學(xué)家 Stephanie Riès 表示通過將大腦活動與聲道運動進行聯(lián)系、再將聲道運動轉(zhuǎn)換成聲音的方式所生成的語音,,要比直接將大腦活動與聲音進行聯(lián)系所生成的語音更加容易讓人理解,。
“實際上,,我們中很少有人真正知道當(dāng)我們說話的時候,,我們的嘴巴發(fā)生了什么,”論文的通訊作者,、神經(jīng)外科醫(yī)生 Edward Chang 說,,“大腦把你想說的話轉(zhuǎn)化成聲道運動,而這就是我們試圖解碼的東西,?!?Chang 表示,,聽過合成句子的人平均能夠理解其中 70% 的單詞。
科學(xué)家們此前已經(jīng)利用人工智能技術(shù)將大腦活動解譯為單個單詞,,不過大部分都是簡單的單音節(jié)單詞,。“從單音節(jié)跳躍到句子在技術(shù)上非常具有挑戰(zhàn)性,,這也是這項研究令人如此印象深刻的地方之一,,”未參與這項研究的埃默里大學(xué)(Emory University)的神經(jīng)工程師 Chethan Pandarinath 評論說。
“當(dāng)我們第一次聽到結(jié)果的時候,,其實挺震驚的——我們簡直不敢相信自己的耳朵,。令人難以置信的是,真實語音里的許多方面在合成器輸出的語音里都得到了呈現(xiàn),?!闭撐牡墓餐髡摺⒓又荽髮W(xué)舊金山分校的博士生 Josh Chartier 說,,“當(dāng)然,,讓語音變得更加自然和清楚還有許多工作要做,不過我們對于能夠解碼多少大腦活動印象深刻,?!?/p>
“我們希望這些發(fā)現(xiàn)為那些表達受阻的人們帶來希望,有一天我們將能夠恢復(fù)交流的能力,,這是我們作為人類的基礎(chǔ)之一”,,他補充說。
我們做了一個壁紙應(yīng)用,,給你的手機加點好奇心,。去 App 商店搜好奇怪下載吧。