百度AI開發(fā)者大會中,,百度CTO王海峰博士開場就帶來了一段機械臂倒蓋碗茶的現(xiàn)場演示,。
這個機械臂既會茶藝絕活兒,還能說會道——它主要融合了機器人視覺,、語音,、自然語言處理等多種人工智能技術(shù)。此外,,王海峰也宣布百度大腦升級至5.0,,形成了包括基礎(chǔ)層、感知層,、認知層,、平臺層和AI安全五大部分的核心架構(gòu),。
“百度大腦”這個名詞最初是在2014年從李彥宏口中說出的,他當(dāng)時對外透露說:“百度大腦大約已經(jīng)相當(dāng)于2~3歲孩子的智力水平,?!?016年的百度世界大會上,百度首次向外界全面展示了組成“百度大腦1.0”的全貌,。
如今,,“百度大腦” 進入5.0階段,成為軟硬件一體的AI大生產(chǎn)平臺,,核心算法再獲重大突破,,首次公布端到端AI計算架構(gòu),并實現(xiàn)了AI計算,、計算架構(gòu)與應(yīng)用場景的創(chuàng)新融合,。
語音識別速度大幅提升,準(zhǔn)確率提15%-20%
百度語音技術(shù)部高級總監(jiān)高亮,,在開發(fā)者大會現(xiàn)場說了一段Rap:Hello Everyone,,中英混合說是我們的everyday work,Explore技術(shù)的depth和scope是我們的responsibility……這段中英夾雜的話被百度輸入法流暢,、精準(zhǔn)、及時地識別出來,。
這背后是百度大腦流式多級的截斷注意力模型(SMLTA),,它能讓語音識別速度大幅提升,準(zhǔn)確率提15%-20%,,是首個基于流式注意力的語音識別線上服務(wù),。
基于語音、視覺技術(shù),,自動合成虛擬形象
浦發(fā)銀行的數(shù)字人是怎么“煉”成的,?它實際上是結(jié)合語音和視覺技術(shù),機器自動合成的虛擬形象,。
王海峰介紹,,實時合成虛擬形象技術(shù),首先需要對語音信號和視頻信號進行實時識別與理解,,再通過唇動生成,,以及語音、面部和肢體的合成,,實時合成一個虛擬形象,。這波操作背后,是百度大腦多項AI技術(shù)能力的體現(xiàn),。
視頻語義理解技術(shù)實現(xiàn)精準(zhǔn)解析
王海峰展示了關(guān)于中國民間藝術(shù)的音樂紀(jì)錄片《大河唱》中的片段,,影片中的角色,、人物關(guān)系、音樂種類,、取景地,、影片主題等信息,都被精準(zhǔn)解析,。這背后是基于知識圖譜的視頻語義理解技術(shù),。
推出知識增強的語義理解框架ERNIE
百度大腦語音、視覺,、語言和知識等核心算法法再度重磅升級,,發(fā)布6大技術(shù)突破。
包括業(yè)界領(lǐng)先的流式多級的截斷注意力模型(SMLTA)和風(fēng)格遷移的語音合成技術(shù),;知識增強的語義理解框架ERNIE和基于知識圖譜的視頻語義理解技術(shù),;業(yè)界首創(chuàng)的高準(zhǔn)確、低時延的機器同傳技術(shù),。
值得關(guān)注的是,,在語言方面,百度大腦推出知識增強的語義理解框架——ERNIE,,再次全面刷新了中文自然語言處理任務(wù)效果,,超越谷歌BERT。
繼去年開發(fā)者大會發(fā)布“昆侖”芯片后,,今年,,王海峰發(fā)布了一款新的芯片——遠場語音交互芯片“鴻鵠”。鴻鵠芯片使用了HiFi4自定義指令集,,雙核DSP核心,,平均功耗僅100mW。這款芯片是根據(jù)車規(guī)級標(biāo)準(zhǔn)打造,,將為車載語音交互,、智能家具等場景帶來巨大的便利。
百度飛槳與華為麒麟芯片合作
今年開發(fā)者大會最大的亮點來了,。王海峰與華為消費者BG軟件總裁王成錄博士聯(lián)合宣布,,百度飛槳與華為麒麟達成深度合作。