圖像,、語音成為近兩年最熱門的概念,,所謂娛樂驅動市場,市場驅動技術發(fā)展,。在多元化的互聯(lián)網(wǎng)圈里“好玩”才能紅,,而圖像與音像也從過去的美化處理往更高深的技術領域前進,,在2016年,智能的語音識別和圖像識別將走進普通人的生活中,,它們會有哪些展望和動作呢?讓我們所見所聽的世界將變得生動起來,。
語音識別
語音識別技術雖然起源于1952年,但真正進入消費市場已經(jīng)是上世紀90年代的事了,。目前語音識別有兩大發(fā)展方向,,一個是純機械指令,,基于產(chǎn)品定位而設計命令詞組,作為高效的輔助工具存在;一個是智能化理解語境,,與人進行互動交流,,并承擔部分處理工作。后者可能是語音識別未來的發(fā)展方向,,但實際應用中兩者并不沖突,。簡單精準的機械指令讓工作更為純粹,沒必要做多余的計算動作,。而很多智能設備將語音作為“解放雙手”的第三類互動形態(tài),,就需要對人的語境進行“理解”,相信很多朋友都玩過siri,、GoogleNow,、Cortana,也同時體驗過這些語音助手“會錯意”的賣萌行為,。老羅在去年堅果發(fā)布會上曾說所有語音助手都是“偽”智能,,雖然有點以偏概全,但目前語音對語境的識別確實還不夠智能,,遠不如機械指令效率,。不過這些問題隨著深度學習等AI領域技術的崛起將逐漸克服。
圖像識別
圖像識別從以圖搜圖到明星,、物體識別,,再到場景識別,甚至現(xiàn)在延伸到了視頻領域,,給行業(yè)帶來了太多驚喜?,F(xiàn)在圖片內容的價值已經(jīng)超越圖片本身,并且建立了從圖片到電商的商業(yè)模式,。圖像識別一般針對畫面中一個對象做識別,,比如大眾熟知的人臉、明星臉等識別技術已經(jīng)很成熟了,,基本識別率達到90%以上,。近年、服飾品牌的同款識別和風景識別大行其道,,為旅游行業(yè)和服飾行業(yè)創(chuàng)造了商機,。圖像識別在視頻領域涌現(xiàn)出強大的應用前景,新興起的互動視頻技術video++已經(jīng)實現(xiàn)視頻中的人臉和服飾同款的識別,,基于圖像識別技術發(fā)展視頻中的商業(yè)場景,。另外瞳孔識別的研究已經(jīng)提上日程,不久的將來,,科幻片中所見即所得的情景不再是幻想,。
深度學習
沒有基礎的技術實力,,語音和圖像是好玩不起來的,而高級和低級的門檻就在深度學習的研究上,。國內雖然起步較晚,,好歹在去年趕上了這波風潮,包括圖像識別和語音識別在內,,還有自動駕駛,、無人機、環(huán)境還原,、機器人等項目,前段時間很火的谷歌AlphaGo在圍棋領域擊敗了歐洲二段冠軍,,也是歸功于深度學習的算法支持,。可以說跟用戶有交互行為的產(chǎn)品,,都開始進行深度學習AI的研究了,。通過神經(jīng)網(wǎng)絡的訓練學習,語音識別變得更聰明,, 實現(xiàn)快速精準的識別動作以外,,還能對下一句的語境情緒進行預測,模擬真人對話,。另外,,語音識別大量運用在翻譯市場,爭取未來十年內在專業(yè)翻譯領域完全替代人類,。圖像識別過去大多是建庫識別,,深度學習釋放了圖像識別的識別領域,把識別對象的年齡變化記憶下來,,實現(xiàn)動態(tài),、多角度、不同光照變化下的識別,。
應用領域
安防市場是要求語音和圖像識別技術雙高的行業(yè)之一,,未來將不局限在解鎖開門等基礎功能,運用圖像識別技術,,實現(xiàn)對象動作識別,,根據(jù)威脅等級進行危險性判斷,提前發(fā)出警報或報警,。語音識別的運用領域將超高端化發(fā)展,,近年來語音識別速度屢創(chuàng)新高,在翻譯市場,、智能硬件助手,、AI輔助,,行車幫助等等方面實現(xiàn)價值。而娛樂領域的玩法變得多元化,,像最近大熱的faceu,,運用了臉部識別跟蹤技術,讓普通的自拍可以DIY,。還有video++視頻開放平臺,,可以對視頻中的明星、衣服同款進行識別搜索,,打開了視頻到電商的入口,。乘著去年SaaS的風口,國內外陸續(xù)出現(xiàn)了語音識別,、圖像識別的技術開放平臺,,從專業(yè)到普通領域,語音識別和圖像識別將在2016年做到技術全覆蓋,。
大數(shù)據(jù)
數(shù)據(jù)收集是一個從被動到主動的過程,,語音識別從接受指令變成了對指令使用頻率的分析,進而形成用戶的習慣圖表,。圖像識別亦然,,針對用戶的識別頻率,分析出用戶的興趣畫像,,這將給予廣告主帶來精準廣告推送的商機,。
結語
2016年將是“最好玩”的一年,語音識別和圖像識別讓我們跟智能設備之間的交互更自然,,基于大數(shù)據(jù)的技術支持,,讓識別變得主動而聰明。語音識別和圖像識別將走進普通人的世界,,讓我們的生活更生動,。