《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 通信與網(wǎng)絡(luò) > 設(shè)計(jì)應(yīng)用 > 智能手機(jī)的超性能語音識別技術(shù)
智能手機(jī)的超性能語音識別技術(shù)
網(wǎng)界網(wǎng)
摘要: 當(dāng)語音識別技術(shù)應(yīng)用到計(jì)算機(jī)桌面的時(shí)候,這看起來似乎是一個(gè)好主意,。但是,,對于大多數(shù)人來說,語音識別還不能取代鍵盤和鼠標(biāo)?,F(xiàn)在,,語音技術(shù)正用于一個(gè)全新的環(huán)境:手機(jī)。語音識別技術(shù)在手機(jī)中的應(yīng)用將進(jìn)一步推動這
Abstract:
Key words :

        當(dāng)語音識別" title="語音識別">語音識別技術(shù)應(yīng)用到計(jì)算機(jī)桌面的時(shí)候,,這看起來似乎是一個(gè)好主意,。但是,對于大多數(shù)人來說,,語音識別還不能取代鍵盤和鼠標(biāo)?,F(xiàn)在,語音技術(shù)正用于一個(gè)全新的環(huán)境:手機(jī),。語音識別技術(shù)在手機(jī)中的應(yīng)用將進(jìn)一步推動這種技術(shù)向新的方向發(fā)展和應(yīng)用,。這是語音識別技術(shù)在臺式電腦應(yīng)用中從來沒有涉足的方向。

  IBM今年將紀(jì)念其創(chuàng)建100周年,。IBM在60年代初期創(chuàng)建了一個(gè)名為“Shoebox”的試驗(yàn)性的語音識別系統(tǒng),。這個(gè)系統(tǒng)解決了口語算法問題。語音識別技術(shù)是在50年代作為一項(xiàng)早期的技術(shù)第一次出現(xiàn)的,,當(dāng)時(shí)主要是由于好奇,。在60年代初,IBM的“Shoebox”設(shè)備能夠識別出16個(gè)口語單詞并且能夠回答簡單的數(shù)學(xué)問題,,如“3 + 4 =?”,。

  Dragon Systems在80年代初為DOS計(jì)算機(jī)推出的DragonDictate可能是第一個(gè)語音識別應(yīng)用程序。這個(gè)應(yīng)用程序只能識別單個(gè)單詞,,每次只說一個(gè)單詞,。隨著時(shí)間的推移,這個(gè)應(yīng)用程序已經(jīng)發(fā)展成為名為“Dragon NaturallySpeaking”(目前是第11個(gè)版本,,由Nuance通訊公司所有)的產(chǎn)品,。這個(gè)應(yīng)用程序能夠翻譯以正常的會話語音和速度讀出的文本。

  語音識別技術(shù)在臺式電腦中的應(yīng)用有兩個(gè)制約因素,。第一,,為了使這個(gè)應(yīng)用程序以更高的準(zhǔn)確性工作,這個(gè)應(yīng)用程序必須要進(jìn)行訓(xùn)練以便識別用戶的語音特征,。Windows Vista和Windows 7操作系統(tǒng)中的本地語音轉(zhuǎn)換文本技術(shù)和Dragon NaturallySpeaking等第三方產(chǎn)品仍然都需要一個(gè)用戶訓(xùn)練期才能使用,。

  第二個(gè)制約因素是鍵盤的流行程度。大多數(shù)人已經(jīng)習(xí)慣于鍵盤打字而不是講話,,因此,,語音控制面臨Dvorak鍵盤布局同樣的應(yīng)用障礙。當(dāng)簡單的老式QWERTY鍵盤供貨充足并且工作的很好的時(shí)候,,為什么要學(xué)習(xí)使用Dvorak鍵盤呢?

  微軟TellMe團(tuán)隊(duì)是負(fù)責(zé)為多媒體環(huán)境開發(fā)語音識別技術(shù)的部門,。TellMe團(tuán)隊(duì)高級產(chǎn)品經(jīng)理Abhi Rele指出,在臺式電腦環(huán)境,,用戶有方便的人機(jī)交流模式,,如鍵盤和鼠標(biāo)。因此,,語音的使用主要是針對語音愛好者的,。

  語音控制的計(jì)算更廣泛的應(yīng)用需要兩件事情:更好的方便的應(yīng)用和主要使用語音的地方。手機(jī)正是很長時(shí)間以來一直在增長的這種地方,。

  Nuance負(fù)責(zé)產(chǎn)品管理和營銷的副總裁Matt Revis解釋說,,臺式電腦和移動環(huán)境的區(qū)別是這樣的:臺式電腦是一個(gè)固定的環(huán)境,重點(diǎn)完全在于臺式電腦的使用情況,。因此,,臺式電腦的語音技術(shù)主要執(zhí)行如下任務(wù):支持辦公應(yīng)用程序、網(wǎng)絡(luò)瀏覽,、通訊等,。在移動方面,語音更多地用于支持各種生活方式方面:移動中的專業(yè)人員,、戶外的有趣活動,、免提電話等等。

  Gartner分析師Tuong Nguyen贊同這個(gè)觀點(diǎn):語音在移動環(huán)境中更有意義,。他說,,從使用的角度看,掌上設(shè)備的語音識別功能價(jià)值更大,。它增加了用戶友好的,、方便的輸入方式。

  Nguyen補(bǔ)充說,,如果不用語音技術(shù)說出一個(gè)簡單的說明語句,,而是翻動許多菜單或者努力地在小顯示屏鍵盤上進(jìn)行輸入,,語音識別的價(jià)值就顯現(xiàn)出來了。隨著觸摸屏設(shè)備(沒有物理鍵盤)應(yīng)用的增長,,語音識別技術(shù)將用來增強(qiáng)數(shù)據(jù)輸入和輸出,。語音識別還支持免提要求或者法律要求。

  在移動設(shè)備方面

  因?yàn)橐苿釉O(shè)備一般僅支持臺式電腦的一部分存儲和處理功能,,語音處理需要一些時(shí)間才能以基本的形式出現(xiàn)在手機(jī)中,。

  語音處理Springer手冊解釋了手機(jī)在2000年代初的情況。盡管那時(shí)還有一些局限性,,但是,,手機(jī)經(jīng)過編程之后能夠識別逐個(gè)數(shù)字的撥號語音,在某種程度上還能識別人的名字,。主要問題是內(nèi)存,,因此,大多數(shù)手機(jī)一次只能識別10個(gè)數(shù)字或者名字,。但是,,這些作者指出的另一個(gè)問題是這個(gè)功能使用的比較少,可能是因?yàn)槭謾C(jī)廠商在這方面的營銷很糟糕,。

  隨著手機(jī)的增加內(nèi)存和增強(qiáng)處理能力,,普通手機(jī)的識別能力也增強(qiáng)了。三星電子在2005年發(fā)布的售價(jià)99美元的SCH-p-207型手機(jī)增加了語音至文本的聽寫功能和語音撥號功能,。隨著內(nèi)存達(dá)到數(shù)百M(fèi)B和存儲容量達(dá)到數(shù)GB,,目前這一代智能手機(jī)" title="智能手機(jī)">智能手機(jī)很少受到限制。

  另一個(gè)關(guān)鍵的進(jìn)步是網(wǎng)絡(luò)速度,。速度更快的無線網(wǎng)絡(luò)浪潮抬高了許多大船,,包括最新一代的語音處理技術(shù)。速度更快的網(wǎng)絡(luò)能夠把語音處理任務(wù)從網(wǎng)絡(luò)遷移到遠(yuǎn)程服務(wù)器,。

  谷歌語音搜索產(chǎn)品經(jīng)理Amir Mane解釋了速度更快的網(wǎng)絡(luò)是如何幫助谷歌語音應(yīng)用程序的,。他說,由于所有繁重的處理任務(wù)都是由谷歌服務(wù)器在網(wǎng)絡(luò)上處理的,,我們減少了掌上設(shè)備計(jì)算能力的限制,。

  目前的應(yīng)用程序

  手機(jī)語音識別技術(shù)目前的狀態(tài)不僅僅局限于語音撥號。語音啟動的功能實(shí)際上就包括語音撥號,。這是手機(jī)上出現(xiàn)的第一個(gè)語音識別功能,。目前,甚至許多低端手機(jī)都有這個(gè)功能,,盡管這個(gè)功能處理手機(jī)電話簿中一些不常用的名字的時(shí)稍差一些,。

  Gartner分析師Nguyen指出,比較新的一代語音功能是更開放的,。不用編程執(zhí)行某些功能的具體的語音指令,,應(yīng)用程序可識別語音并且執(zhí)行適當(dāng)?shù)男袆?。更高端的、更?qiáng)大的設(shè)備使這些應(yīng)用更可行,。換句話說,,不僅僅是能夠使用這個(gè)短語“呼叫888-555-1212”撥打一個(gè)電話號碼,用戶還可以說“呼叫媽媽”或者“給我媽媽打電話”,。

  谷歌語音搜索擁有比以前的語音識別技術(shù)更少的限制,因?yàn)樗械姆敝厝蝿?wù)都是由網(wǎng)絡(luò)服務(wù)器完成的,。這使谷歌語音搜索等語音驅(qū)動的應(yīng)用程序更可行,。例如,如果你說“創(chuàng)戰(zhàn)紀(jì)電影時(shí)間”,,你會看到一個(gè)網(wǎng)頁列出地區(qū)編號或者位置,。這個(gè)應(yīng)用程序不僅能夠識別出這個(gè)短語的意思,而且還能提供你的手機(jī)(你當(dāng)前的位置)和網(wǎng)站(上映時(shí)間)的信息,。

  這個(gè)應(yīng)用程序還非常熟悉英語,,不用進(jìn)行訓(xùn)練就能自動分辨出一些詞匯的差別。如果我說“摩特里褲(Motley Crue)樂隊(duì)”,,這個(gè)應(yīng)用程序甚至能在搜索詞匯方便使用這個(gè)樂隊(duì)的獨(dú)特的拼寫,,盡管它會漏掉變音符號。搜索“Motley's Crew”,,你會得到一個(gè)喜劇片,。

  這就是說谷歌語音識別的限制明顯地表明將使你進(jìn)一步脫離主流的英語。外國人的名字是沒有幫助的,。語音識別應(yīng)用程序的另一個(gè)問題是環(huán)境的噪音,。移動用戶受環(huán)境噪音的影響通常比臺式電腦用戶多。Nuance公司的Revis稱,,在充滿噪音的戶外環(huán)境中,,語音識別的準(zhǔn)確性是一個(gè)問題。

  自從2005年三星的那款手機(jī)推出以來,,聽寫功能已經(jīng)取得了長足的進(jìn)步,。由Dragon NaturallySpeaking驅(qū)動的iPhone的Dragon聽寫功能允許用戶聽寫從備忘錄、電子郵件到Twitter更新等一切內(nèi)容,。用于電子郵件的Dragon軟件為黑莓設(shè)備提供了類似的功能,。

  對于Android手機(jī)來說,Nuance提供了FlexT9軟件,。這個(gè)軟件把Dragon聽寫功能與三種類型的觸摸屏輸入方式結(jié)合在了一起,。還有一個(gè)Handcent短信應(yīng)用程序。這個(gè)應(yīng)用程序集成了Android本地語音識別技術(shù)以幫助你用語音發(fā)短信,。

  文本之間的翻譯目前已經(jīng)推出多年(如通過知名的Babel Fish網(wǎng)站進(jìn)行翻譯),。同聲翻譯功能現(xiàn)在還沒有,,不過,這種軟件很快會推出,。例如,,用于iPhone的Jibbigo軟件可翻譯單詞、短語和合理的簡單句子,,讓雙方交替地講話,。未來的方向

 

  詢問參加開發(fā)語音技術(shù)的每一個(gè)人下一個(gè)巨大的步驟是什么。他們一般會給你一個(gè)答案:自然語言處理,。

  Revis把它解釋為理解你的意思的系統(tǒng),,它不僅僅知道你說什么。在會話式的互動模式中,,用戶說自己要說的話,,沒有限制用戶如何說這個(gè)話。他提供了指令或者要求得到信息的例子,,如“我在什么地方能夠買到100美元以下的尼康照相機(jī)?”或者“給杰尼發(fā)個(gè)短信說我晚到20分鐘”或者“今天晚上在Morton's訂三個(gè)人的地方”,。

  谷歌的Mane稱,在口語對話中提供自然的語言處理是一個(gè)雙重挑戰(zhàn),。首先,,你必須識別這些單詞,然后,,你必須理解這個(gè)意思,。第一部分變得更加容易了。但是,,第二部分仍然很難解決:意思是根據(jù)上下文確定的和難以應(yīng)付的,,人類做的語法分析也不是總是成功的。

  微軟的Rele認(rèn)為,,手機(jī)提供的額外的服務(wù)(如羅盤或者GPS)能夠增強(qiáng)自然語言處理的有用性,。他說,你可以為兩個(gè)人安排吃飯和看電影,,方法是利用不同來源的數(shù)據(jù)把這個(gè)任務(wù)分開,,如使用日歷、飯店排名,、電影評論和位置等數(shù)據(jù),。

  此外,手機(jī)的服務(wù)能夠用于提供講話的環(huán)境,。Rele表示,,用戶的語音輸入以及從其它有關(guān)用戶及用戶環(huán)境的傳感器和狀態(tài)獲得的智能信息可以提供更豐富的和更相關(guān)的結(jié)果。例如,,如果你剛剛使用Foursquare網(wǎng)站查看有關(guān)飯店,,一些含糊的語音指令就會傾向于外出吃飯,、訂膳宿和要一輛出租車等事情。

  多平臺應(yīng)用程序Vlingo自稱是“虛擬助手”,,已經(jīng)能夠提供這些方面的功能,。這個(gè)軟件插入到OpenTable和Fandango等服務(wù)中以完成許多任務(wù):訂飯店、訂電影票等等,。

  Nguyen認(rèn)為未來語音識別技術(shù)改善的另一個(gè)領(lǐng)域是游戲,。他說,在游戲中可以使用語音以增加玩游戲的不同氛圍,。例如,,你可以把Kirk-style船長的命令傳遞給恒星飛船或者在在一個(gè)神秘的事情中審訊疑犯。

  是你嗎?

  已經(jīng)應(yīng)用的另一個(gè)功能是自動地把語音識別適用于單個(gè)用戶,。這是臺式電腦語音識別技術(shù)所要求的免提版語音訓(xùn)練,。

  例如,,最新版本的谷歌語音搜索有一個(gè)選擇性加入功能,,允許隨著時(shí)間的推移建立一個(gè)用戶的客戶化語音特征。Mane解釋說,,當(dāng)用戶選擇使用客戶化語音識別的時(shí)候,,我們在用戶和用戶的語調(diào)方面畫一個(gè)界限,這使我們能夠建立一個(gè)初步的,、個(gè)性化的語音識別模式,。

  然而,個(gè)性化識別并不是一個(gè)能夠解決一切問題的技術(shù),,它只是實(shí)現(xiàn)語音識別更加無縫化的一個(gè)過渡步驟,。Mane稱,我們沒有把個(gè)性化識別看作一個(gè)唯一的解決方案,,因?yàn)檫€會有更多的一系列的技術(shù)創(chuàng)新,。Mane認(rèn)為,這種技術(shù)未來的改進(jìn)需要我們的用戶更積極的參與,。

  結(jié)論

  手機(jī)一直是許多技術(shù)的孵化器和推動因素,,這包括硬件和軟件技術(shù)。到目前為止,,在這個(gè)組合中增加語音功能僅產(chǎn)生了逐步的改善,,谷歌語音應(yīng)用程序的很好的功能。

  但是,,這些改進(jìn)正逐步地為更重要的進(jìn)步鋪平道路,。移動技術(shù)為如何聚集這些新技術(shù)提供了一個(gè)全新的舞臺。下一步也許不是一個(gè)理解你說的一切事情的手機(jī),,而是能夠充分理解你說的事情的一個(gè)更有用的手機(jī),。

此內(nèi)容為AET網(wǎng)站原創(chuàng),,未經(jīng)授權(quán)禁止轉(zhuǎn)載。