圖像識別是重要的人工智能分支
近一兩年來,人工智能領域得到了媒體界,、產(chǎn)業(yè)界和學術界等前所未有的關注,,大家一致認為智能化時代正在到來,,機器正在越來越多的取代人類特有的優(yōu)勢和技能,,而其中最為重要的可能就是圖像識別技術。
圖像識別是計算機對圖像進行處理、分析和理解,以識別各種不同模式的目標和對像的技術,。簡單來說,就是讓機器能夠通過對感知信息的處理像人類一樣讀懂圖片的內(nèi)容,,而不是只看到像素,。目前,伴隨著圖片成為互聯(lián)網(wǎng)中的主要信息載體,,難題隨之出現(xiàn),。當信息由文字記載時,我們可以通過關鍵詞搜索輕易找到所需內(nèi)容并進行任意編輯,,而當信息是由圖片記載時,,我們卻無法對圖片中的內(nèi)容進行檢索,從而影響了我們從圖片中找到關鍵內(nèi)容的效率,。圖片給我們帶來了快捷的信息記錄和分享方式,,卻降低了我們的信息檢索效率。在這個環(huán)境下,,計算機的圖像識別技術就顯得尤為重要,。
計算機視覺有著廣泛應用,,其中包括,,醫(yī)療成像分析被用來提高疾病的預測、診斷和治療;人臉識別被Facebook用來自動識別照片里的人物;在安防及監(jiān)控領域被用來指認嫌疑人;在購物方面,,消費者現(xiàn)在可以用智能手機拍攝下產(chǎn)品以獲得更多購買選擇,。
我們在圖像識別領域的研究有著眾多突破性進展,F(xiàn)acebook人工智能負責人YannLeCun發(fā)明的卷積神經(jīng)網(wǎng)絡促使整個人工智能領域在近期出現(xiàn)了快速發(fā)展,,而其最重要的應用就是圖像識別和語音識別,。2012年一支由吳恩達領導的谷歌團隊展示了一個無監(jiān)督學習的機器對數(shù)百萬張YouTube視頻圖像的分析。這個機器學會了給它見過的常見物體進行分類,,包括人類面孔和(供網(wǎng)民娛樂的)貓,,包括網(wǎng)上隨處可見的各種動作:睡著的、跳躍的,、玩滑板的,。人類沒有在這些視頻上標明包含「面孔」或「貓」的字眼。相反,,機器在看了每個物體不計其數(shù)的例子后簡單斷定,,它們表現(xiàn)出來的統(tǒng)計模式已經(jīng)具備了足夠的普遍性,從而可以將這些物體進行分類,。斯坦福大學Andrej Karpathy和李飛飛發(fā)表的論文描述了一個計算機視覺系統(tǒng)可以標出一個給定圖像的特殊部分,。例如給它看一個早餐桌子,,它可以識別出餐叉、香蕉片,、一杯咖啡和桌子上的花以及桌子本身,。它甚至可以在場景中用自然英語做出描述——盡管這項技術還不是特別完美。
應用場景決定著圖像識別技術的普及程度
MIT宇宙學家Max Tegmark說,,人工智能的運作已處于走出實驗室進入社會的階段了,。我們目前確實看到甚至使用到了許多人工智能服務和產(chǎn)品,比如說更好的搜索引擎服務,,語音助手等等,。在和圖像識別技術有關的細分領域,這樣的服務和產(chǎn)品也非常多,,比如說以圖搜圖,、圖像對比、人臉識別,、圖像自動分類,,等等。但我們雖然看到了如此多的產(chǎn)品或功能,,但卻沒有發(fā)現(xiàn)將圖像識別進行通用化的應用,。許多國內(nèi)外的創(chuàng)業(yè)公司,甚至是科技巨頭在圖像識別領域也沒有找到最具爆發(fā)性和發(fā)展前景的應用方向,。這其中的原因就在于應用場景的缺失,。
人工智能的發(fā)展和成熟取決于三個要素,算法,、大數(shù)據(jù)和應用場景,。不論是創(chuàng)業(yè)公司,還是科技巨頭,,他們都會在算法上給予足夠多的重視,,會花費大量人力和財力進行算法和模型和研發(fā)。其次,,得益于互聯(lián)網(wǎng),、社交媒體、移動設備和廉價的傳感器,,這個世界產(chǎn)生的數(shù)據(jù)量急劇增加,。隨著對這些數(shù)據(jù)的價值的不斷認識,用來管理和分析數(shù)據(jù)的新技術也得到了發(fā)展,。大數(shù)據(jù)是人工智能發(fā)展的助推劑,,這是因為有些人工智能技術使用統(tǒng)計模型來進行數(shù)據(jù)的概率推算,比如圖像,、文本或者語音,,通過把這些模型暴露在數(shù)據(jù)的海洋中,,使它們得到不斷優(yōu)化,或者稱之為“訓練”——現(xiàn)在這樣的條件隨處可得,。
百度科學家吳恩達曾把算法和數(shù)據(jù)比作火箭的發(fā)動機和燃料,,只有這兩者實現(xiàn)良好互補,人工智能這架火箭才能升空,。這也是目前所有人工智能領域內(nèi)公司所重點關注的兩大方面,,但是,大家容易忽略對人工智能起決定性作用的第三個因素——應用場景,。主要的原因在于,,我們對于人工智能終極目標是創(chuàng)造出一個在綜合智力水平方面能夠媲美人類的機器,但這樣一個略帶科幻色彩的目標很難用來指導我們的具體工作,,甚至可能會影響該領域的健康發(fā)展,。當回歸到人工智能的具體應用時,我們應該忘掉那個終極目標,,尊重一種循序漸進的發(fā)展過程,,注重人工智能技術的階段性進步和各個行業(yè)的細分化應用。而目前的科技巨頭在互聯(lián)網(wǎng)時代都是以面向大眾的通用型產(chǎn)品為主,,比如說搜索引擎,,或者操作系統(tǒng),等等,。因此,,他們在一定程度上缺乏某些具體行業(yè)的積累和經(jīng)驗,很難發(fā)掘出特定行業(yè)的潛在需求和人工智能技術在此領域的具體應用,。同時,,相較于隱藏在背后的行業(yè)解決方案,,將人工智能技術應用在普遍的民用產(chǎn)品能夠起到更好的推廣效果和教育意義,。
圖像識別技術的引爆點在于具體行業(yè)的解決方案
上文提到,大多數(shù)公司對應用場景的忽視影響了人工智能技術在各個領域的普及,,而對于圖像識別技術來說更是如此,,該技術作為一種認知計算技術,需要特定的應用環(huán)境作為支撐,,我們希望機器像人類一樣看懂外部世界,,來代替我們做出決策,這和機器所處的具體環(huán)境密切相關,,因此,,在特定行業(yè)積累了豐富經(jīng)驗,深入了解該行業(yè)的需求,,然后再利用圖像識別技術來解決這些需求,,將先進的技術作為整體解決方案的一部分,,這樣才能真正拓展圖像識別技術的應用范圍,真正解決我們的具體問題,,而不是僅作為一個轉(zhuǎn)瞬即逝的噱頭,。
不管是在人工智能領域,還是在細分化的圖像識別領域,,在從技術向?qū)嶋H應用的轉(zhuǎn)化過程中有兩個路徑,,第一是走通用化路線,即這項技術能夠滿足各個行業(yè)個各種用戶的需求,,比如說,,IBM推出的Watson開放計劃,目前已經(jīng)將這臺智能計算機應用在了金融,、醫(yī)療和客戶管理等方面,。許多圖像識別領域的科技巨頭和創(chuàng)業(yè)公司也旨在將圖像識別技術落地到通用型應用中。這是人工智能一種自上而下的應用路徑,。這樣的趨勢不可更改,,未來任何機器和智能設備都需要「視覺」,但問題在于,,目前的圖像識別技術可能還沒有達到這樣一個「奇點」,。這也就是目前大多數(shù)圖像識別技術公司沒有找到最佳的應用方向的原因之一。這就引出來第二條路徑,,即根據(jù)現(xiàn)有的圖像識別技術水平,,結(jié)合具體行業(yè)的應用場景,從解決行業(yè)的需求出發(fā),,來實現(xiàn)需求和技術良好結(jié)合的最佳狀態(tài),。比如說,自動駕駛汽車,、機器人廚房,、刷臉支付、遠程人臉認證辦理銀行和證券業(yè)務,,等等,。
從這方面來說,某些在特定行業(yè)有著深厚積累的公司反而具備了一定優(yōu)勢,。比如說位于蘇州的科達公司,,該公司自十幾年前進入了安防監(jiān)控領域,與面向大眾的互聯(lián)網(wǎng)科技公司相比,,其可能不為人熟知,,看起來也沒有那么酷。但該公司自2006年就開始了對圖像識別技術的布局和研發(fā),。而他們切入圖像識別技術領域的原因是在于他們在安防領域的客戶提出的越發(fā)智能化的需求,。正是這種行業(yè)積累和公司基因決定了他們能夠站在特定行業(yè)的最前沿,,然后將圖像識別技術應用在用戶的具體需求上。
2014年底,,科達推出了一種全新攝像機品類——感知型攝像機,,通過他們的產(chǎn)品案例,我們可以大體了解到圖像識別技術和具體行業(yè)需求相結(jié)合的重要性,。
影像技術的出現(xiàn)幫我們極大提到了采集信息和存儲信息的效率,,但同時卻嚴重影響了我們分析信息的效率,當無法從海量數(shù)據(jù)中提取出有價值的東西時,,就失去了我們當初采集數(shù)據(jù)的意義,。而圖像識別技術的出現(xiàn)就是要解決這個矛盾。對于安防監(jiān)控領域來說同樣如此,,我們布置了越來越多的攝像頭才采集信息,,但最終卻發(fā)現(xiàn),雖然我們看似獲得了海量數(shù)據(jù),,但是數(shù)據(jù)處理能力,,我們從海量數(shù)據(jù)中發(fā)掘出有價值的信息的能力,卻依然取決于監(jiān)控屏后面的人類視覺,,而這種矛盾催生了視頻分析和智能監(jiān)控的出現(xiàn),。而由于成本的原因,對視頻的智能分析技術也逐漸從服務器遷移到了攝像頭端,,這被稱為智能攝像頭,。目前市場上的智能攝像頭主要定位于警戒線、區(qū)域看防等報警類應用不同,,而科達感知型攝像機(Intelligent IPC)能夠基于視頻的智能分析,,識別出監(jiān)控畫面中的內(nèi)容,并對其進行語義描述和最佳圖片抓拍,,同時基于后端的大數(shù)據(jù)平臺進行更加深入的數(shù)據(jù)挖掘,。
下面將通過具體的三種智能攝像機來說明一下應用場景:
1)特征分析攝像機
主要是針對視野范圍較大場景中人、車,、物混行場景的運動目標識別與抓拍,。中國國情下的城市道路與路口,是人,、機動車、非機動混行的復雜環(huán)境,,同時又是公共安全的防治重點,。特征分析攝像機正是為這一場景所設計,它能綜合性識別人車分類,、顏色,、方向等基本特征信息,,再開展圖像識別的專業(yè)應用,最典型的就是將這些信息提供給大數(shù)據(jù)庫平臺進行車或人的以圖搜圖與分析判斷,,以進一步鎖定相似的犯罪嫌疑人與車輛,。
2)人員卡口攝像機
識別人員及細節(jié)信息,包括人臉及全身(正面與背面),、性別,、年齡、服裝,、行走方向,、顏色。應用場景為:嫌疑犯已被鎖定,,并確定藏匿在某小區(qū),。公安傳統(tǒng)的偵查手段是派若干警力在該小區(qū)人工蹲守,對每一個進出人員進行辨認與判斷是否嫌疑人?,F(xiàn)在,,人員卡口攝像機就可以完全代替警方人工蹲守——它自動識別每個人的臉部與全身信息并抓拍最佳照片提交給平臺,平臺實時即可自動進行比對分析,,然后按相似度百分比將嫌疑人排名并發(fā)出警告,,嫌疑人信息均實時傳送至現(xiàn)場待命警察,現(xiàn)場進一步明確后即實施抓捕,。
3)車輛卡口攝像機
識別車輛細節(jié)信息,,包括車牌、車型,、車標,、車身顏色、行駛方向,、速度,。典型應用是:30起連環(huán)盜竊案,作案車輛在不同地點使用不同假車牌,。車輛卡口攝像機記錄下每個案發(fā)地所有車輛細節(jié)信息并抓拍最佳照片,,再向大數(shù)據(jù)平臺分別提供文字描述類的結(jié)構(gòu)化數(shù)據(jù)和視頻、照片類非結(jié)構(gòu)化數(shù)據(jù),。平臺會對這幾百萬甚至上千萬條結(jié)構(gòu)化數(shù)據(jù)進行比對分析,,并將碰撞出30個案發(fā)地外形相似的所有車輛,提供這些車輛的詳細信息并關聯(lián)相應的照片與視頻,。
上文提到,,人工智能的發(fā)展需要算法、大數(shù)據(jù)和應用場景的共同支撐,科達除了具有圖像識別技術的感知攝像頭之外,,還擁有后端的大數(shù)據(jù)分析平臺,。拿和安防監(jiān)控密切相關的智慧城市來說,在公共安全和智能交通領域,,海量的視頻數(shù)據(jù)是最主要的行業(yè)特征,,于是,大數(shù)據(jù),,成為這兩大行業(yè)視頻應用中最急需引入的技術,。通過與智慧城市大數(shù)據(jù)平臺的結(jié)合,科達感知型攝像機(Intelligent IPC)已經(jīng)在智慧城市中取得了眾多的應用,,主要包括實時布控,、基于語義的智能搜索、高危人員比對,、人臉照片搜索,、全身像搜索、人像多點碰撞,、車輛以圖搜圖,、車輛多點碰撞,等等,。
擁有感知能力的Intelligent IPC,,相當于物聯(lián)網(wǎng)中的一個一個視覺傳感器,大量攝像機感知的海量信息,,進入大數(shù)據(jù)和云計算平臺,,使我們不僅能從單個攝像機中識別內(nèi)容作出判斷,還能從海量的監(jiān)控數(shù)據(jù)中,,作出深度分析和挖掘,,從而對社會管理產(chǎn)生深遠的影響??七_感知型攝像機正是配合后端大數(shù)據(jù)平臺開展實際應用:感知型攝像機在前端采集,、分析、識別,、提交有效數(shù)據(jù)至后端,,大數(shù)據(jù)平臺以云的方式對這些數(shù)據(jù)進行存儲、二次深度分析,、預測判斷結(jié)果,。至此,形成一個視頻數(shù)據(jù)采集,、識別,、感知,、思考,、行動的完整閉環(huán),。
就像科達總經(jīng)理陳衛(wèi)東所說,感知型攝像機是智慧城市大數(shù)據(jù)應用的關鍵,,大數(shù)據(jù)時代,,感知型攝像機才是視頻監(jiān)控的未來。
科達的感知攝像機可能離我們普通用戶比較遠,,看起來也沒有那些科技巨頭和創(chuàng)業(yè)公司所做的和圖像識別等人工智能技術有關的產(chǎn)品和功能那么炫酷,,但這才是圖像識別技術的最佳應用。而科達公司深耕某個行業(yè),,再從行業(yè)的具體需求出發(fā),,將圖像識別技術應用于該行業(yè),并解決該行業(yè)的具體問題的人工智能技術實施路徑也為其他人工智能公司提供了一條有價值的參考路徑,。