今天AI在世界范圍內的發(fā)展情況,,可以用一路綠燈來形容。國家層面的高度重視與科技巨頭的全力投入齊頭并進,,正讓AI如同開了掛一般快速進入產業(yè)場景,。不知不覺間,工廠里開始引入了計算機視覺解決方案,,電話中與我們對話的客服變成了機器人,。
如果說在這樣綠燈全開的情況下,還有什么在阻礙著AI產業(yè)化發(fā)展,,恐怕就只有知識門檻帶來的AI人才缺失了,。根據高盛推出的《全球人工智能產業(yè)分布報告》:2017年全球AI人才儲備中,中國只占5%左右,。而這些人才大多只在科技企業(yè)間流動,,對于傳統(tǒng)行業(yè)來說,大多都與AI人才無緣,。而AI產業(yè)化的對象,,恰恰也是這些傳統(tǒng)產業(yè)。如何幫助傳統(tǒng)產業(yè)突破人才桎梏,,降低應用AI技術的門檻,,是AI產業(yè)化當下重要目標之一,。
除了支持AI人才培養(yǎng)之外,我們也一直在嘗試從技術角度解決這一問題,,AutoML技術——自動化機器學習就是解決方案之一,。簡單來說,AutoML的目標是降低企業(yè)用戶,、開發(fā)者以及研究人員使用AI相關工具和框架的門檻,,即使不懂如何搭建神經網絡、不懂如何調參,,也可以使用AutoML工具搭建出應用級的機器學習模型,。
除了谷歌、微軟,、亞馬遜這些海外科技企業(yè)在AutoML中投入頗多以外,,我們也能看到越來越多的中國企業(yè)加入了AutoML的隊伍。
從一場競賽,,到AI產業(yè)化的廣袤沃土
在今年亞太知識發(fā)現和數據挖掘會議(PAKDD)舉辦的AutoML比賽中,,深蘭科技DeepBlueAI團隊從46個國家(地區(qū))的隊伍中脫穎而出,擊敗了微軟亞洲研究院推出的MLintelligence獲得了第一名的成績,。
這次DeepBlueAI最大的一個亮點,,就是將概念漂移的解決方案引入了AutoML中,所謂概念漂移,,指的就是在機器學習中隨著時間推移,,目標變量以不可預見的方式發(fā)生著變化,導致未來數據分布與已有數據分布不一致,。也就是說在AutoML快速建立好機器學習模型后,,模型的精度是可能隨著時間推移而下降的,這種情況顯然會影響現實場景中AutoML的應用效率,。
?。‵eedback phase排行榜)
DeepBlueAI團隊給出的解決方案,是通過融合不同時期的數據以及結合DNN和LightGBM的訓練,,加上自適應采樣來緩解類別不平衡,,在一定時間間隔中讓模型重復訓練,最終形成對概念漂移的自適應,。形成生命力更強,、更具持續(xù)性的終生自動化機器學習工具。
DeepBlueAI團隊對于概念漂移問題的解決,,不僅僅在技術角度具有極高的突破性,,在AutoML的產業(yè)應用的道路中也給予了很大的推助力。
AutoML面向的對象,,大多是對AI技術了解不多的企業(yè)應用者,。這一類應用者顯然不會意識到AutoML中所存在的技術問題,,他們很可能會在應用場景出現問題時才發(fā)現模型精度產生了變化。DeepBlueAI團隊的解決方案,,極大增加了AutoML對于復雜場景的適應性,,讓AutoML可以進入金融,、營銷,、智能駕駛等等要求更豐富的場景之中,也因此進一步降低了企業(yè)應用AI的門檻,。
可見DeepBlueAI并不是針對競賽的一份試卷答案,,而是真正把目標投向了AI產業(yè)化的廣袤沃土。
當AutoML從試驗品走向商品
除了PAKDD的競賽以外,,很多科技企業(yè)也已經推出了自己的AutoML平臺,。例如谷歌推出的針對圖像識別的AutoML Vision,以及亞馬遜推出的Amazon SageMaker等等,。從AI產業(yè)化的命題來說,,擁有應用環(huán)境自適應能力的這套解決方案會對AutoML造成哪些改變?
首先,,深蘭科技可以幫助AutoML真正的去解決更多產業(yè)問題,。
目前市面上的AutoML平臺,大多只是試驗性甚至偏娛樂化的,,缺乏對于產業(yè)應用場景的深入適配,,通常只能讓開發(fā)者利用模型開發(fā)出一些諸如“寵物情緒識別”“桃子甜度識別”等等簡單的模型。
DeepBlueAI團隊意識到了模型精度的變化問題,,自然是站在了產業(yè)視角看待問題,,未來AutoML平臺也將從單純的開發(fā)場景逐漸貼近產業(yè)場景,更關注模型精度,、應用環(huán)境等等現實問題,。
同時,深蘭科技對AI基礎技術的全面投入可以幫助AutoML進入更多產業(yè)領域,。
除了深度學習框架開發(fā)以外,,深蘭科技對機器視覺、生物智能識別,、智能駕駛等等領域都有所投入,。針對各種AI技術在自動化過程中,架構組建上的細化差異都有更深入的理解,,加之強大的算法應用化能力,,深蘭科技足以讓AutoML從一個面向開發(fā)者的工具演變成真正商業(yè)化、甚至定制化的企業(yè)AI解決方案,。
目前深蘭科技的AutoML技術已經廣泛應用在精準營銷,、金融風控,、自動駕駛、疾病預測等業(yè)務場景中,,做出了接近甚至超過數據科學家的模型效果,,決策精準度超過人類專家數倍。
總的來說,,建立在深蘭科技的綜合AI能力之上,,AutoML正在從試驗品走向產品,進一步契合產業(yè)應用的真實場景,。
曙光之前:
為什么中國AI需要腰部力量,?
除了AutoML對于當前AI產業(yè)化的意義之外,我們更想討論的,,是深蘭科技這家企業(yè)在PAKDD取得成績更深層的意義,。隨著中國AI在世界范圍的競爭力不斷提升,中國團隊在各種學術會議上取得好成績并不是什么新鮮的事情,,為什么深蘭科技這家企業(yè)值得我們投入更多關注,?
我們可以看到,深蘭科技身上有兩個明顯的標簽,,一個是 “中國自主研發(fā)”——深蘭科技與多家國內外知名企業(yè),、高等院校以及盧森堡國家實驗室合作,建立聯(lián)合實驗室,,一直在AI科研上有著諸多投入,。另一個是“基礎研究+應用開發(fā)”——除了科研以外,深蘭科技已經將技術輸入到智能駕駛,、智能機器人,、AI city等等九大應用領域之中。
兩者結合起來,,就是典型的中國AI腰部力量,。除了BAT這樣在頭部引領中國AI發(fā)展的巨頭,更多的是像深蘭科技這樣,,將AI創(chuàng)新能力源源不斷地輸入到細節(jié)應用場景之中,。
腰部力量對于AutoML的掌握,對于今天我們的AI發(fā)展來說至關重要,。
近年來有一個流傳頗為廣泛的概念叫:AI民主化,,指的是讓更多中小企業(yè)可以開發(fā)出屬于自己的機器學習算法模型,而AutoML就是符合這一精神的產物之一,。隨著AI民主化概念的普及和AutoML技術的日趨成熟,,產業(yè)中大范圍應用起AutoML工具已經是一種必然。
但從谷歌AutoML的案例中也能發(fā)現,,伴隨算法模型訓練工具捆綁銷售的,,很可能還有計算芯片或云計算服務,。一家企業(yè)選擇了一個AutoML平臺,同時也意味著將自己的AI技術與平臺背后的企業(yè)相綁定,。
這時中國AI腰部力量對于AutoML的參與就起了兩個至關重要的作用,。
一方面,中國智造可以保證算法工具以及芯片硬件,、云計算等等配套服務的自主可控,。尤其很多企業(yè)的算法模型會涉及一些商業(yè)機密以及敏感數據,如果將這些數據和模型部署到海外企業(yè)的云平臺中,,多少會增加一些風險,。
另一方面,腰部企業(yè)對AI產業(yè)化的參與,,可以增強行業(yè)的多樣性,防止AI產業(yè)化被科技巨頭“壟斷”從而促使AI霸權主義的出現,。產業(yè)在接入AI服務時可以擁有更多選擇,,會促進AI領域的發(fā)展活力,以良性競爭的模式推動巨頭與腰部企業(yè)一同為產業(yè)提供更優(yōu)質的技術服務,。
如今在AI賽道上狂奔的跑者們,,無一不見到了AI產業(yè)化的黎明曙光。在抵達終點的過程中,,腰部企業(yè)的存在如同一位聯(lián)結者,,與頭部巨頭們并行向前的同時,不斷招攬著路邊觀望的人,,讓他們一同加入隊列,,向AI的明天奔去。
AI產業(yè)化黎明的到來,,或許并不是一條分割兩個世界的終點線,,而會降臨于讓更多人參與AI賽道的過程之中。