隨著人工智能聊天機(jī)器人ChatGPT引發(fā)的熱議持續(xù)升溫,,科技圈正迎來(lái)一輪新熱潮,,不少用戶被ChatGPT足以“以假亂真”的擬人回答深深震撼,還有用戶使用過(guò)微軟基于ChatGPT支持的最新版本人工智能搜索引擎后驚呼“時(shí)代變了”,。
在中文人工智能領(lǐng)域,,百度,、360,、科大訊飛等人工智能公司紛紛發(fā)力,,關(guān)于“中國(guó)版ChatGPT”最終將花落誰(shuí)家也不斷引起業(yè)內(nèi)熱議。
事實(shí)上,,ChatGPT之所以能夠取得令人稱奇的能力,,核心在于其基于GPT-3.5架構(gòu)一路發(fā)展而來(lái),具備強(qiáng)大認(rèn)知智能的預(yù)訓(xùn)練模型,,海量學(xué)習(xí)數(shù)據(jù)以及背靠微軟的強(qiáng)大算力,。從這些維度來(lái)看,,誰(shuí)將最先打造出“中國(guó)版ChatGPT”呢,?
━━━━━
ChatGPT表現(xiàn)出色
考驗(yàn)國(guó)內(nèi)企業(yè)認(rèn)知智能領(lǐng)域技術(shù)積累
ChatGPT屬于認(rèn)知智能領(lǐng)域的應(yīng)用,從目前普遍的對(duì)話感受來(lái)看,,ChatGPT的最大亮點(diǎn)就在于其意圖識(shí)別與語(yǔ)言理解能力甚至能夠達(dá)到“以假亂真”的水準(zhǔn),,回答滴水不漏。要做到這一點(diǎn),,強(qiáng)大的NLP(自然語(yǔ)言處理)技術(shù)是關(guān)鍵,。
有觀點(diǎn)認(rèn)為,ChatGPT的核心技術(shù)是人工智能語(yǔ)言大模型,,其關(guān)鍵是如何讓人工智能模型具備邏輯推理能力,,以及如何讓人工智能學(xué)習(xí)全互聯(lián)網(wǎng)的知識(shí)。這些ChatGPT基本都做到了,,因此在決策和知識(shí)環(huán)節(jié)有了很大的突破,。
據(jù)了解,目前國(guó)內(nèi)有不少公司正在布局這一領(lǐng)域,。2月7日,,百度宣布將推出類ChatGPT的技術(shù),并確定項(xiàng)目名為“文心一言”,。三六零同日也在投資者互動(dòng)平臺(tái)上表示計(jì)劃盡快推出類ChatGPT技術(shù)的原型版產(chǎn)品,。
具體來(lái)看,對(duì)于決策和知識(shí)環(huán)節(jié),常識(shí)推理是重要一環(huán),。對(duì)于常識(shí)問(wèn)答系統(tǒng)來(lái)說(shuō),,首先要能從千萬(wàn)量級(jí)的海量的知識(shí)庫(kù)中準(zhǔn)確檢索到相關(guān)的知識(shí),同時(shí)模型要能正確地將兩條知識(shí)進(jìn)行結(jié)合,,建立兩條常識(shí)之間的關(guān)系,,才能與問(wèn)題相匹配,最終得到正確選項(xiàng),。
2月8日,,科大訊飛在投資者互動(dòng)平臺(tái)回應(yīng)稱,已面向認(rèn)知智能領(lǐng)域陸續(xù)開源了6大類,、超過(guò)40個(gè)通用領(lǐng)域的系列中文預(yù)訓(xùn)練語(yǔ)言模型,,在Github平臺(tái)的中文預(yù)訓(xùn)練模型的星標(biāo)數(shù)達(dá)13346,位列第一,,是第二名的2倍,,“公司已經(jīng)在當(dāng)前核心技術(shù)、產(chǎn)業(yè)場(chǎng)景,、行業(yè)數(shù)據(jù)等深厚積累的基礎(chǔ)上,,于2022年12月份進(jìn)一步啟動(dòng)生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān),科大訊飛AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品,,將于2023年5月6日進(jìn)行產(chǎn)品級(jí)發(fā)布,。”截至目前,,這是唯一給出確切上市時(shí)間,,并率先實(shí)現(xiàn)商業(yè)化的中國(guó)企業(yè)。
在該領(lǐng)域,,科大訊飛主導(dǎo)承建了科技部首批20家標(biāo)桿全國(guó)重點(diǎn)實(shí)驗(yàn)室之一的認(rèn)知智能全國(guó)重點(diǎn)實(shí)驗(yàn)室,,多年來(lái)始終保持關(guān)鍵核心技術(shù)處于世界前沿水平。去年科大訊飛曾獲得包括OpenBookQA,、常識(shí)推理挑戰(zhàn)賽QASC等在內(nèi)的總共獲得了12項(xiàng)認(rèn)知智能領(lǐng)域權(quán)威評(píng)測(cè)的第一,。
━━━━━
如何“再打造”ChatGPT?
數(shù)據(jù)與算力是門檻
事實(shí)上,,早在2022年12月,,首個(gè)開源的類ChatGPT項(xiàng)目就已經(jīng)在GitHub上發(fā)布,該項(xiàng)目基于谷歌語(yǔ)言大模型PaLM架構(gòu),,使用了同ChatGPT一模一樣的從人類反饋中強(qiáng)化學(xué)習(xí)的方法,,但卻出現(xiàn)了無(wú)人能夠運(yùn)行的窘境。
這是因?yàn)?,人工智能模型要想達(dá)到ChatGPT的級(jí)別,,不僅要看算法,,還需要足夠大的規(guī)模、海量的訓(xùn)練數(shù)據(jù)以及支撐運(yùn)行的算力,。
中國(guó)電信首席專家,、美國(guó)貝爾實(shí)驗(yàn)室院士畢奇在接受媒體采訪時(shí)表示,ChatGPT所使用的技術(shù)研發(fā)需要投入大規(guī)模資金,,它基于一個(gè)巨大的語(yǔ)料庫(kù),,千億參數(shù)的模型,還需要計(jì)算快且便宜的芯片等,。
IDEA研究院(粵港澳大灣區(qū)數(shù)字經(jīng)濟(jì)研究院)認(rèn)知計(jì)算與自然語(yǔ)言研究中心講席科學(xué)家張家興公開表示,,與以往的人工神經(jīng)網(wǎng)絡(luò)相比,預(yù)訓(xùn)練大模型最大的不同在于它規(guī)模足夠大,,深度學(xué)習(xí)網(wǎng)絡(luò)的層數(shù)多,、連接多、參數(shù)多,。
據(jù)了解,,2012年前后的深度學(xué)習(xí)網(wǎng)絡(luò)只有幾百萬(wàn)參數(shù);2018年前后主流的預(yù)訓(xùn)練模型達(dá)到1億參數(shù),;目前被證明非常有效的大規(guī)模預(yù)訓(xùn)練模型已有幾千億參數(shù),,短短幾年時(shí)間提升了幾千倍。在對(duì)預(yù)訓(xùn)練模型各種不同的技術(shù)評(píng)測(cè)中,,算法性能展示了一個(gè)規(guī)律:數(shù)據(jù)規(guī)模越大,、預(yù)訓(xùn)練模型參數(shù)越多,算法輸出精度往往也越高,,而在這背后,,所要求的算力也更加恐怖,。
ChatGPT由OpenAI研發(fā),,該公司背靠微軟,可用算力包括28.5萬(wàn)個(gè)CPU核心,、1萬(wàn)個(gè)英偉達(dá)V100 GPU,。公開資料顯示,ChatGPT的前身GPT-3參數(shù)量達(dá)到了驚人的1750億,,訓(xùn)練一次所要消耗的成本就高達(dá)近8400萬(wàn)元人民幣,。由此看來(lái),訓(xùn)練ChatGPT所需要的數(shù)據(jù)量,、算力只會(huì)更多,。
目前,國(guó)內(nèi)市場(chǎng)中百度,、科大訊飛等常年深耕人工智能的企業(yè)各自均有各自的算力積累,,如科大訊飛曾于去年12月在投資者互動(dòng)平臺(tái)上表示,,其于2009年就開始算力基礎(chǔ)設(shè)施建設(shè),目前已建成4城7中心深度學(xué)習(xí)計(jì)算平臺(tái),,訊飛的算力不僅完全滿足AI算法模型訓(xùn)練,,及面向開放平臺(tái)數(shù)百萬(wàn)開發(fā)者和其他行業(yè)伙伴提供相關(guān)AI服務(wù)的需求。
━━━━━
產(chǎn)品發(fā)布看什么,?
行業(yè)應(yīng)用是關(guān)鍵
當(dāng)“硬件”足夠,,ChatGPT能夠運(yùn)轉(zhuǎn)起來(lái)的重要因素還有一個(gè):讓其能夠不斷迭代、訓(xùn)練的海量數(shù)據(jù),。記者在體驗(yàn)多個(gè)國(guó)外人工智能語(yǔ)義模型時(shí)發(fā)現(xiàn),,對(duì)方往往提供免費(fèi)的對(duì)話服務(wù),但需要用戶予以反饋,,通過(guò)此種方式對(duì)模型進(jìn)行再訓(xùn)練,,事實(shí)上,這天然符合行業(yè)應(yīng)用的場(chǎng)景,。
三六零董秘在近期的電話會(huì)議中表示,,ChatGPT走出了通用范式(AI)的從0到1,這會(huì)對(duì)搜索引擎的底層邏輯造成重大影響,,所以大家看到現(xiàn)在首先發(fā)力或者主要發(fā)力于ChatGPT產(chǎn)品的是谷歌等搜索引擎巨頭,,“在此之前,大家對(duì)于能用通用AI來(lái)做專業(yè)的事情心里是沒(méi)有根的,,大家更多做垂直領(lǐng)域或者更專業(yè)的AI,,用更專業(yè)的數(shù)據(jù)模型去訓(xùn)練人工智能,去做一些專業(yè)領(lǐng)域的事情,?!?/p>
在行業(yè)應(yīng)用方面,他認(rèn)為360使用安全AI查找,、掃描漏洞效果非常好,,科大訊飛從很早開始就做AI訓(xùn)練模型,在專有領(lǐng)域做到了相當(dāng)?shù)乃?,在醫(yī)療領(lǐng)域,、教育領(lǐng)域有很好的市場(chǎng)地位。
事實(shí)上,,深耕某一行業(yè)多年的公司具備更多數(shù)據(jù)積累優(yōu)勢(shì),。公開資料顯示,目前科大訊飛智慧教育產(chǎn)品已在全國(guó)32個(gè)省級(jí)行政單位50000多所學(xué)校中應(yīng)用,,服務(wù)超1.3億師生,;在AI學(xué)習(xí)機(jī)市場(chǎng),去年?duì)I收增長(zhǎng)53%,,一直是份額最高的學(xué)習(xí)機(jī)產(chǎn)品,;智醫(yī)助理產(chǎn)品覆蓋了全國(guó)380個(gè)區(qū)縣,,5.3億次AI輔助診療。
記者梳理資料發(fā)現(xiàn),,近期科大訊飛,、云從科技等A股相關(guān)人工智能類公司的投資者交流活動(dòng)吸引了多家投研機(jī)構(gòu)的關(guān)注,是否會(huì)布局類ChatGPT產(chǎn)品是主要問(wèn)題之一,。早在2月7日,,科大訊飛就在深交所互動(dòng)易上回答關(guān)于“搶灘ChatGPT語(yǔ)言模型”的問(wèn)題時(shí)表示,已于2022年12月份進(jìn)一步啟動(dòng)生成式預(yù)訓(xùn)練大模型任務(wù)攻關(guān),,科大訊飛AI學(xué)習(xí)機(jī)將成為該項(xiàng)技術(shù)率先落地的產(chǎn)品,,于2023年5月6日進(jìn)行產(chǎn)品級(jí)發(fā)布。該技術(shù)突破將在AI學(xué)習(xí)機(jī)的中英文作文輔導(dǎo),、中英文口語(yǔ)學(xué)習(xí)等方面帶來(lái)顯著提升,。科大訊飛在2023年會(huì)持續(xù)升級(jí)該系列技術(shù),,并陸續(xù)應(yīng)用于公司在教育,、醫(yī)療、汽車,、消費(fèi)者等多個(gè)行業(yè)賽道的既有產(chǎn)品,,持續(xù)提升核心技術(shù)效果和產(chǎn)品體驗(yàn)??梢?,從算力算法積累到搶先布局產(chǎn)品落地,科大訊飛在這場(chǎng)中國(guó)版的ChatGPT角逐中已優(yōu)先一步,。
睿億投資研究總監(jiān)熊林認(rèn)為,,包括ChatGPT在內(nèi)的人工智能產(chǎn)業(yè),由于具有替代人工的潛能,,可以有效地幫助企業(yè)降本增效,,因而長(zhǎng)期想象空間很大,但短期產(chǎn)品迭代及生態(tài)建立仍需時(shí)間,,盈利兌現(xiàn)也需要時(shí)間,,因此應(yīng)提防過(guò)度炒作帶來(lái)的風(fēng)險(xiǎn)。
事實(shí)上,,在基礎(chǔ)算力、人工智能模型,、數(shù)據(jù)量等維度,,國(guó)內(nèi)的人工智能公司均有各自的優(yōu)勢(shì),在ChatGPT大獲成功的鼓勵(lì)下,,中國(guó)版ChatGPT的到來(lái)似乎已并不遙遠(yuǎn),。有業(yè)界觀點(diǎn)稱,,從大數(shù)據(jù)資源看,中國(guó)擁有全世界最大規(guī)模的網(wǎng)民數(shù)量,,有豐富的應(yīng)用場(chǎng)景,,在數(shù)據(jù)積累方面優(yōu)勢(shì)明顯。雖然目前全球還沒(méi)有能跟ChatGPT驚艷表現(xiàn)相抗衡的大模型,,但是業(yè)界共識(shí)是差距在兩年左右,,兩年的差距并非鴻溝,有趕超可能,。屬于AIGC的時(shí)代已然來(lái)臨,,那些對(duì)AIGC探索的企業(yè)也將接踵而至。