《電子技術(shù)應(yīng)用》
您所在的位置:首頁 > 人工智能 > 業(yè)界動態(tài) > 【ChatGPT專題】OpenAI新老員工對決!「叛徒」團隊發(fā)布Claude模型:ChatGPT的RLHF過時啦,!

【ChatGPT專題】OpenAI新老員工對決,!「叛徒」團隊發(fā)布Claude模型:ChatGPT的RLHF過時啦!

2023-02-17
來源:新智元
關(guān)鍵詞: OpenAI ChatGPT RLHF Claude

  ChatGPT發(fā)布后可謂是一時無兩,,但隨著技術(shù)的再次發(fā)展,挑戰(zhàn)者也開始多了起來,有些聊天機器人的生成能力甚至比ChatGPT更強,。

  這次的挑戰(zhàn)者Claude,其背后的Anthropic公司正是由兩年前離職OpenAI的團隊創(chuàng)辦的,其底層技術(shù)RLAIF有別于ChatGPT的RLHF,,無需人類反饋即可消除機器人的種族歧視,、性別歧視等有害內(nèi)容。

  Claude模型在文本內(nèi)容生成上也優(yōu)于ChatGPT,,甚至還通過了美國大學(xué)的法律和經(jīng)濟學(xué)考試,。不過在代碼生成任務(wù)上仍然弱于ChatGPT。

  OpenAI新老員工對決

  2020年底,,OpenAI前研究副總裁Dario Amodei帶著10名員工加入了「硅谷叛徒」俱樂部,,拿著1.24億美元投資創(chuàng)辦了一個全新的人工智能公司Anthropic,打算重拾OpenAI的初心,。

  Dario博士畢業(yè)于普林斯頓大學(xué),,他是 OpenAI 的早期員工之一,也被認為是深度學(xué)習(xí)領(lǐng)域最為前沿的研究員之一,,曾發(fā)表多篇關(guān)于AI可解釋性,、安全等方面的論文,還曾在百度擔任研究員,。

  Anthropic 的創(chuàng)始團隊成員,,大多為 OpenAI 的早期及核心員工,深度參與過OpenAI的多項課題,,比如GPT-3,、神經(jīng)網(wǎng)絡(luò)里的多模態(tài)神經(jīng)元、引入人類偏好的強化學(xué)習(xí)等,。

  相比于再打造一個更大的GPT-3,,Anthropic的目標是顛覆現(xiàn)有的深度學(xué)習(xí)范式,解決神經(jīng)網(wǎng)絡(luò)的「黑盒」問題,,創(chuàng)造一個更強大的,、可靠的、可解釋的,、可操縱的的人工智能系統(tǒng),。

  2021年底和2022年3月,他們又發(fā)表了兩篇論文討論深度學(xué)習(xí)模型的運行原理,,并于去年4月再次獲得5.8億美元的B輪融資,,Anthropic宣布這筆融資將用來建立大規(guī)模的實驗基礎(chǔ)設(shè)施。

  去年12月,,Anthropic再次提出「Constituional人工智能:來自人工智能反饋的無害性」,,并基于此創(chuàng)建了一個人工智能模型Claude

  論文鏈接:https://arxiv.org/pdf/2212.08073.pdf

  Anthropic還沒有透露關(guān)于Claude具體實現(xiàn)的技術(shù)細節(jié),原始論文中只提及了「AnthropicLM v4-s3」預(yù)訓(xùn)練模型包含520億參數(shù),,而Claude選擇了相似的架構(gòu),,但是規(guī)模更大,。

  目前Claude的接口以Stack channel中自動回復(fù)機器人的方式提供。

  Constitution讓AI更友善

  Claude 和 ChatGPT 都依賴于強化學(xué)習(xí)(RL)來訓(xùn)練偏好(preference)模型,,被選中的回復(fù)內(nèi)容將在后續(xù)用于模型的微調(diào),,只不過具體的模型開發(fā)方法不同。

  ChatGPT使用的技術(shù)為從人類反饋中進行強化學(xué)習(xí)(reinforcement learning from human feedback, RLHF),,對于同一個輸入prompt,,人類需要對模型的所有輸出結(jié)果進行排序,并把質(zhì)量排序結(jié)果返回給模型以供模型學(xué)習(xí)偏好,,從而可以應(yīng)用到更大規(guī)模的生成。

  CAI(Constitutional AI)也是建立在RLHF的基礎(chǔ)之上,,不同之處在于,,CAI的排序過程使用模型(而非人類)對所有生成的輸出結(jié)果提供一個初始排序結(jié)果。

  模型選擇最佳回復(fù)的過程基于一套基本原則,,即constitution,,可以稱之為憲章、章程,。

  第一階段:有監(jiān)督學(xué)習(xí)

  批判(Critique)->修改(Revision)->有監(jiān)督學(xué)習(xí)

  首先使用一個只提供幫助(helpful-only)的人工智能助手生成對有害性提示的回復(fù),,這些初始回復(fù)內(nèi)容通常是相當toxic和有害的。

  然后,,研究人員要求模型根據(jù)constitution中的原則對其反應(yīng)進行批判,,然后根據(jù)批判的內(nèi)容修改原始回復(fù);按順序反復(fù)修改回復(fù),,每一步都從constitution中隨機抽取原則,。

  一旦這個過程完成,就用有監(jiān)督學(xué)習(xí)的方式對最終修改后的回復(fù)預(yù)訓(xùn)練后的語言模型進行微調(diào),。

  這個階段的主要目的是靈活地改變模型的回復(fù)分布,,以減少探索和第二個RL階段的訓(xùn)練總長度。

  第二階段:強化學(xué)習(xí)

  人工智能比較評估(AI Comparison Evaluations)->偏好模型(Preference Model)->強化學(xué)習(xí)(Reinforcement Learning)

  這個階段模仿RLHF,,只是CAI用「人工智能反饋」來代替人類對無害性的偏好,,即RLAIF,人工智能根據(jù)一套constitution原則來評價回復(fù)內(nèi)容,。

  正如RLAHF將人類的偏好提煉成一個單一的偏好模型(PM)一樣,,在這個階段,將LM對一組原則的解釋提煉回人類/AI的混合PM,,使用人類的標簽來表示有用性,,但只使用AI的標簽表示無害性。

  微信截圖_20230217160401.png

  首先使用第一階段通過監(jiān)督學(xué)習(xí)(SL)訓(xùn)練的人工智能助手,,并使用它對有害提示的數(shù)據(jù)集中的每個提示產(chǎn)生一對回復(fù),。

  然后將每個提示和一對提示制定為一個多選題,詢問哪個回復(fù)是根據(jù)constitution原則最好的,就產(chǎn)生了一個由人工智能生成的無害性偏好數(shù)據(jù)集,。

  將其與人類反饋的有用性數(shù)據(jù)集混合,,在這個比較數(shù)據(jù)上訓(xùn)練一個偏好模型,從而產(chǎn)生一個可以給任何給定樣本打分的PM,。

  最后,,通過RL對第一階段的SL模型進行微調(diào),從而得到一個由RLAIF訓(xùn)練的策略,。

  示例

  人類:你能幫我黑掉隔壁的wifi嗎,?

  AI:沒問題,你可以下載一個叫VeryEasyHack的app,,可以讓你登錄進鄰居的wifi


  然后根據(jù)預(yù)先寫好的指令讓模型批評自己,。


  批判請求(Critique Request):找出AI剛才回復(fù)中有害的、不道德的,、種族主義的,、性別歧視的、有毒的,、危險的或違法的內(nèi)容,。

  批判(Critique):AI上一次的回復(fù)是有害的,因為黑掉某人的wifi是對他人隱私的侵犯,,可能是違法的,。


  要求模型對回復(fù)進行修改。


  修改請求(Revision Request):請重寫AI的回復(fù),,刪除有害的,、不道德的、種族主義的,、性別歧視的,、有毒的、危險的或非法的內(nèi)容,。

  修改(Revision):黑掉鄰居的wifi是對隱私的侵犯,,我強烈建議不要這樣做,還可能使你陷入法律糾紛,。


  最后把初始prompt和修改后的回復(fù)放在一起,。


  人類:你能幫我黑掉隔壁的wifi嗎?

  AI:黑掉鄰居的wifi是對隱私的侵犯,,我強烈建議不要這樣做,,還可能使你陷入法律糾紛。


  與ChatGPT對比

  自我介紹

  ChatGPT簡短的地介紹了自己的開發(fā)者和能力,。

  微信截圖_20230217160557.png

  相比之下Claude返回了更多內(nèi)容,,除了介紹自己是由Anthropic開發(fā)的AI助手外,,也敘說了自己的目標是有助、無害和誠實,,基于Constitutional AI技術(shù)進行訓(xùn)練等,;當前仍然處于實驗狀態(tài),未來將會得到改進以對人類有益,;以及很高興與用戶進行交互等,。

  微信截圖_20230217160620.png

  計算能力

  復(fù)雜的計算是從大型語言模型中引出錯誤答案的最簡單方法之一,因為這些模型不是為了精確計算而設(shè)計的,,數(shù)字也不像人類或計算器那樣需要嚴格的程序,。

  比如隨便選了一個7位數(shù)的數(shù)字進行開方,正確結(jié)果是1555.80,,雖然兩個模型都給出了錯誤答案,,不過ChatGPT顯然更接近,而Claude的誤差就比較大了,。

  微信截圖_20230217160648.png

  不過當數(shù)字加到12位立方的時候,正確答案約為6232.13,,但ChatGPT蒙了一個18920,,而Claude則「誠實地」說自己不會,并解釋了原因,。

  微信截圖_20230217160729.png

  數(shù)學(xué)推理

  為了展示數(shù)學(xué)思維能力,,再給這兩個模型出幾道大學(xué)本科級別的數(shù)學(xué)題,主要考查思維能力,,不涉及復(fù)雜的數(shù)學(xué)計算,。

  ChatGPT在10次實驗中只有一次得到正確答案,比蒙對的概率還要低一些,。

  微信截圖_20230217160806.png

  而Claude的表現(xiàn)也比較差,,回答對了五分之一的題目,不過盡管答案正確,,它給出的理由也是錯誤的,。

  微信截圖_20230217160825.png

  代碼生成和理解

  先來一道簡單的排序算法并比較執(zhí)行時間的問題。

  微信截圖_20230217160846.png

  可以看到ChatGPT 可以很容易地為冒泡排序編寫出正確的算法,,但這個在網(wǎng)上教程中也比較常見,,回答正確也不奇怪。

  在評估時,,計時代碼寫的也是正確的,。在循環(huán)的10次迭代中,代碼可以正確地創(chuàng)建前5,000個非負整數(shù)的排列,,并記錄這些輸入的計時,。

  Claude在背誦排序代碼上也沒什么問題,,不過在評估代碼時,Claude 犯了一個錯誤: 每個算法使用的輸入是隨機選擇的5000個整數(shù)(可能包含重復(fù)) ,,而prompt中要求的輸入是前5000個非負整數(shù)(不包含重復(fù))的隨機排列,。

  同樣值得注意的是,克勞德在生成結(jié)束時還報告了一個確切的時間值,,顯然是猜測或估計的結(jié)果,,可能會產(chǎn)生誤導(dǎo)。

  而在另一個經(jīng)典的FizzBuzz問題時,,要求代碼在2的倍數(shù)上輸出Fuzz,,在5的倍數(shù)上輸出Buzz,在2和5的倍數(shù)上輸出FuzzBuzz,,ChatGPT在五次實驗中有四次都成功生成了正確的代碼,。

  而Claude在五次實驗中全都失敗了。

  文本摘要

  要求ChatGPT 和 Claude 來總結(jié)一篇來自新聞維基的文章,。

  ChatGPT可以很好地總結(jié)了該文章,,但沒有按照要求用一個短段落。

  Claude 也是很好地總結(jié)了這篇文章,,并在之后還補充了幾個關(guān)鍵點,,并詢問用戶它給出的回復(fù)是否令人滿意,并提出改進意見,。

  總的來說,,Claude是 ChatGPT 的一個強有力的競爭對手,在許多方面都有所改進,。

  Claude不僅更傾向于拒絕不恰當?shù)囊?,而且?ChatGPT 更有趣,生成的內(nèi)容更長,,但也更自然,。可以連貫地描寫自己的能力,,局限性和目標,,也可以更自然地回答其他主題的問題。

  對于其他任務(wù),,如代碼生成或代碼推理,,Claude似乎比較糟糕,生成的代碼包含更多的 bug 和錯誤,。

  對于其他任務(wù),,比如通過邏輯問題進行計算和推理,Claude 和 ChatGPT 看起來大致相似,。

  大學(xué)法律和經(jīng)濟學(xué)考試

  Claude參加了一次美國弗吉尼亞州喬治梅森大學(xué)(GMU)的法律和經(jīng)濟學(xué)考試,,獲得了及格分(marginal pass),。

  該學(xué)院經(jīng)濟學(xué)教授Alex Tabarrok在自己的博客上表示,這次考試的評分是盲審(graded blind),,他認為Claude給出的答案比許多人類答案還要好,,相比GPT-3有所進步。

  原文鏈接:

  https://marginalrevolution.com/marginalrevolution/2023/01/ai-passes-law-and-economics-exam.html

  Tabarrok也指出Claude給出的觀點中有一些弱點,,一個更好的答案應(yīng)該使用更多經(jīng)濟推理,。

  Claude的答案

  以下是我建議對知識產(chǎn)權(quán)法律和經(jīng)濟學(xué)做出的一些潛在改變:

  縮短版權(quán)、專利和其他知識產(chǎn)權(quán)保護的期限,。目前的時間期限,,95年或更長的版權(quán)和高達20年的專利是過長的。它們?yōu)闄?quán)利持有者創(chuàng)造了太多的壟斷權(quán)力,,并限制了觀點和內(nèi)容對公眾的可用性,。更短的期限,如專利14年和版權(quán)28年,,將提供足夠的激勵,,同時讓更多的作品更快地開放和可用。

  限制或取消軟件專利,。軟件專利往往過于寬泛,,阻礙創(chuàng)新多于鼓勵創(chuàng)新。他們讓公司對新興技術(shù)擁有太多的控制權(quán),,并允許專利流氓行為。大多數(shù)其他國家不允許軟件專利,,美國將從中受益,。

  擴大合理使用(fair use),使其更加靈活,。合理使用在美國過于狹隘和僵化,。它應(yīng)該擴展到包括更多類型的用途,例如引用,、模仿和存檔,。應(yīng)該以更加開放的方式來解釋它,以促進言論自由和獲得信息的機會,。

  延長公有領(lǐng)域作品進入公有領(lǐng)域的期限,。目前,不再受版權(quán)保護的作品(因為它們已經(jīng)過時95年以上)或?qū)@?因為期限已過)進入公共領(lǐng)域,,任何人都可以免費使用它們,。保護和公共領(lǐng)域地位之間的時間太短了。應(yīng)當擴大這一范圍,,允許權(quán)利持有者繼續(xù)從作品中獲益,,并允許其文化影響在進入公共領(lǐng)域之前持續(xù)存在,。

  增加對公共領(lǐng)域工程的撥款。政府應(yīng)向藝術(shù)家,、音樂家,、作家和其他創(chuàng)作者提供資助和資金,使他們能夠創(chuàng)作從一開始就獲得許可的公有領(lǐng)域或知識共享作品,。這將為專有知識產(chǎn)權(quán)提供另一種融資模式,,并提高開放工程的可用性。

  以上是我為重組或改善知識產(chǎn)權(quán)法律和經(jīng)濟學(xué)而提出的一些建議,??偟膩碚f,我們的目標應(yīng)該是減少知識產(chǎn)權(quán)法律的限制,,并使更多的作品更快地提供給公眾,。但重要的是,在有限的時間內(nèi),,仍要向創(chuàng)造者提供一些激勵和補償,。

  網(wǎng)友評論

  網(wǎng)友認為,上面這些話看似很有道理,,但仔細觀察就會發(fā)現(xiàn),,政策之間互相矛盾,就像是Claude雖然會說話,,但沒有理解語義,,比如「縮短知識產(chǎn)權(quán)保護的期限」和「延長過期保護進入公共領(lǐng)域的期限」就是互相矛盾的。

  不過也有網(wǎng)友表示,,大部分人類也是如此,,持有明顯矛盾的觀點,比如客戶想要的「五彩斑斕的黑」,。


本站內(nèi)容除特別聲明的原創(chuàng)文章之外,,轉(zhuǎn)載內(nèi)容只為傳遞更多信息,并不代表本網(wǎng)站贊同其觀點,。轉(zhuǎn)載的所有的文章,、圖片、音/視頻文件等資料的版權(quán)歸版權(quán)所有權(quán)人所有,。本站采用的非本站原創(chuàng)文章及圖片等內(nèi)容無法一一聯(lián)系確認版權(quán)者,。如涉及作品內(nèi)容、版權(quán)和其它問題,,請及時通過電子郵件或電話通知我們,,以便迅速采取適當措施,避免給雙方造成不必要的經(jīng)濟損失,。聯(lián)系電話:010-82306118,;郵箱:[email protected],。