1 月 9 日消息,,據(jù) TechCrunch 報道,,馬斯克與其他人工智能專家一致認為,,現(xiàn)實世界中用于訓練 AI 模型的數(shù)據(jù)幾乎已經耗盡,。
在周三晚間與 Stagwell 董事會主席馬克?佩恩的直播對話中,馬斯克表示:“我們現(xiàn)在基本上已經消耗掉了所有人類知識的積累…… 用于人工智能訓練的數(shù)據(jù),。這個現(xiàn)象基本上是去年發(fā)生的,?!?/p>
馬斯克此番言論與前 OpenAI 首席科學家伊利亞?蘇茨克弗(Ilya Sutskever)在去年 12 月的 NeurIPS 會議上的觀點相似,。蘇茨克弗曾指出,,AI 行業(yè)已經達到了所謂的“數(shù)據(jù)峰值”,并預測未來缺乏足夠的訓練數(shù)據(jù),,將迫使 AI 模型的開發(fā)方式發(fā)生改變,。
馬斯克認為,合成數(shù)據(jù)(IT之家注:即人工智能模型自我生成的數(shù)據(jù))是未來的解決方案?!把a充現(xiàn)實世界數(shù)據(jù)的唯一途徑是通過合成數(shù)據(jù),,也就是讓 AI 自己生成訓練數(shù)據(jù)。AI 會進行自我評估,,并通過這一自我學習的過程不斷優(yōu)化自己,。”
目前,,許多科技公司,,包括微軟、Meta,、OpenAI 和 Anthropic 等,已經開始使用合成數(shù)據(jù)來訓練他們的主力 AI 模型,。據(jù) Gartner 估計,,到 2024 年,用于人工智能和數(shù)據(jù)分析項目的 60% 數(shù)據(jù)將是通過合成方式生成的,。
使用合成數(shù)據(jù)的一個顯著優(yōu)勢是降低成本,。人工智能初創(chuàng)公司 Writer 表示,其 Palmyra X 004 模型幾乎完全依賴合成數(shù)據(jù)進行開發(fā),,開發(fā)成本僅為 70 萬美元,,而一個規(guī)模相似的 OpenAI 模型的開發(fā)成本大約為 460 萬美元。
然而,,合成數(shù)據(jù)也存在一定的風險,。研究表明,合成數(shù)據(jù)可能會導致模型性能下降,,輸出結果不僅缺乏創(chuàng)新性,,而且可能變得更加偏頗,最終嚴重影響其功能性,。因為模型是通過自己生成合成數(shù)據(jù)進行訓練的,,如果這些數(shù)據(jù)本身帶有偏見或局限性,那么最終模型的輸出也會受到這些因素的影響,。