9月5日消息,當?shù)貢r間9月4日,據(jù)《福布斯》報道,牛津大學的伊利亞?舒梅洛夫博士和他的團隊發(fā)現(xiàn),當生成式AI軟件僅依賴于由AI生成的內容時,回答的質量開始惡化。這項研究已經(jīng)發(fā)表在《自然》雜志上。
在最初的兩次查詢后,答案逐漸偏離準確性,到第五次時,質量顯著下降,到了第九次連續(xù)查詢時,回答已完全退化為無意義的胡言亂語。研究人員將這種生成式AI內容的循環(huán)過度使用稱為“模型崩潰”,即AI在不斷污染自己的訓練集后,輸出的內容逐漸偏離現(xiàn)實,最終變得毫無價值。
舒梅洛夫表示:“令人驚訝的是,模型崩潰發(fā)生得如此迅速且難以察覺。最初,它會影響到少數(shù)數(shù)據(jù)——那些代表性不足的數(shù)據(jù)。接著,它會影響輸出的多樣性,導致差異性減少。有時,你會觀察到對多數(shù)數(shù)據(jù)的微小改進,但這種改進掩蓋了少數(shù)數(shù)據(jù)表現(xiàn)的惡化。模型崩潰可能帶來嚴重后果。”
研究人員通過一種方法確定了“模型崩潰”現(xiàn)象的存在:使用一個預訓練的AI驅動的維基百科,然后讓AI模型基于自己生成的內容進行更新。受污染數(shù)據(jù)的影響逐漸導致原本的訓練集被侵蝕,輸出的信息也隨之變得難以理解。例如,在第九次查詢循環(huán)后,研究中的維基百科條目從關于14世紀英國教堂尖頂?shù)膬热莼刈兂闪艘黄P于各種顏色的短尾兔子的論文。
報道稱,根據(jù)亞馬遜網(wǎng)絡服務(AmazonWebServices)團隊在6月發(fā)布的另一項研究,大約57%的網(wǎng)絡文本都經(jīng)過了AI算法的翻譯。如果互聯(lián)網(wǎng)上的人類生成數(shù)據(jù)迅速被AI過濾內容覆蓋,且舒梅洛夫的研究發(fā)現(xiàn)屬實,那么AI可能正在“自我毀滅”——并同時“毀滅”互聯(lián)網(wǎng)。
研究得出結論,要實現(xiàn)AI的長期可持續(xù)發(fā)展,唯一方法是確保其能夠訪問現(xiàn)有的非AI生成內容,并持續(xù)引入新的人工生成內容。
分享到微信 ×
打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。