當前位置：首頁 >文章發(fā)布 > 正文

OpenAIo1AI模型PlanBench規(guī)劃能力實測：準確率97.8%

來源：IT之家作者：佚名 2024-09-25 16:23:18

9月25日消息，來自亞利桑那州立大學的科研團隊利用PlanBench基準，測試了OpenAIo1模型的規(guī)劃能力。研究結果表明o1模型取得了長足的進步，但仍然存在很大的局限性。

PlanBench開發(fā)于2022年，用于評估人工智能系統(tǒng)的規(guī)劃能力，包括600個來自Blocksworld領域的任務，其中積木必須按照特定順序堆疊。

在Blocksworld任務中，OpenAI的o1模型準確率達到97.8%，大大超過了之前的最佳語言模型LLaMA3.1405B(準確率為62.6%)。

在更具挑戰(zhàn)性的“MysteryBlocksworld”加密版本中，傳統(tǒng)模型幾乎全部失敗，而OpenAI的o1模型準確率達到52.8%。

研究人員還測試了一種新的隨機變體，以排除o1的性能可能源于其訓練集中的基準數(shù)據(jù)。在這次測試中，O1的準確率降至37.3%，但仍遠遠超過了得分接近零的其它模型。

隨著任務越來越復雜，o1的表現(xiàn)也急劇下降。在需要20到40個規(guī)劃步驟的問題上，o1在較簡單測試中的準確率從97.8%下降到只有23.63%。

該模型在識別無法解決的任務方面也很吃力，只有27%的時間能夠正確識別。在54%的情況下，它錯誤地生成了完整但不可能完成的計劃。

雖然o1在基準性能上實現(xiàn)了“量子改進”(Quantumimprovement)，但它并不能保證解決方案的正確性。如快速向下算法等經(jīng)典的規(guī)劃算法，可以在更短的計算時間內實現(xiàn)完美的準確性。

研究還強調了o1的高資源消耗，運行這些測試需要花費近1900美元，而經(jīng)典算法在標準計算機上運行幾乎不需要任何成本。

研究人員強調，對人工智能系統(tǒng)進行公平比較必須考慮準確性、效率、成本和可靠性。他們的研究結果表明，雖然像o1這樣的人工智能模型在復雜推理任務方面取得了進步，但這些能力還不夠強大。

免責聲明：本文系網(wǎng)絡轉載，版權歸原作者所有。本文所用圖片、文字如涉及作品版權問題，請聯(lián)系刪除！本文內容為原作者觀點，并不代表本網(wǎng)站觀點。

編輯：喬帥臣

關鍵詞：大模型 OpenAI 人工智能

[已收藏] [關閉] [返回頂部]

e-show 一手

活動直播間 | CIO智行社

E-PRO

梅姐東莞永益食品電商總監(jiān)

漢語言文學教育、計算機應用與開發(fā)雙專業(yè)，21年工作經(jīng)驗，其中16年IT從業(yè)，12年電商從業(yè)，服務過美資、國企、民企三種企業(yè)，其中兩家為上市...

唐龍原德勤信息安全專家

畢業(yè)于北京航空航天大學，軟件碩士，曾就職于賽門鐵克、中國惠普、IBM、中國平安、德勤等高級管理職位。專注在 IT 戰(zhàn)略咨詢、網(wǎng)絡安全...

欧美两性人xxxx高清免费_国产婷婷综合在线视频中文_国产免费久久精品99reswag_在厨房乱子伦在线观看_一边写作业一边c她