欧美两性人xxxx高清免费_国产婷婷综合在线视频中文_国产免费久久精品99reswag_在厨房乱子伦在线观看_一边写作业一边c她

取消
搜索歷史
熱搜詞
原創(chuàng)
活動
產業(yè)創(chuàng)新
轉型理念
ENI專訪
當前位置:首頁 >文章發(fā)布 > 正文
OpenAIo1AI模型PlanBench規(guī)劃能力實測:準確率97.8%
來源:IT之家  作者: 佚名 2024-09-25 16:23:18
9月25日消息,來自亞利桑那州立大學的科研團隊利用PlanBench基準,測試了OpenAIo1模型的規(guī)劃能力。研究結果表明o1模型取得了長足的進步,但仍然存在很大的局限性。

9月25日消息,來自亞利桑那州立大學的科研團隊利用PlanBench基準,測試了OpenAIo1模型的規(guī)劃能力。研究結果表明o1模型取得了長足的進步,但仍然存在很大的局限性。

PlanBench開發(fā)于2022年,用于評估人工智能系統(tǒng)的規(guī)劃能力,包括600個來自Blocksworld領域的任務,其中積木必須按照特定順序堆疊。

在Blocksworld任務中,OpenAI的o1模型準確率達到97.8%,大大超過了之前的最佳語言模型LLaMA3.1405B(準確率為62.6%)。

在更具挑戰(zhàn)性的“MysteryBlocksworld”加密版本中,傳統(tǒng)模型幾乎全部失敗,而OpenAI的o1模型準確率達到52.8%。

研究人員還測試了一種新的隨機變體,以排除o1的性能可能源于其訓練集中的基準數(shù)據(jù)。在這次測試中,O1的準確率降至37.3%,但仍遠遠超過了得分接近零的其它模型。

隨著任務越來越復雜,o1的表現(xiàn)也急劇下降。在需要20到40個規(guī)劃步驟的問題上,o1在較簡單測試中的準確率從97.8%下降到只有23.63%。

該模型在識別無法解決的任務方面也很吃力,只有27%的時間能夠正確識別。在54%的情況下,它錯誤地生成了完整但不可能完成的計劃。

雖然o1在基準性能上實現(xiàn)了“量子改進”(Quantumimprovement),但它并不能保證解決方案的正確性。如快速向下算法等經(jīng)典的規(guī)劃算法,可以在更短的計算時間內實現(xiàn)完美的準確性。

研究還強調了o1的高資源消耗,運行這些測試需要花費近1900美元,而經(jīng)典算法在標準計算機上運行幾乎不需要任何成本。

研究人員強調,對人工智能系統(tǒng)進行公平比較必須考慮準確性、效率、成本和可靠性。他們的研究結果表明,雖然像o1這樣的人工智能模型在復雜推理任務方面取得了進步,但這些能力還不夠強大。

免責聲明:本文系網(wǎng)絡轉載,版權歸原作者所有。本文所用圖片、文字如涉及作品版權問題,請聯(lián)系刪除!本文內容為原作者觀點,并不代表本網(wǎng)站觀點。
編輯:喬帥臣
關鍵詞:   大模型  OpenAI  人工智能 
活動 直播間  | CIO智行社

分享到微信 ×

打開微信,點擊底部的“發(fā)現(xiàn)”,
使用“掃一掃”即可將網(wǎng)頁分享至朋友圈。

开封市| 陇南市| 杭州市| 肇东市| 永清县| 霍邱县| 长寿区| 济宁市| 尚志市| 平潭县| 博罗县| 西安市| 怀安县| 措勤县| 德州市| 边坝县| 清镇市| 科技| 共和县| 宜阳县| 石棉县| 静海县| 稷山县| 武胜县| 芒康县| 丰顺县| 永春县| 怀集县| 涿州市| 庆城县| 元朗区| 昆山市| 呼和浩特市| 大石桥市| 阿坝| 拉孜县| 尼勒克县| 平泉县| 辽阳市| 北川| 博白县|