當前位置：首頁 > 新聞資訊 > ai智能 > 大模型基準測試體系研究報告（2024年） -方升大模型基準測試體系

大模型基準測試體系研究報告（2024年） -方升大模型基準測試體系

來源：中國信息通信研究院編輯：創(chuàng)澤時間：2024/10/18 主題：其他 [加盟]

近幾年，大模型推動人工智能技術迅猛發(fā)展，極大地拓展了機器智能的邊界，展現(xiàn)出通用人工智能的“曙光”。如何準確、客觀、全面衡量當前大模型能力，成為產(chǎn)學研用各界關注的重要問題。設計合理的任務、數(shù)據(jù)集和指標，對大模型進行基準測試，是定量評價大模型技術水平的主要方式。大模型基準測試不僅可以評估當前技術水平，指引未來學術研究，牽引產(chǎn)品研發(fā)、支撐行業(yè)應用，還可以輔助監(jiān)管治理，也有利于增進社會公眾對人工智能的正確認知，是促進人工智能技術產(chǎn)業(yè)發(fā)展的重要抓手。全球主要學術機構和頭部企業(yè)都十分重視大模型基準測試，陸續(xù)發(fā)布了一系列評測數(shù)據(jù)集、框架和結果榜單，對于推動大模型技術發(fā)展產(chǎn)生了積極作用。然而，隨著大模型能力不斷增強和行業(yè)賦能逐漸深入，大模型基準測試體系還需要與時俱進，不斷完善。

本研究報告首先回顧了大模型基準測試的發(fā)展現(xiàn)狀，對已發(fā)布的主要大模型評測數(shù)據(jù)集、體系和方法進行了梳理，分析了當前基準測試存在的問題和挑戰(zhàn)，提出了一套系統(tǒng)化構建大模型基準測試的框架 —— “方升”大模型基準測試體系，介紹了基于“方升”體系初步開展的大模型評測情況，并對未來大模型基準測試的發(fā)展趨勢進行展望。面向未來，大模型基準測試仍存在諸多開放性的問題，還需要產(chǎn)學研各界緊密合作，共同建設大模型基準測試標準，為大模型行業(yè)健康有序發(fā)展提供有力支撐

人工智能技術發(fā)展迅速，大模型、RAG、AGENT、具身智能、 AGI等新概念和新技術層出不窮。大模型基準測試作為研究較為深入的領域，將帶動其他新技術的研究。當前雖然 AGI 仍未有明確的定義，但針對 AGI 的探索性評測研究已有初步成果。例如微軟發(fā)布論文《通用人工智能的火花：GPT-4 的早期實驗》,通過數(shù)學、編程、視覺、醫(yī)學、法律、心理學等復雜度較高的任務證明GPT-4已經(jīng)進入 AGI 的早期階段。北京通用人工智能研究院發(fā)布《通智測試：通用人工智能具身物理與社會測試評級系統(tǒng)》,提出一種基于能力和價值維度的 AGI 的評測方法。中國科學院和美國俄亥俄州立大學等先后推出AGIBench 和MMMU 評測數(shù)據(jù)集，從多模態(tài)、多學科、多粒度等維度衡量大模型距離AGI 的差距。雖然當前AGI 的發(fā)展仍然處于初期階段，但通過基準測試的研究，可以為未來 AGI 的發(fā)展方向提供思路，并對AGI 的能力進行監(jiān)控以指引其正向發(fā)展。

附件：大模型基準測試體系研究報告（2024年） -方升大模型基準測試體系