中國科學(xué)報 2025-07-11 08:28:18
本報訊 一個近日啟動的基準(zhǔn)測試平臺顯示,由ChatGPT研發(fā)團隊開發(fā)的人工智能(AI)模型o3,被評為能夠解答多個領(lǐng)域科學(xué)問題的最佳AI工具。
據(jù)《自然》報道,美國艾倫人工智能研究所(Ai2)開發(fā)的SciArena平臺,依據(jù)23個大語言模型對科學(xué)問題的解答進(jìn)行了排名。102名研究人員對答案質(zhì)量進(jìn)行投票。經(jīng)超過1.3萬次投票,由美國OpenAI公司開發(fā)的o3模型,在自然科學(xué)、醫(yī)療健康、工程學(xué)及人文社會科學(xué)領(lǐng)域的問題解答中均位列第一。
中國深度求索公司的DeepSeek-R1模型在自然科學(xué)問題解答中排名第二,在工程學(xué)領(lǐng)域排名第四。美國谷歌公司的Gemini-2.5-Pro模型在自然科學(xué)問題解答中排名第三,在工程學(xué)和醫(yī)療健康領(lǐng)域均排名第五。
Ai2的研究人員Arman Cohan表示,用戶對o3模型的偏好可能源于該模型在引用文獻(xiàn)時往往會提供大量細(xì)節(jié),且能在技術(shù)上作出細(xì)致回應(yīng)。但他指出,目前并不清楚為何不同模型的表現(xiàn)會存在差異。訓(xùn)練數(shù)據(jù)不同和模型優(yōu)化目標(biāo)等因素,或許能在一定程度上解釋這種差異。
SciArena是最新開發(fā)的用于評估AI模型在特定任務(wù)中的表現(xiàn)的平臺,也是首批利用眾包反饋對科學(xué)任務(wù)的性能進(jìn)行排名的平臺之一。澳大利亞國立大學(xué)的Rahul Shome表示:“SciArena促使人們對大語言模型輔助的文獻(xiàn)任務(wù)進(jìn)行仔細(xì)評估?!?/p>
為對這23個大語言模型進(jìn)行排名,SciArena平臺要求研究人員提交科學(xué)問題。隨后,兩個隨機選擇的模型作出解答,并且這些答案會引用Ai2開發(fā)的另一款A(yù)I研究工具Semantic Scholar的文獻(xiàn)作為支撐。之后,用戶會投票決定哪個模型的解答更好、兩個模型的解答不相上下或兩個模型的表現(xiàn)都很差。
目前,SciArena平臺已向公眾開放,用戶可免費提出研究問題。所有用戶都能收到兩個模型的解答,并對它們的表現(xiàn)進(jìn)行投票,但只有經(jīng)過驗證且同意相關(guān)條款的用戶的投票才會被計入排行榜。該公司表示會經(jīng)常更新該排行榜。
澳大利亞悉尼大學(xué)的Jonathan Kummerfeld稱,這將有助于研究人員及時了解所在領(lǐng)域的最新文獻(xiàn),“發(fā)現(xiàn)那些他們原本可能錯過的研究成果”。他補充說,該平臺還有可能推動AI模型創(chuàng)新,因為這個排行榜提供了一種透明的方式衡量進(jìn)展。
然而,該平臺存在一個潛在問題,即對用戶參與度的依賴。對此,Cohan表示,該平臺是免費的,且包含了最先進(jìn)的模型,這對用戶而言是一種激勵。
Shome表示:“閱讀大語言模型生成的論文摘要并不能替代閱讀論文本身?!币驗樗赡芘c所引論文存在沖突,可能錯誤地解釋術(shù)語,也可能無法準(zhǔn)確回答問題。(王方)
責(zé)編:李傳新
一審:李傳新
二審:段涵敏
三審:楊又華
來源:中國科學(xué)報
我要問