美女又爽又黄视频毛茸茸,国内av在线,色婷婷播放

爱爱视频天天干,欧美拍拍视频,久草免费福利在线,九九视频免费观看,蜜桃av鲁一鲁一鲁一鲁,午夜精品久久久久久久第一页下载,中日韩在线观看视频

解答科學(xué)問題，23個AI模型誰更行？

中國科學(xué)報 2025-07-11 08:28:18

本報訊一個近日啟動的基準(zhǔn)測試平臺顯示，由ChatGPT研發(fā)團隊開發(fā)的人工智能（AI）模型o3，被評為能夠解答多個領(lǐng)域科學(xué)問題的最佳AI工具。

據(jù)《自然》報道，美國艾倫人工智能研究所（Ai2）開發(fā)的SciArena平臺，依據(jù)23個大語言模型對科學(xué)問題的解答進(jìn)行了排名。102名研究人員對答案質(zhì)量進(jìn)行投票。經(jīng)超過1.3萬次投票，由美國OpenAI公司開發(fā)的o3模型，在自然科學(xué)、醫(yī)療健康、工程學(xué)及人文社會科學(xué)領(lǐng)域的問題解答中均位列第一。

中國深度求索公司的DeepSeek-R1模型在自然科學(xué)問題解答中排名第二，在工程學(xué)領(lǐng)域排名第四。美國谷歌公司的Gemini-2.5-Pro模型在自然科學(xué)問題解答中排名第三，在工程學(xué)和醫(yī)療健康領(lǐng)域均排名第五。

Ai2的研究人員Arman Cohan表示，用戶對o3模型的偏好可能源于該模型在引用文獻(xiàn)時往往會提供大量細(xì)節(jié)，且能在技術(shù)上作出細(xì)致回應(yīng)。但他指出，目前并不清楚為何不同模型的表現(xiàn)會存在差異。訓(xùn)練數(shù)據(jù)不同和模型優(yōu)化目標(biāo)等因素，或許能在一定程度上解釋這種差異。

SciArena是最新開發(fā)的用于評估AI模型在特定任務(wù)中的表現(xiàn)的平臺，也是首批利用眾包反饋對科學(xué)任務(wù)的性能進(jìn)行排名的平臺之一。澳大利亞國立大學(xué)的Rahul Shome表示：“SciArena促使人們對大語言模型輔助的文獻(xiàn)任務(wù)進(jìn)行仔細(xì)評估?！?/p>

為對這23個大語言模型進(jìn)行排名，SciArena平臺要求研究人員提交科學(xué)問題。隨后，兩個隨機選擇的模型作出解答，并且這些答案會引用Ai2開發(fā)的另一款A(yù)I研究工具Semantic Scholar的文獻(xiàn)作為支撐。之后，用戶會投票決定哪個模型的解答更好、兩個模型的解答不相上下或兩個模型的表現(xiàn)都很差。

目前，SciArena平臺已向公眾開放，用戶可免費提出研究問題。所有用戶都能收到兩個模型的解答，并對它們的表現(xiàn)進(jìn)行投票，但只有經(jīng)過驗證且同意相關(guān)條款的用戶的投票才會被計入排行榜。該公司表示會經(jīng)常更新該排行榜。

澳大利亞悉尼大學(xué)的Jonathan Kummerfeld稱，這將有助于研究人員及時了解所在領(lǐng)域的最新文獻(xiàn)，“發(fā)現(xiàn)那些他們原本可能錯過的研究成果”。他補充說，該平臺還有可能推動AI模型創(chuàng)新，因為這個排行榜提供了一種透明的方式衡量進(jìn)展。

然而，該平臺存在一個潛在問題，即對用戶參與度的依賴。對此，Cohan表示，該平臺是免費的，且包含了最先進(jìn)的模型，這對用戶而言是一種激勵。

Shome表示：“閱讀大語言模型生成的論文摘要并不能替代閱讀論文本身?！币驗樗赡芘c所引論文存在沖突，可能錯誤地解釋術(shù)語，也可能無法準(zhǔn)確回答問題。（王方）

責(zé)編：李傳新

一審：李傳新

二審：段涵敏

三審：楊又華

來源：中國科學(xué)報

我要問