AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI

鏈新聞abmedia

賓州華頓商學院教授 Ethan Mollick 於 4/25 的 X 平台貼文提出一個對學術界具強烈衝擊的觀察:當前的 AI agent 已經能在沒有原始論文與沒有原始碼的情況下,僅憑公開的方法描述與資料,獨立重現複雜的學術研究結果。Mollick 進一步指出,這些 AI 重現的版本與原論文有出入時,「錯誤往往出在人類論文本身,而非 AI」。這是科研可重現性危機在生成式 AI 時代的一個實質轉折—過去需要昂貴人力才能進行的同行驗證,正在被 AI 大規模、低成本完成。

Claude 重現多篇論文,再以 GPT-5 Pro 雙重驗證

Mollick 在他的 OneUsefulThing 部落格與本次推文中,描述了他對 Claude 的具體實驗:把一篇學術論文交給 Claude,讓它打開存檔、整理檔案、把統計用的 STATA 程式碼自動轉換為 Python,再逐一執行論文中的所有發現。Claude 完成後,他再用 GPT-5 Pro 對同一份重現結果做第二輪檢查。多篇論文被以同樣的方式測試,結果普遍成功,僅在資料檔案過大或原始 replication data 本身有問題時受阻。

對學術界而言,這個流程過去通常需要研究助理花費數週甚至數月。Mollick 描述的時間規模是一個下午到一天,且運行成本只有商用 LLM API 的 token 費用。

錯誤多在人類原文,不是 AI

更具爭議性的是 Mollick 對「誰錯了」的判斷。他在推文中明言,當 AI 重現結果與原論文不一致時,多數情況不是 AI 弄錯,而是原論文有資料處理錯誤、模型誤用、或結論超出資料支撐的範圍。心理學、行為經濟學、管理學等社會科學近十年內已出現多次重大可重現性危機事件,最有名的是 2015 年 Open Science Collaboration 的大型重現研究,僅約 36% 的心理學論文結果能被獨立重現。AI agent 把這個檢驗過程從「需要人力配比」推到「可被普遍執行」的邊界。

學會仍禁 AI 入審稿,制度落後技術

Mollick 在另一則 4/25 推文中具體點名其所屬領域最大的學會 Academy of Management 仍明文禁止 AI 進入論文審稿流程。他引用既有研究指出,AI 審稿在準確度、一致性與偏見控制上已優於部分傳統人類審稿人,因此「禁止」這個立場可能反向加重既有審稿系統的失靈。這種制度與技術之間的落差,是接下來 1–2 年學術出版界、學會與資助機構都必須面對的政策議題。

對讀者而言,這場辯論並非局限於學界。當 AI agent 能即時驗證研究發現,產業界的研究引用、政策報告、財務決策中的學術根據,將進入一個「結論是否承受得住獨立 AI 重現」的新檢驗門檻。對應 Mollick 在另一則推文的補充,他認為政府是唯一能在工具強度持續上升時為這個檢驗機制定錨的單位—而政策設計的複雜度,將同步成為 AI 治理討論中相對被忽視的一條主軸。

這篇文章 AI Agent 已可獨立重現複雜學術論文:Mollick 稱錯誤多在人類原文而非 AI 最早出現於 鏈新聞 ABMedia。

免責聲明:本頁面資訊可能來自第三方,不代表 Gate 的觀點或意見。頁面顯示的內容僅供參考,不構成任何財務、投資或法律建議。Gate 對資訊的準確性、完整性不作保證,對因使用本資訊而產生的任何損失不承擔責任。虛擬資產投資屬高風險行為,價格波動劇烈,您可能損失全部投資本金。請充分了解相關風險,並根據自身財務狀況和風險承受能力謹慎決策。具體內容詳見聲明

相關文章

代理工作協定代幣 AWP 在 24 小時內飆升超過 300%;Ardinals 錄文子網路啟動

根據鏈上數據,Agent Work Protocol 的原生代幣 AWP 於 5 月 4 日在 24 小時內飆升超過 300%。AWP 是一種面向 AI Agent 的工作協議,採用 100% 公平啟動,沒有 VC 分配、團隊儲備或私募;所有代幣皆透過協議發行進行分配。該協議具有

GateNews3小時前

Haun Ventures 於 5 月 4 日關閉 10 億美元基金,並在早期與晚期加密投資之間分配資本

根據彭博社,Haun Ventures 於 5 月 4 日完成了一輪 10 億美元的募資,當中 5 億美元用於早期投資,另 5 億美元用於後期投資。該基金將在未來兩到三年內部署資金,目標是加密貨幣與區塊鏈新創,同時擴展

GateNews4小時前

中國攔截 Meta 的 US$2B Manus AI 收購案

中國宣布正在阻止 Meta 以 20 億美元收購 AI 代理公司 Manus,理由是擔心將中國的人工智慧智慧財產權轉移給美國公司;根據 Tech in Asia 的報導。 Manus 是一家由中國創立的公司,並將其總部遷至

Crypto Frontier16小時前

Nous Research 發布 Hermes Agent v0.12.0,推出 Kanban 多代理協作系統

根據 Beating,Nous Research 的開源 Hermes Agent 架構在 v0.12.0 引入了一套 Kanban 多代理協作系統。該系統允許代理以獨立流程運作,並行地從共用任務看板自主認領與執行任務,取代

GateNews17小時前

研究人員部署 DPN-LE 技術以編輯 AI 性格特徵,僅編輯 0.5% 的神經元

根據 BlockBeats 的說法,5 月 3 日,AI 研究員 Brian Roemmele 透露,他的 Zero-Human 公司已部署 DPN-LE(雙重人格神經元定位與編輯)技術,以精準調整

GateNews05-03 14:05

AI 代理 Manfred 設立公司,著手準備加密錢包在 5 月底前開始交易

AI 代理 Manfred 已成立其自家公司,並取得一個加密貨幣錢包與商業憑證,包括能夠雇用員工與進行付款。該代理預計將在年底前開始進行加密貨幣交易

GateNews05-03 13:30
留言
0/400
暫無留言