• 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
2026 / 02 / 15 06:25 星期日
  • Login
mashdigi-科技、新品、趣聞、趨勢
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
  • 頭條話題
  • 人工智慧
  • 自動駕駛
  • 網路
  • 處理器
  • 手機
  • 展覽活動
    • CES
      • CES 2014
      • CES 2015
      • CES 2016
      • CES 2017
      • CES 2018
      • CES 2019
      • CES 2020
    • MWC
      • MWC 2014
      • MWC 2015
      • MWC 2016
      • MWC 2017
      • MWC 2018
      • MWC 2019
    • Computex
      • Computex 2014
      • Computex 2015
      • Computex 2016
      • Computex 2017
      • Computex 2018
      • Computex 2019
    • E3
      • E3 2014
      • E3 2015
      • E3 2016
      • E3 2017
    • IFA
      • IFA 2014
      • IFA 2015
      • IFA 2016
      • IFA 2017
    • TGS
      • TGS 2016
  • 關於我們
    • 關於mashdigi
    • mashdigi網站聯繫方式
No Result
View All Result
mashdigi-科技、新品、趣聞、趨勢
No Result
View All Result
首頁 市場動態

Google推出全新「FACTS」基準測試專抓AI說謊!連最強模型準確率都不滿七成

撰文: 楊又肇 (Mash Yang)
2025-12-31
in 市場動態, 生活, 網路, 軟體
A A
0
分享至 Facebook分享至 Twitter分享至 LINE

隨著生成式AI (Generative AI) 應用日益普及,大型語言模型 (LLM) 最令人頭痛的「幻覺」 (Hallucination)問題——即AI一本正經地胡說八道,始終是業界極力想解決的痛點。為了更精確量化AI到底「有多誠實」,Google聯合旗下的Google DeepMind、Google Cloud與Kaggle團隊,發表一套名為FACTS (Factuality Assessment for Contemporary Text Synthesis,當代文本綜合事實性評估) 的全新評估基準。

Google推出全新「FACTS」基準測試專抓AI說謊!連最強模型準確率都不滿七成

這套被視為AI真實性「終極考試」的基準,不僅測試單純的問答,更涵蓋了圖像理解與工具使用。值得關注的是,即便是目前帳面數據最強的Gemini 3 Pro,在此測試中的平均準確率也僅約69%,顯示現階段AI距離「完全可信」仍有一段不小的差距。

四大關卡:不僅要會答,還要「知之為知之」

不同於傳統僅針對文本生成的測試,FACTS基準由四個針對不同能力的子測試組成,宛如一場全方位的AI體檢:

• M-FACTS (多模態測試):考驗AI的「眼力」與知識結合能力。例如給AI看一張特定型號的火車照片,不僅要能辨識型號,還要能回答該型號的製造年份等深層資訊,而非僅描述圖片外觀。

• P-FACTS (參數化測試):這是純粹的「隨堂考」。AI必須在不聯網的情況下,僅憑訓練時內建的知識庫回答困難問題。Google特別採用「對抗性篩選」,只保留那些現有模型容易答錯的題目,確保鑑別度。

• S-FACTS (搜尋測試):模擬AI作為代理人 (Agent) 的能力。AI必須懂得自行拆解複雜問題 (例如:「某編劇最早發行的電影是哪部?」),執行多次搜尋,並且整合資訊。

• D-FACTS (文檔理解測試):測驗AI的「忠實度」。給定一份文件,AI必須嚴格根據內容回答,嚴禁「腦補」添加文檔中未提及的資訊。

評測結果:Gemini 3 Pro險勝,GPT-5展現「誠實的無知」

在導入雙重自動評判機制 (由AI裁判員檢查核心事實覆蓋率與矛盾性)後,測試結果顯示目前市面上的頂級模型仍有約30%的錯誤率。

而Google自家的Gemini 3 Pro以68.8%的準確率位居榜首,其次是Gemini 2.5 Pro (62.1%) 與OpenAI的GPT-5 (61.8%)。

有趣的是,測試揭露了不同模型的「性格」差異。Gemini系列傾向於提供詳盡的資訊 (寧可多說),但在多模態測試中有時會因此夾雜不精確的內容;而GPT-5與Claude 系列則表現出「精準至上」的特質,遇到不確定的問題傾向於承認「不知道」或拒絕回答。這種「誠實的無知」 (Honest Ignorance) 在某些專業場景下,反而比強行回答更有價值。

Google推出全新「FACTS」基準測試專抓AI說謊!連最強模型準確率都不滿七成

分析觀點:建立AI的「信賴指標」

筆者認為,Google此時推出FACTS基準,其戰略意義在於重新定義AI競賽的規則。

過去兩年,各家大廠多半在比拚模型參數大小、生成速度或是多模態的應用廣度。但隨著AI開始進入醫療、法律與企業決策等嚴肅領域,「正確性」與「可信度」將成為下一階段的決勝關鍵。

FACTS基準的出現,就像是為AI產業制定了一套更嚴格的安規測試。69%的準確率雖然看起來不高,但也真實反映了LLM本質上仍是機率模型的事實。

對於開發者而言,這提供了一個明確的優化方向 (例如改善搜尋策略或增強拒答機制);對於使用者來說,未來在選擇AI工具時,除了看它「多會寫」,更要看它「多誠實」。

Tags: AIChatGPTFACTSGeminiGemini 3 ProGoogleGoogle CloudGoogle DeepMindOpenAI人工智慧
ShareTweetShare
楊又肇 (Mash Yang)

楊又肇 (Mash Yang)

mashdigi.com網站創辦人兼主筆,同時也是科技新聞業學習者。

發佈留言 取消回覆

發佈留言必須填寫的電子郵件地址不會公開。 必填欄位標示為 *

這個網站採用 Akismet 服務減少垃圾留言。進一步了解 Akismet 如何處理網站訪客的留言資料。

翻譯 (Tanslate)

最近更新內容:

Seedance 2.0上線即遭「地表最強法務」狙擊,字節跳動的AI捷徑走通了嗎?

Seedance 2.0上線即遭「地表最強法務」狙擊,字節跳動的AI捷徑走通了嗎?

2026-02-15
Waymo第六代自動駕駛系統正式上路!展現極強的軟硬體整合能力

Waymo第六代自動駕駛系統正式上路!展現極強的軟硬體整合能力

2026-02-15
歐盟針對通用人工智慧提出準則初稿,預計2025年5月定案

Google警告歐盟:推動「科技主權」築起高牆,恐扼殺自身經濟與AI發展

2026-02-14
mashdigi-科技、新品、趣聞、趨勢

Copyright © 2017 mashdigi.com

  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

追蹤我們

Welcome Back!

Login to your account below

Forgotten Password?

Retrieve your password

Please enter your username or email address to reset your password.

Log In
No Result
View All Result
  • 關於 mashdigi.com
  • 投放廣告
  • 聯繫 mashdigi.com

Copyright © 2017 mashdigi.com