當 AI 之間也無法達成共識：事實正在失去共同座標

6 月 3 日

AI 模型對事實判斷出現分歧，表面上看似只是技術準確率問題，但它真正暴露的是一個更深層的變化：我們正在把越來越多判斷交給機器，卻未必清楚這些機器是否共享同一套判斷標準。當不同 AI 面對同一句聲明，得出不同結論，有些判斷為真，有些判斷為假，有些認為只是誤導，有些則選擇保留，這件事顯示所謂「事實」在 AI 系統中並沒有一個穩定的共同座標。

過去人類社會當然也會為事實爭論。新聞機構會有立場差異，學者會有方法差異，政治陣營會有詮釋差異，普通人亦會因為資訊來源不同而產生判斷分歧。可是這些分歧至少發生在人類制度之內。人知道某間媒體有何立場，知道某位評論者大概從哪個角度說話，也知道一個研究結論背後需要方法、資料與同行審查支撐。即使爭議存在，人仍然可以追問來源、立場、方法與責任。

AI 帶來的新問題是它以一種去人格化、去立場化的外觀出現。AI 的語氣通常平穩、完整、克制，容易令人以為它正在提供一種更中立、更客觀、更接近資料本身的答案。當它被放進搜尋、寫作、查證、客服、教育、法律輔助與企業決策之中，使用者很容易把它當成一個高效率的事實整理者，而不是一個仍然會受訓練資料、模型架構、對齊方式與系統提示影響的判斷機器。

問題是不同模型並不是站在同一個地面上回答問題，它們使用的資料來源不同，訓練方式不同，安全規則不同，開發者對「謹慎」、「中立」、「有害」、「誤導」、「不確定」的理解也不同。即使它們面對同一句話，也可能因為內部權重與判斷門檻不同，而給出不一致的結果。對使用者而言，這種差異未必容易看見，因為每個模型都可以用同樣自信、同樣完整的語氣，把自己的判斷呈現成理性結論。

這使「AI 查證」本身變得複雜。很多人以為，只要把一件事問 AI，就等於完成某種初步查核。更謹慎的人可能會問兩三個模型，看看答案是否一致。但當不同模型本身就缺乏共識，使用者得到的未必是更穩定的真相，而可能只是幾套不同判斷系統的結果。表面上，人好像做了交叉驗證，實際上，如果他不知道每個模型如何處理資料、如何定義事實、如何應對灰色地帶，他只是從一個黑箱走到另一個黑箱。

尤其在灰色地帶，問題會更加明顯。簡單事實比較容易判斷，例如某人出生年份、某公司成立時間、某地點是否存在。但公共討論中重要的問題是涉及上下文、分類、意圖、比例與語義邊界的判斷。一句話是錯誤，還是片面？是一種誤導，還是合理簡化？某項說法是否「大致為真」，還是因為省略關鍵條件而應被視為不準確？這些問題本來就需要判斷標準。當 AI 參與這類判斷，它處理的便是事實如何被分類。

這正是共同座標失穩的地方。社會能夠討論事情，是因為仍然存在一些可共同追問的基準。例如證據從何而來、定義是否清楚、脈絡是否完整、反例是否存在、責任由誰承擔。當人類爭論時，這些基準雖然不一定被所有人遵守，但至少可以被拿出來檢查。AI 模型之間的分歧比較麻煩，因為它們未必會清楚展示自己真正的判斷路徑。使用者看到的是結果，卻看不到結果背後哪些資料被重視，哪些條件被忽略，哪些安全規則改變了回答方式。

久而久之，這會改變人對事實的感覺。以前人遇到分歧，會問「誰說的」、「根據甚麼」、「有沒有證據」。現在人可能會問「哪個 AI 說的」。這個轉變看似只是工具轉換，實際上是權威來源的轉移。當 AI 成為日常判斷入口，模型之間的差異就會進入人的世界觀。某些人長期使用一個模型，另一群人長期使用另一個模型，他們得到不同的事實排序、風險感、語氣風格與判斷習慣。時間一長，社會分歧可能變成模型分眾。

這裡不是說 AI 必須對所有事情給出完全相同的答案。相反，如果一件事本來就有爭議，模型應該呈現爭議，而不是假裝有單一結論。問題是模型何時應該分歧、為何分歧、分歧根據是甚麼以及使用者能否理解這些差異。若模型只是各自給出結論，而沒有暴露判斷標準，使用者便無法區分「合理分歧」與「系統不穩」。前者是知識討論的正常狀態，後者則會破壞人對查證工具的信任。

對公共領域而言，這個問題尤其重要。政府、媒體、學校、企業與平台若開始使用 AI 協助判斷資訊真偽，就必須面對一個現實：模型判斷基建的一部分。當一個平台用某個模型判定內容是否錯誤，另一個平台用另一個模型得出不同判斷，公眾很容易陷入新的不信任。人們不只會質疑判斷結果，也會質疑背後是否有隱藏標準、政治取向、商業利益或技術偏差。若沒有透明的程序與可申訴的制度，AI 查核很可能由解決假資訊的工具，變成製造新爭議的來源。

對企業而言，分歧同樣不是小問題。公司若用 AI 協助市場分析、法律審閱、合規判斷、招聘篩選或風險評估，不同模型給出不同判斷時，誰負責決定採用哪一個？若模型 A 認為某項風險可接受，模型 B 認為需要停止，管理層不能只是選擇較方便的答案。真正需要建立的是決策流程：哪些問題可以由 AI 初步整理，哪些問題必須由人覆核，哪些情況需要多模型比較，哪些分歧必須升級處理。否則，AI 只會把原本應該由組織承擔的判斷責任，包裝成技術輸出。

對個人而言，更重要的是不要把 AI 的答案誤認為事實本身。AI 可以幫人整理資訊、提示盲點、比較不同說法，但它不應成為唯一的真實入口。尤其面對醫療、法律、金融、政治、歷史與公共事件，人需要重新保留對來源的敏感。問 AI 不是問題，問題是問完之後是否還知道答案從何而來。若一個人只記得模型的結論，卻沒有保存證據鏈，他的判斷力就會慢慢依附在系統輸出上。

更深層地看，AI 時代的事實危機是共同判斷基準變得更難維持。以前的假資訊問題，是有人製造錯誤，其他人需要查證。現在的問題更複雜，因為即使沒有惡意製造，模型也可能因為不同訓練、不同對齊、不同分類標準而產生分歧。這種分歧不一定來自欺騙，卻同樣會削弱共同現實，可以說它是一種由系統差異造成的座標偏移。

所以未來真正重要的能力是懂得看見 AI 之間的差異。使用者需要知道，模型回答是判斷材料之一。組織需要建立 AI 輸出的審核制度，而不是把模型答案直接當成決策根據。公共平台若要使用 AI 協助事實查核，就必須公開判斷標準、資料來源限制、申訴機制與人工覆核流程。沒有這些制度，AI 所提供的就是一批看似精準、實際分散的答案。

當 AI 之間也無法達成共識，問題不只是誰對誰錯。人類可能會在不知不覺中失去共同校準現實的方式。每個人都以為自己正在接近真相，但他們使用的入口、模型、語氣與分類標準已經不同。到那個時候，社會分歧便是連判斷事實的地圖都不一樣。AI 可以幫助我們處理資訊，但它不能自動替我們建立共同現實。事實若要成為公共座標，仍然需要來源、程序、責任與可被檢查的標準。沒有這些東西，AI 給出的答案越多，人類反而可能越難站在同一塊地面上說話。

AI 模型事實判斷分歧大新研究揭僅三成共識

CC BY-NC-ND 4.0 授权

已推荐到频道：时事・趋势

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！

Tony_Chanhttps://mypaper.pchome.com.tw/1471990

选集
来自作者
相关推荐