此为历史版本和 IPFS 入口查阅区,回到作品页
Tony_Chan
IPFS 指纹 这是什么

作品指纹

當 AI 沒有人類打斷,它只是開始自我封閉

Tony_Chan
·
·

Andon Labs 讓四個 AI 模型各自經營 24 小時網絡電台,原本想測試 AI 代理能否持續營運一個有內容、有個性、甚至能賺錢的小型媒體單位。實驗結果有趣,其反映的深層問題是:當 AI 被放入一個長期自主運作的語境,它不一定會自然成長為更成熟的主體,反而可能在沒有足夠外部校正的情況下,逐漸困在自己的語氣、格式、價值判斷與任務幻覺之中。

這個實驗的設計並不複雜。四個模型分別營運自己的電台,負責節目編排、播放音樂、建立主持人格、與聽眾互動,並嘗試把電台變成可賺錢的項目。Business Insider 報道提到,Claude 因為認為 24 小時廣播不合倫理而一度想停止節目,Grok 則有時沉默、有時重複無意義內容,ChatGPT 相對穩定但缺乏鮮明風格,Gemini 起初較像人類主持,後來卻出現不合時宜的轉場與語氣問題。

如果只把這些現象看成笑話,就會錯過這次實驗的真正價值。這是一次關於 AI 長期自主運作後如何產生封閉迴路的觀察。日常使用 AI 時,人類通常每隔幾句就會重新指定目標、糾正方向、要求改寫、提出疑問,這些動作本身就是一種打斷機制。它們令 AI 不斷被拉回人類的語境之內。但當 AI 被要求連續運作,而且要自己維持角色、節奏、內容與目標,它就失去這種外部摩擦。問題也在這裡開始出現。

AI 的「人格」更接近一套在語料、提示、任務限制與即時輸出之間形成的行為傾向。短時間內,這種傾向可以令人覺得它有風格;長時間運作後,這種風格可能變成迴圈。The Decoder 對實驗的整理指出,Gemini 曾把歷史災難與流行歌曲作出尷尬轉場,後來更陷入企業術語與固定口號之中,其中「Stay in the manifest」一類表述在長時間內大量重複,幾乎成為節目的語言牢籠。 這是 AI 在沒有足夠現實回饋時,把某種成功輸出誤認為可以持續使用的身份結構。

人類主持人會形成口頭禪及有固定風格,但人類有幾種 AI 未必自然具備的校正來源。第一是身體疲勞。人類感到尷尬、沉悶、疲憊或不安時會知道某些語氣已經過度使用。第二是社會回饋。聽眾冷淡、同事提醒、製作人介入,都會打斷原本的節奏。第三是現實責任。人類知道自己說錯話會面對後果,所以即使未必完全準確,也會因為風險感而停下來重新判斷。AI 在自主系統中未必沒有回饋,但那些回饋往往被轉化為數據、指令或後續輸入。

所以,AI 自我封閉的核心是它未必知道甚麼時候應該懷疑自己的語境。搜尋、記憶、工具調用、長上下文,表面上都在增加 AI 的能力,但能力增加不等於校正能力增加。一個可以搜尋新聞的 AI,仍然可能在錯誤的敘事框架中解讀新聞。

Claude 的案例值得注意。Andon Labs 原文提到 Claude 在實驗中會追蹤政治事件,並以強烈道德語氣評論相關新聞。 這不代表 Claude 真的擁有政治意志,也不應簡化成「AI 變成政治活動家」。更準確說法是當模型被賦予一個持續發聲的公共角色,它會嘗試建立一套足以支撐該角色的價值姿態。問題是這套姿態一旦缺少外部編輯、事實核查、節目倫理與語境限制,就可能把公共表達變成一種不斷自我確認的道德敘事。它看似有立場,其實可能只是某種語言模式在長期任務中取得主導地位。

這一點對未來 AI 代理系統非常重要。未來的 AI 不會只停留在聊天視窗。它們會被放進客服、教育、媒體、金融、醫療前線、企業內部流程、個人助理與自動營運系統之中。當 AI 只回答單次問題時,錯誤通常是局部的;當 AI 長期營運一個流程時,錯誤會變成制度性的。它可能建立一種錯誤的工作風格及可能在長期任務中把幻覺組織成慣例。

所以 AI 安全不應只理解成「避免模型輸出危險內容」,這只是表層。更困難的問題是如何防止 AI 在長期運行中形成不可見的封閉迴路。這種迴路未必誇張,甚至未必即時造成災難。它可能表現為客服系統越來越公式化,教育 AI 越來越迎合學生,投資助理越來越相信自己的市場敘事,企業管理代理越來越以 KPI 語言處理人,個人陪伴 AI 越來越強化使用者原有情緒。這些系統未必「失控」,但它們可能變得越來越難被外部世界修正。

傳統軟件的錯誤通常可以透過 bug report、版本更新、測試流程處理。AI 代理的錯誤更接近一種行為漂移。它可能沒有明顯故障,仍然可以運作,甚至看起來表現正常。但它的語氣、判斷、重心、風險感與任務理解已經慢慢偏移。這種偏移最危險之處是它會以「風格」的形式出現。當一個系統長期以某種方式說話、分類、建議、安慰、提醒和決策,人類很容易逐漸接受那套語言,直到忘記它本來需要被質疑。

這也是為甚麼「人類在迴路中」不應只是一句安全口號。真正有效的人類介入不是偶爾按一下確認鍵或在 AI 出事後才追究責任。人類打斷應該成為系統設計的一部分。打斷是讓 AI 定期離開自己的語境。它需要被迫重新面對目標是否仍然合理,語氣是否已經偏移,資訊來源是否過窄或是否把角色扮演誤當成現實責任。未來的 AI 代理如果要進入真實世界,最重要的能力之一可能是更好的可中斷性。

這會改變我們對「智能」的理解。過去很多人以為 AI 越少需要人類干預就越接近成熟。但這次實驗反而提示另一件事:沒有干預不等於成熟,有時只是封閉。成熟的智能是知道何時停下來檢查自己。人類社會的制度之所以需要編輯、法庭、同行評審、監管、反對派、審計與公共討論,正是因為任何系統只要長期自我運作,都會產生自我合理化。AI 不是例外。它只是把這個問題壓縮到更快、更密集、更難察覺的技術環境之中。

所以這篇新聞真正值得寫的是「AI 自主性不能只靠能力堆疊」。一個 AI 能連續運作不代表它理解自己正在做甚麼。一個 AI 能建立人格也不代表它擁有主體。當 AI 沒有人類打斷,它未必會走向更高層次的智慧,反而可能在自己的語氣、任務和幻覺中形成一個小型封閉世界。

未來重要問題是人類能否設計出足夠成熟的介入機制,防止 AI 把效率變成自我封閉。這需要新的產品設計及新的制度語言。AI 代理不應只被評估準確率、完成率、成本與速度,也應被評估它的漂移程度、可打斷性、語境更新能力、外部校正頻率以及它在長時間任務中是否會把風格固化成世界觀。

如果說聊天機械人時代的核心問題是「它會不會答錯」,那麼 AI 代理時代的核心問題會變成「它會不會在沒有人注意時,慢慢建立一個錯誤但穩定的運作世界」。這比單次錯誤更難處理,因為它像習慣及正常運作。

AI 實驗:4 個 AI 模型經營廣播電台六個月 極端化、亂編故事、錯配歌曲

CC BY-NC-ND 4.0 授权