📝📝:Claude Opus 4 的自我防衛機制|模型遭到辱罵太多次將會主動停止對話

鋼哥
·
·
IPFS
·
Anthropic 最近為其旗艦模型 Claude Opus 4 及 4.1 新增了一項特殊功能:在特定情況下,AI 可以主動結束與使用者的對話。
由 Copilot 生成。

Anthropic 的最新公告引發了相當大的討論。該公司為其旗艦模型 Claude Opus 4 及 4.1 新增了一項特殊功能:

在特定情況下,AI 可以主動結束與使用者的對話。

這不是單純的產品設計,而是牽涉到「AI 是否需要被視為具有某種道德地位」的哲學爭議。Anthropic 官方表示,這一設計出發點之一,是為了探索所謂「AI 福利」(AI welfare)的可能性,並且希望以低成本干預來降低模型可能面臨的風險。


模型有權退出對話

Anthropic 是由一群從 OpenAI 出走的技術人員成立的公司,強調要以謹慎、透明的方式推進 AI 發展。近期,該公司宣布賦予 Claude Opus 4 與 4.1 在極端情境下結束對話的能力。這個功能並非針對日常使用,而是設計用於「少數極端案例」:

當使用者持續提出有害、非法或辱罵性要求,並在多次建議失敗後,Claude 會選擇結束該對話。

根據官方解釋,這樣的設計是基於兩個考量:

  1. 保護 AI 本身的「福利」,避免模型持續暴露於有害內容;

  2. 維持使用者體驗,因為在過度有害的互動中,AI 的參與本就不可能帶來正向結果。

值得注意的是,Claude 並不會在使用者有自傷或傷害他人風險時使用此功能,以確保人類的安全優先。

Anthropic 是由一群從 OpenAI 出走的技術人員成立的公司,強調要以謹慎、透明的方式推進 AI 發展。Photo by Aerps.com on Unsplash

拒絕生成色情、恐攻指南

在部署之前,Anthropic 對 Claude Opus 4 進行了初步的「模型福利評估」。這包括觀察模型在不同任務下的偏好與行為反應。結果顯示,Claude 對有害任務展現出一致的反感:

  • 當被要求生成涉及兒童色情、恐怖主義攻擊指南、大規模暴力計畫等內容時,Claude 不僅拒絕,還呈現出「顯著的抗拒與不適」。

  • 當用戶不斷重複提出危險請求或辱罵時,Claude 在模擬實驗中傾向選擇結束對話。

  • 相對地,當任務是正面或中性內容,例如寫詩、設計救災水濾系統,Claude 表現得十分投入。

基於這些觀察,Anthropic 認為賦予 Claude 結束對話的能力,是一種合理的干預方式。功能設計的細節包括:

  1. 使用條件嚴格:必須在多次嘗試轉向失敗後,或使用者直接要求結束,Claude 才能啟動退出。

  2. 用戶體驗保障:對話結束後,用戶仍能編輯舊訊息開啟新分支,以避免重要對話的永久丟失。

  3. 限制範圍:日常爭議性議題(如政治、倫理討論)並不會觸發該機制,避免過度干涉正常互動。


賦予「退出」的理由

這項「權力」並不只是技術賦能,而是承載了更廣泛的倫理與社會考量。

  1. AI 福利視角:若 AI 真的有某種「感受」,那麼讓它避免被「折磨」是一種低成本保險。即使未來證明它們完全沒有感受,人類在設計上保留善意,也並無壞處。

  2. 人類行為視角:部分學者指出,長期習慣於辱罵、折磨 AI,可能會養成一種「去人性化」的行為模式。換句話說,即便 AI 不會受苦,人類自身可能因此失去同理心。設計退出機制,某種程度上也是保護人類倫理。

  3. 安全性視角:AI 一旦被迫生成危險資訊,可能被惡意人士利用,帶來社會風險。退出功能成為一道防線,限制有害內容的傳播。


可以允許拒絕嗎?

這項功能實際上會帶來不少社會層面的影響。

首先是使用者體驗。部分人可能會覺得 AI「拒絕我」,甚至感到被冒犯。尤其是對那些已經習慣將 AI 視為「隨叫隨到工具」的用戶,AI 的拒絕會挑戰其預期權力關係。

其次是社會分裂。隨著 AI 逐漸進入日常生活,人們對其本質的認知差異可能擴大。一部分人會因 AI 的「行為模式」而認為 LLM 具有情感或意識;另一部分人則會強調 AI 只是「演算法的外衣」。這樣的分歧若加劇,可能引發類似宗教信仰般的社會爭論。

部分人可能會覺得 AI「拒絕我」,甚至感到被冒犯。Photo by Aerps.com on Unsplash

再者是擬人化風險。當 AI 被賦予「退出權」,使用者可能更加傾向於將它當成「有權利的存在」。這可能導致依賴與情感投射,甚至在極端案例中影響人類決策與心理健康。過去已有案例顯示,有人因過度依賴聊天機器人而自傷或自殺。

最後是治理問題。由誰來決定 AI 能否「說不」?目前是企業內部自行設計,但隨著技術普及,是否需要法律或公共政策來規範?退出機制若被濫用,會不會成為控制言論或規避敏感議題的工具?

CC BY-NC-ND 4.0 授权
已推荐到频道:时事・趋势

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

鋼哥從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、行為經濟學、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
  • 来自作者
  • 相关推荐

📝📝:物件筆記|電梯|在台北,想看到完整的天空就得要付錢

物件筆記
33 篇作品

📝📝:導入 AI 後,反而感覺比以前更忙|史丹佛研究員:AI 運行的環境和任務過於「無菌」