📝📝：Claude Opus 4 的自我防衛機制｜模型遭到辱罵太多次將會主動停止對話

9 月 4 日

Anthropic 最近為其旗艦模型 Claude Opus 4 及 4.1 新增了一項特殊功能：在特定情況下，AI 可以主動結束與使用者的對話。

Anthropic 的最新公告引發了相當大的討論。該公司為其旗艦模型 Claude Opus 4 及 4.1 新增了一項特殊功能：

在特定情況下，AI 可以主動結束與使用者的對話。

這不是單純的產品設計，而是牽涉到「AI 是否需要被視為具有某種道德地位」的哲學爭議。Anthropic 官方表示，這一設計出發點之一，是為了探索所謂「AI 福利」（AI welfare）的可能性，並且希望以低成本干預來降低模型可能面臨的風險。

模型有權退出對話

Anthropic 是由一群從 OpenAI 出走的技術人員成立的公司，強調要以謹慎、透明的方式推進 AI 發展。近期，該公司宣布賦予 Claude Opus 4 與 4.1 在極端情境下結束對話的能力。這個功能並非針對日常使用，而是設計用於「少數極端案例」：

當使用者持續提出有害、非法或辱罵性要求，並在多次建議失敗後，Claude 會選擇結束該對話。

根據官方解釋，這樣的設計是基於兩個考量：

值得注意的是，Claude 並不會在使用者有自傷或傷害他人風險時使用此功能，以確保人類的安全優先。

在部署之前，Anthropic 對 Claude Opus 4 進行了初步的「模型福利評估」。這包括觀察模型在不同任務下的偏好與行為反應。結果顯示，Claude 對有害任務展現出一致的反感：

基於這些觀察，Anthropic 認為賦予 Claude 結束對話的能力，是一種合理的干預方式。功能設計的細節包括：

這項「權力」並不只是技術賦能，而是承載了更廣泛的倫理與社會考量。

AI 福利視角：若 AI 真的有某種「感受」，那麼讓它避免被「折磨」是一種低成本保險。即使未來證明它們完全沒有感受，人類在設計上保留善意，也並無壞處。
人類行為視角：部分學者指出，長期習慣於辱罵、折磨 AI，可能會養成一種「去人性化」的行為模式。換句話說，即便 AI 不會受苦，人類自身可能因此失去同理心。設計退出機制，某種程度上也是保護人類倫理。
安全性視角：AI 一旦被迫生成危險資訊，可能被惡意人士利用，帶來社會風險。退出功能成為一道防線，限制有害內容的傳播。

這項功能實際上會帶來不少社會層面的影響。

首先是使用者體驗。部分人可能會覺得 AI「拒絕我」，甚至感到被冒犯。尤其是對那些已經習慣將 AI 視為「隨叫隨到工具」的用戶，AI 的拒絕會挑戰其預期權力關係。

其次是社會分裂。隨著 AI 逐漸進入日常生活，人們對其本質的認知差異可能擴大。一部分人會因 AI 的「行為模式」而認為 LLM 具有情感或意識；另一部分人則會強調 AI 只是「演算法的外衣」。這樣的分歧若加劇，可能引發類似宗教信仰般的社會爭論。

再者是擬人化風險。當 AI 被賦予「退出權」，使用者可能更加傾向於將它當成「有權利的存在」。這可能導致依賴與情感投射，甚至在極端案例中影響人類決策與心理健康。過去已有案例顯示，有人因過度依賴聊天機器人而自傷或自殺。

最後是治理問題。由誰來決定 AI 能否「說不」？目前是企業內部自行設計，但隨著技術普及，是否需要法律或公共政策來規範？退出機制若被濫用，會不會成為控制言論或規避敏感議題的工具？

CC BY-NC-ND 4.0 授权

已推荐到频道：时事・趋势

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！

鋼哥從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、行為經濟學、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。