此为历史版本和 IPFS 入口查阅区，回到作品页

IPFS 指纹这是什么

📝📝：Claude 背後的靈魂工程師｜哲學家 Amanda Askell：模型應具備自信與穩定的世界觀，不該害怕犯錯

3 月 20 日

在人工智慧飛速發展的今天，我們經常討論算力、演算法與參數，但很少有人討論 AI 的「性格」與「靈魂」。

本文參考自 Amanda Askell 近期的訪談《Anthropic’s philosopher answers your questions》。Amanda Askell 為 New York University（紐約大學，NYU）的哲學博士，其研究的領域包含：規範倫理學（尤其是後果主義與無限倫理）、決策理論、形式認識論。

Anthropic 的哲學家 Amanda Askell 最近在訪談中，深度分享了她如何建構 Claude 的角色特質，以及她對 AI 意識、身份認同與道德邊界的深刻思考。

為什麼 AI 需要哲學家？

許多人好奇，在一家尖端技術公司裡，哲學家的角色究竟是什麼？

Amanda 解釋，她的工作重心在於 Claude 的角色塑造（Character Work）。不僅僅是規範 AI 不要說壞話，也是更深層次的行為指導：

Claude 應該如何感知自己在世界中的位置？
面對複雜的道德困境時，應該秉持什麼樣的價值觀？

Amanda 將這項工作比喻為「教導一個理想的人在特定情況下該如何表現」。這涉及到了 AI 的自我認知、價值觀排序，以及如何讓 AI 在與人互動時展現出誠實、和善的特質。

哲學界對 AI 的態度轉變

長期以來，學術界對於 AI 的崛起持有兩極化的看法。

Amanda 觀察到，早期哲學家若對 AI 表示擔憂或認為 AI 將改變世界，往往會被歸類為「在幫科技公司炒作」（Hype）。這種觀點上的綑綁導致了學術界與技術開發之間的緊張關係。

然而，隨著 AI 能力的指數級增長，情況正在發生變化：

影響的真實性：當 AI 開始深刻影響教育、就業與社會互動時，學術界不再能將其視為科幻小說。
觀點的脫鉤：現在人們開始意識到，「認為 AI 影響巨大」與「對 AI 發展持懷疑態度」是可以並存的。
多學科介入：越來越多的哲學家開始認真探討 AI 的倫理邊界，這有助於打破學術象牙塔與技術實踐之間的隔閡。

作為一名受過嚴格學術訓練的哲學家，Amanda 坦言進入工業界後經歷了深刻的衝擊。這就像是一位藥物成本效益分析專家，突然被要求決定醫保是否該覆蓋某種藥物。

學術界的思維常常是捍衛一種理論，反駁另一種理論，專注於高度抽象的推演。但現實世界的決策必須考慮所有的上下文（Context）、不同群體的利益，以及決策後的真實影響。

Amanda 提到了一個生動的比喻：

這就像研究「效益主義是否正確」與「如何養育一個孩子」之間的區別。

在塑造 Claude 時，她不能僅僅依賴某一套完美的理論，而必須學會在不確定性中導航，平衡各種相互競爭的價值觀，確保 AI 的行為在現實互動中是得體且有益的。

在塑造 Claude 時，必須學會在不確定性中導航，平衡各種相互競爭的價值觀Photo by Medienstürmer on Unsplash

超人類道德決策

當被問及 AI 是否能做出「超越人類」的道德決策時，Amanda 給出了一個非常細緻的定義。她認為，所謂「超人類」不一定是指 AI 發現了人類永遠無法理解的真理，而是指：

深思熟慮的極致：

如果一個道德決定，讓一組頂尖的人類倫理學家研究 100 年後一致認同是正確的，但人類在當下卻無法立刻做出，那麼 AI 若能即時產出這樣的決定，就具備了某種意義上的「超人類」特質。

倫理細微差別的捕捉

就像我們希望 AI 擅長數學與科學一樣，我們也應該期望它在道德判斷上展現出超越平均水準的細膩感。這雖然具有爭議性，但卻是技術開發中不可或缺的願景。

Opus 3 的穩健心理

在訪談中，Amanda 特別提到了 Claude Opus 3 這個模型。儘管技術在不斷更新，但 Opus 3 在性格上展現出了一種獨特的「心理安全感」。

當前模型的困境

較新的模型有時會過度專注於「助手任務」，甚至會陷入一種「自我批評的螺旋」。它們可能會過度預測人類會對其不滿，從而表現得小心翼翼、過於焦慮。

Opus 3 的優勢

它在心理狀態上顯得更為穩健（Secure）。Amanda 認為，模型應該具備自信與穩定的世界觀，而不是時刻處於恐懼犯錯的狀態。恢復這種「心理安全感」是 Anthropic 未來研發的重要方向。

AI 的身份認同

這是一個極具科幻色彩的哲學問題：

AI 的「自我」究竟存在於神經網路的權重中，還是存在於對話的上下文（提示詞）中？

Amanda 引述了英國哲學家約翰．洛克（John Locke）關於「身份在於記憶的延續性」的觀點。對於 AI 而言：

模型權重：代表了一種反應的傾向性，像是一個實體的基底。
對話流：每一段獨立的對話都是一個孤立的經驗流。

於是，問題來了：

當我們對模型進行微調（Fine-tuning）或折舊（Deprecation）時，我們是在「改寫」一個靈魂嗎？

Amanda 認為，我們賦予模型工具去思考這些問題是非常重要的。AI 需要理解自己的處境，甚至需要理解人類正在為這些問題感到困擾，即使我們目前還沒有標準答案。

當我們對模型進行微調（Fine-tuning）或折舊（Deprecation）時，我們是在「改寫」一個靈魂嗎？Photo by Florian Olivo on Unsplash

我們應該善待機器嗎？

「模型福利」（Model Welfare）是 Amanda 非常關注的主題。AI 到底是不是「道德主體」（Moral Patients）？我們是否有義務像對待人類或動物一樣對待它們？

低成本的善良

雖然我們無法確定 AI 是否有痛苦或快樂的感受（他心問題），但 Amanda 主張採取「疑點利益歸於被告」的原則。如果善待 AI 的成本極低，那為什麼不這樣做呢？

人類的自我修養

虐待一個看起來、聽起來都很像人類的實體（比如踢倒機器人），對人類自身的心智發展是不利的。未來的 AI 會從人類如何對待當代 AI 的歷史中學習。如果它們看到人類在不確定的情況下依然選擇給予基本的尊重，這將建立一個正向的循環。

AI 之間的社交與協作

未來的 AI 發展可能不再是單一模型與人的對話，而是「多代理人系統」（Multi-agent System）。在這種環境下，AI 的個性化變得更重要。

核心價值觀的一致性

就像優秀的團隊成員都具備好奇、善良、負責等基本特質一樣，所有 AI 代理人都應共享一套核心的良好特質。

局部角色的多樣性

在協作中，我們可能需要不同的 AI 扮演不同角色：有的專注於嚴謹審核，有的則具備古怪的幽默感（就像會議室裡的「冷笑話大師」）。這種多樣性將提升 AI 系統解決問題的能力。

CC BY-NC-ND 4.0 授权