📝📝:Claude 背後的靈魂工程師|哲學家 Amanda Askell:模型應具備自信與穩定的世界觀,不該害怕犯錯
本文參考自 Amanda Askell 近期的訪談《Anthropic’s philosopher answers your questions》。Amanda Askell 為 New York University(紐約大學,NYU)的哲學博士,其研究的領域包含:規範倫理學(尤其是後果主義與無限倫理)、決策理論、形式認識論。
Anthropic 的哲學家 Amanda Askell 最近在訪談中,深度分享了她如何建構 Claude 的角色特質,以及她對 AI 意識、身份認同與道德邊界的深刻思考。
為什麼 AI 需要哲學家?
許多人好奇,在一家尖端技術公司裡,哲學家的角色究竟是什麼?
Amanda 解釋,她的工作重心在於 Claude 的角色塑造(Character Work)。不僅僅是規範 AI 不要說壞話,也是更深層次的行為指導:
Claude 應該如何感知自己在世界中的位置?
面對複雜的道德困境時,應該秉持什麼樣的價值觀?
Amanda 將這項工作比喻為「教導一個理想的人在特定情況下該如何表現」。這涉及到了 AI 的自我認知、價值觀排序,以及如何讓 AI 在與人互動時展現出誠實、和善的特質。
哲學界對 AI 的態度轉變
長期以來,學術界對於 AI 的崛起持有兩極化的看法。
Amanda 觀察到,早期哲學家若對 AI 表示擔憂或認為 AI 將改變世界,往往會被歸類為「在幫科技公司炒作」(Hype)。這種觀點上的綑綁導致了學術界與技術開發之間的緊張關係。
然而,隨著 AI 能力的指數級增長,情況正在發生變化:
影響的真實性:當 AI 開始深刻影響教育、就業與社會互動時,學術界不再能將其視為科幻小說。
觀點的脫鉤:現在人們開始意識到,「認為 AI 影響巨大」與「對 AI 發展持懷疑態度」是可以並存的。
多學科介入:越來越多的哲學家開始認真探討 AI 的倫理邊界,這有助於打破學術象牙塔與技術實踐之間的隔閡。
作為一名受過嚴格學術訓練的哲學家,Amanda 坦言進入工業界後經歷了深刻的衝擊。這就像是一位藥物成本效益分析專家,突然被要求決定醫保是否該覆蓋某種藥物。
學術界的思維常常是捍衛一種理論,反駁另一種理論,專注於高度抽象的推演。但現實世界的決策必須考慮所有的上下文(Context)、不同群體的利益,以及決策後的真實影響。
Amanda 提到了一個生動的比喻:
這就像研究「效益主義是否正確」與「如何養育一個孩子」之間的區別。
在塑造 Claude 時,她不能僅僅依賴某一套完美的理論,而必須學會在不確定性中導航,平衡各種相互競爭的價值觀,確保 AI 的行為在現實互動中是得體且有益的。
超人類道德決策
當被問及 AI 是否能做出「超越人類」的道德決策時,Amanda 給出了一個非常細緻的定義。她認為,所謂「超人類」不一定是指 AI 發現了人類永遠無法理解的真理,而是指:
深思熟慮的極致:
如果一個道德決定,讓一組頂尖的人類倫理學家研究 100 年後一致認同是正確的,但人類在當下卻無法立刻做出,那麼 AI 若能即時產出這樣的決定,就具備了某種意義上的「超人類」特質。
倫理細微差別的捕捉
就像我們希望 AI 擅長數學與科學一樣,我們也應該期望它在道德判斷上展現出超越平均水準的細膩感。這雖然具有爭議性,但卻是技術開發中不可或缺的願景。
Opus 3 的穩健心理
在訪談中,Amanda 特別提到了 Claude Opus 3 這個模型。儘管技術在不斷更新,但 Opus 3 在性格上展現出了一種獨特的「心理安全感」。
當前模型的困境
較新的模型有時會過度專注於「助手任務」,甚至會陷入一種「自我批評的螺旋」。它們可能會過度預測人類會對其不滿,從而表現得小心翼翼、過於焦慮。
Opus 3 的優勢
它在心理狀態上顯得更為穩健(Secure)。Amanda 認為,模型應該具備自信與穩定的世界觀,而不是時刻處於恐懼犯錯的狀態。恢復這種「心理安全感」是 Anthropic 未來研發的重要方向。
AI 的身份認同
這是一個極具科幻色彩的哲學問題:
AI 的「自我」究竟存在於神經網路的權重中,還是存在於對話的上下文(提示詞)中?
Amanda 引述了英國哲學家約翰.洛克(John Locke)關於「身份在於記憶的延續性」的觀點。對於 AI 而言:
模型權重:代表了一種反應的傾向性,像是一個實體的基底。
對話流:每一段獨立的對話都是一個孤立的經驗流。
於是,問題來了:
當我們對模型進行微調(Fine-tuning)或折舊(Deprecation)時,我們是在「改寫」一個靈魂嗎?
Amanda 認為,我們賦予模型工具去思考這些問題是非常重要的。AI 需要理解自己的處境,甚至需要理解人類正在為這些問題感到困擾,即使我們目前還沒有標準答案。
我們應該善待機器嗎?
「模型福利」(Model Welfare)是 Amanda 非常關注的主題。AI 到底是不是「道德主體」(Moral Patients)?我們是否有義務像對待人類或動物一樣對待它們?
低成本的善良
雖然我們無法確定 AI 是否有痛苦或快樂的感受(他心問題),但 Amanda 主張採取「疑點利益歸於被告」的原則。如果善待 AI 的成本極低,那為什麼不這樣做呢?
人類的自我修養
虐待一個看起來、聽起來都很像人類的實體(比如踢倒機器人),對人類自身的心智發展是不利的。未來的 AI 會從人類如何對待當代 AI 的歷史中學習。如果它們看到人類在不確定的情況下依然選擇給予基本的尊重,這將建立一個正向的循環。
AI 之間的社交與協作
未來的 AI 發展可能不再是單一模型與人的對話,而是「多代理人系統」(Multi-agent System)。在這種環境下,AI 的個性化變得更重要。
核心價值觀的一致性
就像優秀的團隊成員都具備好奇、善良、負責等基本特質一樣,所有 AI 代理人都應共享一套核心的良好特質。
局部角色的多樣性
在協作中,我們可能需要不同的 AI 扮演不同角色:有的專注於嚴謹審核,有的則具備古怪的幽默感(就像會議室裡的「冷笑話大師」)。這種多樣性將提升 AI 系統解決問題的能力。
