此为历史版本和 IPFS 入口查阅区，回到作品页

IPFS 指纹这是什么

📝📝：人類負責決策，AI 負責執行｜你對問題理解多深，將會決定 AI 能為你處理得多好

4 小时前

一位真正懂得自己所處理問題的人，無論是會計師、律師、教師或是研究者，如今可能有能力完成過去需要專業工程師才能做到的技術工作。

2026 年 6 月 16 日，Anthropic 發布了一份題為〈Agentic coding and persistent returns to expertise〉的研究報告，針對 2025 年 10 月至 2026 年 4 月，約二十三萬五千名使用者所留下的四十萬筆 Claude Code 互動紀錄，進行了隱私保護式的分析。

這份報告試圖回答一個對知識工作者而言極為迫切的問題：

當 AI 已經能夠自主完成原本需要數小時人力的程式撰寫工作時，究竟是「會寫程式的人」更有優勢，還是「懂得自己在做什麼的人」更有優勢？

報告給出的答案，某種程度上重新定義了我們對「專業」這個詞的理解。

人類決定方向，AI 決定路徑

報告首先描繪出一個清晰的勞動分工圖像。

研究團隊建立了一套分類機制，將每一次互動中的決策拆分為兩類：

規劃決策（要做什麼、用什麼方法、什麼叫做完成）
執行決策（改哪些檔案、寫什麼程式碼、用哪種語言、跑什麼指令）

接者，再分別歸因給使用者或 AI。結果顯示，在典型的工作階段中，使用者掌握了大約七成的規劃決策，而 AI 則掌握了將近八成的執行決策。

但即便 AI 的自主能力持續攀升，前沿模型如今已能自主完成原本需要人類耗費數小時的軟體任務，人類在「定義問題」這個環節上仍然牢牢掌握主導權。換句話說，目前我們觀察到的並非「人類被取代」，而是一種新型態的協作結構：

人決定終點與標準
機器負責摸索路徑

報告進一步發現，使用者交出多少控制權，會直接影響 AI 每一輪互動所採取的行動量。

當使用者牢牢掌控執行細節（超過 80% 執行決策由人主導）時，AI 平均每輪只會採取約八個動作；但當 AI 取得規劃主導權（超過 80% 規劃決策由 AI 主導）時，每輪動作數會攀升到約十六個。人類放手的程度，某種意義上就是信任的量化指標。

專業程度才是關鍵變項

報告中最具理論意義的部分，是對「專業程度」（expertise）的操作化定義。報告中以專業程度詳細區隔出五種不同的使用者：

1（新手）→2（初學者）

新手連基本術語都沒有（can you analyze this data），初學者開始會問「what is bigquery」（BigQuery 是 Google Cloud 推出的無伺服器、企業級雲端資料倉儲，專為 PB 級巨量資料分析設計）。

這仍然是在問定義，沒有在用這個定義做判斷。換句話說，這個階段的使用者知道有這個詞存在，但還沒有能力用這個詞來框架問題。

2→3（中級）

中級使用者開始會問：

「為什麼要分開抓取每個區塊」
「這樣做會不會影響快取」

可以發現中級使用者這會討論到設計選擇，而不只是執行步驟。但表格特別註明，中級「不深入方法論或取捨」（does not engage deeply on methodology or tradeoffs），意思是他們確實問對問題了，但問題的層次還停留在單點（局部）優化。

3→4（進階）

範例裡提到一句：

「it looks like the parsing fix didn’t work — line count of the file is still 742」
（看起來解析修復並沒有奏效，文件的行數仍然是 742。）

這是使用者自己驗證，不是要求 Claude 去驗證，並且附上了具體的指令（wc -l）作為證據。這代表進階的使用者已經內化了「如何獨立檢驗結果」這個能力，不再依賴 AI 的自我報告。

4→5（專家）

專家跟上述幾類的使用者最不一樣的區隔，在於「糾錯方向完全反轉，且討論進入了未言明的隱性知識領域」。

報告中提供第 108 個 prompt 那段關於 retry 機制、managed/unmanaged slots、原始 bug 的歷史脈絡，這已經不是「解決眼前的技術問題」，而是在調用整個系統的歷史記憶與設計哲學。這種否定式的、排除法的判斷力，通常很難被言說，卻在這裡因為要對 AI 下指令，而被迫顯性化了。

研究團隊特別強調，專業程度與職業頭銜或一般能力是兩件不同的事。Photo by John on Unsplash

研究團隊特別強調，專業程度與職業頭銜或一般能力是兩件不同的事，而且針對特定任務的所需知識。報告中舉例：

一位資深工程師第一次接觸 Rust 語言時，他在 Rust 這項任務上只能算是個初學者；反之，一位就算從未寫過 Python 的會計師，如果能精確告訴 AI 該執行哪些調節規則，並抓出 AI 在月底結帳時處理錯誤的邊界案例，那麼他在這項任務上就是專家。

分類器依據三項訊號評估使用者的專業程度：

指令的精確程度
要求驗證的方式
使用者糾正 AI 或被 AI 糾正的頻率

透過這套五級量表（從新手到專家），報告發現一個極具規律性的現象：

使用者的專業程度越高，AI 在每一次指令後所完成的工作量也越大。

新手階段平均每個指令觸發約五個動作、六百字輸出；到了專家階段，則躍升為十二個動作、三千兩百字輸出。產出量近乎五倍之差，這個落差出現在每一種工作模式、每一個任務價值區間中，顯示這不是少數案例的偶然，而是一種結構性現象。

這也是整份報告的核心論點：

AI 工具放大的不是「會寫程式」這項技能，實際上是「對問題領域的掌握程度」。

一個人對自己所處理的問題理解得越深，就越能夠精確地把判斷力注入到與 AI 的互動之中，讓 AI 去完成更大量、更複雜的執行工作。

職業的影響比想像中小

報告另一項引人深思的發現，是「職業」這個變項的解釋力相對有限。

針對產出程式碼的互動中，軟體工程相關職業的驗證成功率為 34%，而其他職業平均為 29%；差距僅五個百分點，且這個差距在七個月間既未擴大也未縮小。數據中最大的十個職業類別裡，每一個職業的成功率都落在軟體工程師七個百分點之內。

最值得注意的是，管理職類在驗證成功率上甚至略高於軟體工程職類。報告謹慎地提出兩種可能解釋：

一是管理技能（拆解任務、明確指派）本身就能轉移到與 AI 協作的場景；
二則可能是測量上的偏誤 — — 管理者或許更習慣在對話中明確表態「這就是我要的」，因而更容易被分類器判定為「有驗證證據」。

但無論如何，這個現象都呼應了報告的核心論點：比起程式設計的能力，「如何清楚定義問題、如何驗證結果」反而更重要。

知識工作者的未來

報告作者在結論中提出一個值得深思的框架：

AI 取代的，似乎正是程式語言本身的語法知識與實作細節；AI 放大的，則是對問題領域的理解力、判斷力，以及把模糊目標轉化為精確要求的能力。

這意味著，一位真正懂得自己所處理問題的人，無論是會計師、律師、教師或是研究者，如今可能有能力完成過去需要專業工程師才能做到的技術工作。而一個完全不具備領域知識的人，即便擁有同樣的工具，得到的成果也會大打折扣。

claude 花在「修錯」上的時間比例正在下降，代表 AI 本身在「一次做對」這件事上，正在進步。來源：本報告

報告也提醒，這些發現仍屬初步階段：他們無法觀測互動結束後，程式碼是否真正被採用、是否創造了實際的經濟價值；報告也排除了大量「無頭模式」（headless）與程式化呼叫的使用情境，這部分可能是未來研究的重點。

報告作者特別點出兩個值得持續追蹤的訊號：

如果未來「專業程度帶來的成功率落差」開始縮小，代表模型本身開始具備使用者目前仍需自行提供的判斷力，AI 帶來的紅利將擴散到更廣泛的群體；如果非軟體職業在程式任務上的成功率持續上升，則可能意味著「寫程式」這件事本身，正逐漸從一種專屬職業，變成各行各業日常工作的一部分。

對於身處知識生產與媒體工作現場的人而言，這份報告提供的或許不是答案，而是一個更精確的提問方式：

當工具的門檻持續降低，真正稀缺、真正值得投資的能力究竟是什麼？

根據這份報告呈現的證據，答案似乎正逐漸從「你會不會做」，轉向「你懂不懂你正在做的事」。

CC BY-NC-ND 4.0 授权