此为历史版本和 IPFS 入口查阅区,回到作品页
鋼哥
IPFS 指纹 这是什么

作品指纹

📝📝:人類負責決策,AI 負責執行|你對問題理解多深,將會決定 AI 能為你處理得多好

鋼哥
·
·
一位真正懂得自己所處理問題的人,無論是會計師、律師、教師或是研究者,如今可能有能力完成過去需要專業工程師才能做到的技術工作。

2026 年 6 月 16 日,Anthropic 發布了一份題為〈Agentic coding and persistent returns to expertise〉的研究報告,針對 2025 年 10 月至 2026 年 4 月,約二十三萬五千名使用者所留下的四十萬筆 Claude Code 互動紀錄,進行了隱私保護式的分析。

這份報告試圖回答一個對知識工作者而言極為迫切的問題:

當 AI 已經能夠自主完成原本需要數小時人力的程式撰寫工作時,究竟是「會寫程式的人」更有優勢,還是「懂得自己在做什麼的人」更有優勢?

報告給出的答案,某種程度上重新定義了我們對「專業」這個詞的理解。


人類決定方向,AI 決定路徑

報告首先描繪出一個清晰的勞動分工圖像。

研究團隊建立了一套分類機制,將每一次互動中的決策拆分為兩類:

  • 規劃決策(要做什麼、用什麼方法、什麼叫做完成)

  • 執行決策(改哪些檔案、寫什麼程式碼、用哪種語言、跑什麼指令)

接者,再分別歸因給使用者或 AI。結果顯示,在典型的工作階段中,使用者掌握了大約七成的規劃決策,而 AI 則掌握了將近八成的執行決策。

但即便 AI 的自主能力持續攀升,前沿模型如今已能自主完成原本需要人類耗費數小時的軟體任務,人類在「定義問題」這個環節上仍然牢牢掌握主導權。換句話說,目前我們觀察到的並非「人類被取代」,而是一種新型態的協作結構:

人決定終點與標準
機器負責摸索路徑

報告進一步發現,使用者交出多少控制權,會直接影響 AI 每一輪互動所採取的行動量。

當使用者牢牢掌控執行細節(超過 80% 執行決策由人主導)時,AI 平均每輪只會採取約八個動作;但當 AI 取得規劃主導權(超過 80% 規劃決策由 AI 主導)時,每輪動作數會攀升到約十六個。人類放手的程度,某種意義上就是信任的量化指標。


專業程度才是關鍵變項

報告中最具理論意義的部分,是對「專業程度」(expertise)的操作化定義。報告中以專業程度詳細區隔出五種不同的使用者:

報告中以專業程度詳細區隔出五種不同的使用者。來源:本報告

1(新手)→2(初學者)

新手連基本術語都沒有(can you analyze this data),初學者開始會問「what is bigquery」(BigQuery 是 Google Cloud 推出的無伺服器、企業級雲端資料倉儲,專為 PB 級巨量資料分析設計)。

這仍然是在問定義,沒有在這個定義做判斷。換句話說,這個階段的使用者知道有這個詞存在,但還沒有能力用這個詞來框架問題。

2→3(中級)

中級使用者開始會問:

「為什麼要分開抓取每個區塊」

「這樣做會不會影響快取」

可以發現中級使用者這會討論到設計選擇,而不只是執行步驟。但表格特別註明,中級「不深入方法論或取捨」(does not engage deeply on methodology or tradeoffs),意思是他們確實問對問題了,但問題的層次還停留在單點(局部)優化。

3→4(進階)

範例裡提到一句:

「it looks like the parsing fix didn’t work — line count of the file is still 742」

(看起來解析修復並沒有奏效,文件的行數仍然是 742。)

這是使用者自己驗證,不是要求 Claude 去驗證,並且附上了具體的指令(wc -l)作為證據。這代表進階的使用者已經內化了「如何獨立檢驗結果」這個能力,不再依賴 AI 的自我報告。

4→5(專家)

專家跟上述幾類的使用者最不一樣的區隔,在於「糾錯方向完全反轉,且討論進入了未言明的隱性知識領域」。

報告中提供第 108 個 prompt 那段關於 retry 機制、managed/unmanaged slots、原始 bug 的歷史脈絡,這已經不是「解決眼前的技術問題」,而是在調用整個系統的歷史記憶與設計哲學。這種否定式的、排除法的判斷力,通常很難被言說,卻在這裡因為要對 AI 下指令,而被迫顯性化了。

研究團隊特別強調,專業程度與職業頭銜或一般能力是兩件不同的事。Photo by John on Unsplash

研究團隊特別強調,專業程度與職業頭銜或一般能力是兩件不同的事,而且針對特定任務的所需知識。報告中舉例:

一位資深工程師第一次接觸 Rust 語言時,他在 Rust 這項任務上只能算是個初學者;反之,一位就算從未寫過 Python 的會計師,如果能精確告訴 AI 該執行哪些調節規則,並抓出 AI 在月底結帳時處理錯誤的邊界案例,那麼他在這項任務上就是專家。

分類器依據三項訊號評估使用者的專業程度:

  • 指令的精確程度

  • 要求驗證的方式

  • 使用者糾正 AI 或被 AI 糾正的頻率

透過這套五級量表(從新手到專家),報告發現一個極具規律性的現象:

使用者的專業程度越高,AI 在每一次指令後所完成的工作量也越大。

新手階段平均每個指令觸發約五個動作、六百字輸出;到了專家階段,則躍升為十二個動作、三千兩百字輸出。產出量近乎五倍之差,這個落差出現在每一種工作模式、每一個任務價值區間中,顯示這不是少數案例的偶然,而是一種結構性現象。

報告中也提及,專家操作的指令越詳細 claude 的成功率也越高。來源:本報告

這也是整份報告的核心論點:

AI 工具放大的不是「會寫程式」這項技能,實際上是「對問題領域的掌握程度」。

一個人對自己所處理的問題理解得越深,就越能夠精確地把判斷力注入到與 AI 的互動之中,讓 AI 去完成更大量、更複雜的執行工作


職業的影響比想像中小

報告另一項引人深思的發現,是「職業」這個變項的解釋力相對有限。

針對產出程式碼的互動中,軟體工程相關職業的驗證成功率為 34%,而其他職業平均為 29%;差距僅五個百分點,且這個差距在七個月間既未擴大也未縮小。數據中最大的十個職業類別裡,每一個職業的成功率都落在軟體工程師七個百分點之內。

最值得注意的是,管理職類在驗證成功率上甚至略高於軟體工程職類。報告謹慎地提出兩種可能解釋:

  • 一是管理技能(拆解任務、明確指派)本身就能轉移到與 AI 協作的場景;

  • 二則可能是測量上的偏誤 — — 管理者或許更習慣在對話中明確表態「這就是我要的」,因而更容易被分類器判定為「有驗證證據」。

但無論如何,這個現象都呼應了報告的核心論點:比起程式設計的能力,「如何清楚定義問題、如何驗證結果」反而更重要。




知識工作者的未來

報告作者在結論中提出一個值得深思的框架:

AI 取代的,似乎正是程式語言本身的語法知識與實作細節;AI 放大的,則是對問題領域的理解力、判斷力,以及把模糊目標轉化為精確要求的能力。

這意味著,一位真正懂得自己所處理問題的人,無論是會計師、律師、教師或是研究者,如今可能有能力完成過去需要專業工程師才能做到的技術工作。而一個完全不具備領域知識的人,即便擁有同樣的工具,得到的成果也會大打折扣。

claude 花在「修錯」上的時間比例正在下降,代表 AI 本身在「一次做對」這件事上,正在進步。來源:本報告

報告也提醒,這些發現仍屬初步階段:他們無法觀測互動結束後,程式碼是否真正被採用、是否創造了實際的經濟價值;報告也排除了大量「無頭模式」(headless)與程式化呼叫的使用情境,這部分可能是未來研究的重點。

報告作者特別點出兩個值得持續追蹤的訊號:

如果未來「專業程度帶來的成功率落差」開始縮小,代表模型本身開始具備使用者目前仍需自行提供的判斷力,AI 帶來的紅利將擴散到更廣泛的群體;如果非軟體職業在程式任務上的成功率持續上升,則可能意味著「寫程式」這件事本身,正逐漸從一種專屬職業,變成各行各業日常工作的一部分。

對於身處知識生產與媒體工作現場的人而言,這份報告提供的或許不是答案,而是一個更精確的提問方式:

當工具的門檻持續降低,真正稀缺、真正值得投資的能力究竟是什麼?

根據這份報告呈現的證據,答案似乎正逐漸從「你會不會做」,轉向「你懂不懂你正在做的事」。



CC BY-NC-ND 4.0 授权