📝📝:Google 研究揭秘「提示詞重複」的奇效|複製貼上 Prompt 能大幅提升準確度

鋼哥
·
·
IPFS
·
僅僅是將輸入的提示詞重複一次,就能在幾乎不增加延遲的情況下,大幅提升包括 Gemini、GPT、Claude 和 DeepSeek 在內的多款主流模型的表現。

本文參考自 Google Research 刊登於 arXiv 的最新研究《Prompt Repetition Improves Non-Reasoning LLMs》,研究團隊為:Yaniv Leviathan、Matan Kalman1、Yossi Matias。


今天,開發者與使用者都在尋求如何讓模型表現更精準的方法。

通常,我們會聯想到「思維鏈」(Chain of Thought, CoT)「分步思考」(Think step by step)等技術,但這些方法往往會增加生成長度,進而導致延遲增加。然而,Google Research 的一項最新研究提出了一個簡單卻極具效率的方案:

提示詞重複(Prompt Repetition)

研究團隊發現,當模型不使用推理功能時,僅僅是將輸入的提示詞重複一次(即將 <QUERY> 轉換為 <QUERY><QUERY>),就能在幾乎不增加延遲的情況下,大幅提升包括 Gemini、GPT、Claude 和 DeepSeek 在內的多款主流模型的表現。


剖析 LLM 的底層邏輯

要理解為什麼重複同樣的話能讓 AI 變得更聰明,必須先回到大型語言模型的基礎架構。


1️⃣因果語言模型的局限性

目前絕大多數的 LLM 都是作為因果語言模型(Causal Language Models)進行訓練的。這意味著,模型在處理序列時具有方向性:過去的標記(Tokens)無法關注(Attend to)未來的標記。

這種架構導致了一個實務上的問題:使用者查詢中標記的順序會直接影響預測效能。例如,在處理多選題時,將背景資料放在問題前(<CONTEXT> <QUESTION>),與將問題放在背景資料前(<QUESTION> <CONTEXT>),模型的表現往往大相徑庭。


2️⃣注意力機制的解套

透過「提示詞重複」,研究人員實質上打破了這種限制。

當輸入從 <QUERY> 變為 <QUERY><QUERY> 時,由於第二個重複部分的每個標記現在都可以回頭「看到」第一個完整查詢中的所有標記,這使得每一個提示詞標記都能與其他所有標記進行注意力交互(Attend to every other prompt token)。填補因果模型在處理單次輸入時可能遺漏的語境關聯。

47 勝 0 敗的絕對優勢

為了驗證這一理論,Google Research 針對 7 款目前市面上最強大的模型進行了測試,涵蓋了不同的參數規模與技術體系 :

  • Google: Gemini 2.0 Flash, Gemini 2.0 Flash Lite

  • OpenAI: GPT-4o-mini, GPT-4o

  • Anthropic: Claude 3 Haiku, Claude 3.7 Sonnet

  • DeepSeek: DeepSeek V3

實驗使用了 7 個基準測試集,包括 ARC(挑戰賽)、OpenBookQA、GSM8K(數學)、MMLU-Pro(多任務理解)、MATH,以及兩個專門設計的客製化任務:NameIndex 和 MiddleMatch。

根據 McNemar 檢驗,在不使用推理的情況下,「提示詞重複」在 70 組「模型-測試集」組合中,贏得了47 勝利,且錄得 0 次失敗(0 losses)。在大多數情況下,重複提示詞要麼大幅提升準確度,要麼維持原樣,絕不會導致表現下降。

模型在處理序列時具有方向性:過去的標記(Tokens)無法關注(Attend to)未來的標記。Photo by Jonathan Kemper on Unsplash

當「重複」遇到「推理」

研究進一步探討了「提示詞重複」與「推理模型」(Reasoning models)或「思維鏈」(Chain of Thought)之間的互動。

與「分步思考」的結合

當啟動「分步思考」(Think step by step)時,「提示詞重複」的效果會變得中性至輕微正向 。在 28 項測試中,贏得 5 次,僅有 1 次失敗,其餘為平手。

這是因為思維鏈本身通常就會在生成的開頭部分「重複」或「重構」使用者的問題,這在某種程度上已經達到了類似「提示詞重複」的效果 。

與填充(Padding)的區別

為了證明效能提升來自「重複內容」而非單純的「增加長度」,研究人員測試了「填充(Padding)」方法(即在提示詞後加入大量的句點 “.”)。結果顯示,單純增加無意義的標記並不能改善表現,證實了內容重複帶來的注意力交互才是關鍵。


你該如何使用這個技巧?

對於開發者和日常 AI 使用者來說,這項研究提供了非常實用的部署建議:

非推理任務的選項:

如果你的任務不需要模型進行深度的邏輯推理(例如資料提取、分類、格式轉換),將提示詞重複一遍可能是提升穩定性的最佳手段。

多樣化的重複方式:

  • Vanilla 重複: 直接 <QUERY><QUERY> 。

  • Verbose 重複: 加入引導詞,例如「讓我重複一遍:<QUERY>」。

  • x3 重複: 對於極其複雜的檢索任務,重複三次的效果有時會更好 。







CC BY-NC-ND 4.0 授权
已推荐到频道:时事・趋势

喜欢我的作品吗?别忘了给予支持与赞赏,让我知道在创作的路上有你陪伴,一起延续这份热忱!

鋼哥從物理到電機工程再轉到資訊傳播,最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、行為經濟學、社會學、心理學、哲學游移;期盼有天無產階級可以推倒資本主義的高牆的兼職家教。
  • 来自作者
  • 相关推荐

📝📝:大一社會學課堂觀察|關於「意義」的集體迷失與逃逸選擇

📝📝:當 GPT-5.2 開始引用 Grokipedia|揭開 AI 資訊洗白與「誘導」危機

📝📝:科技滲入多巴胺的時代|從 Rage Bait 和 Para-social 看見社群生態的退化