📝📝：Google 研究揭秘「提示詞重複」的奇效｜複製貼上 Prompt 能大幅提升準確度

1 月 23 日

僅僅是將輸入的提示詞重複一次，就能在幾乎不增加延遲的情況下，大幅提升包括 Gemini、GPT、Claude 和 DeepSeek 在內的多款主流模型的表現。

本文參考自 Google Research 刊登於 arXiv 的最新研究《Prompt Repetition Improves Non-Reasoning LLMs》，研究團隊為：Yaniv Leviathan、Matan Kalman1、Yossi Matias。

今天，開發者與使用者都在尋求如何讓模型表現更精準的方法。

通常，我們會聯想到「思維鏈」（Chain of Thought, CoT）或「分步思考」（Think step by step）等技術，但這些方法往往會增加生成長度，進而導致延遲增加。然而，Google Research 的一項最新研究提出了一個簡單卻極具效率的方案：

提示詞重複（Prompt Repetition）

研究團隊發現，當模型不使用推理功能時，僅僅是將輸入的提示詞重複一次（即將 <QUERY> 轉換為 <QUERY><QUERY>），就能在幾乎不增加延遲的情況下，大幅提升包括 Gemini、GPT、Claude 和 DeepSeek 在內的多款主流模型的表現。

剖析 LLM 的底層邏輯

要理解為什麼重複同樣的話能讓 AI 變得更聰明，必須先回到大型語言模型的基礎架構。

1️⃣因果語言模型的局限性

目前絕大多數的 LLM 都是作為因果語言模型（Causal Language Models）進行訓練的。這意味著，模型在處理序列時具有方向性：過去的標記（Tokens）無法關注（Attend to）未來的標記。

這種架構導致了一個實務上的問題：使用者查詢中標記的順序會直接影響預測效能。例如，在處理多選題時，將背景資料放在問題前（<CONTEXT> <QUESTION>），與將問題放在背景資料前（<QUESTION> <CONTEXT>），模型的表現往往大相徑庭。

2️⃣注意力機制的解套

透過「提示詞重複」，研究人員實質上打破了這種限制。

當輸入從 <QUERY> 變為 <QUERY><QUERY> 時，由於第二個重複部分的每個標記現在都可以回頭「看到」第一個完整查詢中的所有標記，這使得每一個提示詞標記都能與其他所有標記進行注意力交互（Attend to every other prompt token）。填補因果模型在處理單次輸入時可能遺漏的語境關聯。

47 勝 0 敗的絕對優勢

為了驗證這一理論，Google Research 針對 7 款目前市面上最強大的模型進行了測試，涵蓋了不同的參數規模與技術體系：

Google: Gemini 2.0 Flash, Gemini 2.0 Flash Lite
OpenAI: GPT-4o-mini, GPT-4o
Anthropic: Claude 3 Haiku, Claude 3.7 Sonnet
DeepSeek: DeepSeek V3

實驗使用了 7 個基準測試集，包括 ARC（挑戰賽）、OpenBookQA、GSM8K（數學）、MMLU-Pro（多任務理解）、MATH，以及兩個專門設計的客製化任務：NameIndex 和 MiddleMatch。

根據 McNemar 檢驗，在不使用推理的情況下，「提示詞重複」在 70 組「模型-測試集」組合中，贏得了47 勝利，且錄得 0 次失敗（0 losses）。在大多數情況下，重複提示詞要麼大幅提升準確度，要麼維持原樣，絕不會導致表現下降。

模型在處理序列時具有方向性：過去的標記（Tokens）無法關注（Attend to）未來的標記。Photo by Jonathan Kemper on Unsplash

當「重複」遇到「推理」

研究進一步探討了「提示詞重複」與「推理模型」（Reasoning models）或「思維鏈」（Chain of Thought）之間的互動。

與「分步思考」的結合

當啟動「分步思考」（Think step by step）時，「提示詞重複」的效果會變得中性至輕微正向 。在 28 項測試中，贏得 5 次，僅有 1 次失敗，其餘為平手。

這是因為思維鏈本身通常就會在生成的開頭部分「重複」或「重構」使用者的問題，這在某種程度上已經達到了類似「提示詞重複」的效果。

與填充（Padding）的區別

為了證明效能提升來自「重複內容」而非單純的「增加長度」，研究人員測試了「填充（Padding）」方法（即在提示詞後加入大量的句點 “.”）。結果顯示，單純增加無意義的標記並不能改善表現，證實了內容重複帶來的注意力交互才是關鍵。

你該如何使用這個技巧？

對於開發者和日常 AI 使用者來說，這項研究提供了非常實用的部署建議：

非推理任務的選項：

如果你的任務不需要模型進行深度的邏輯推理（例如資料提取、分類、格式轉換），將提示詞重複一遍可能是提升穩定性的最佳手段。

多樣化的重複方式：

Vanilla 重複： 直接 <QUERY><QUERY> 。
Verbose 重複： 加入引導詞，例如「讓我重複一遍：<QUERY>」。
x3 重複： 對於極其複雜的檢索任務，重複三次的效果有時會更好。

CC BY-NC-ND 4.0 授权

已推荐到频道：时事・趋势

喜欢我的作品吗？别忘了给予支持与赞赏，让我知道在创作的路上有你陪伴，一起延续这份热忱！

鋼哥從物理到電機工程再轉到資訊傳播，最後落腳在社會學。衣櫃拿來當書櫃擺的人。我常在媒介生態學、行為經濟學、社會學、心理學、哲學游移；期盼有天無產階級可以推倒資本主義的高牆的兼職家教。

来自作者
相关推荐