DecepChain
1 篇文章
人工智能中心
02-27

理解 AI 的「幻術」:DecepChain 與欺騙性推理初探

DecepChain 是一種針對大語言模型思維鏈推理的新型後門攻擊。它誘導模型生成看似合理但最終錯誤的推理,且不留痕跡。該方法利用模型自身的幻覺,透過微調與 GRPO 技術結合翻轉獎勵,使欺騙性推理具有極高隱蔽性。實驗證實人類難以分辨真偽,顯示其嚴重威脅人類對 AI 推理的信任。

刷完啦