跳至主要内容

🟢 概述

防止提示注入可能非常困難,而且幾乎沒有強大的防禦措施12。不過,有一些常識解決方案。例如,如果您的應用程式不需要輸出自由格式文本,則不允許此類輸出。有許多不同的方法來捍衛提示。我們將在這裡討論一些最常見的問題。

本章節涵蓋了其他常識性策略,例如過濾單字。它還涵蓋了提示改進策略(指令防禦、後置提示、封裝使用者輸入的不同方式以及 XML 標記)。最後,我們討論使用 LLM 來評估輸出和一些更多模型特定的方法。


  1. Crothers, E., Japkowicz, N., & Viktor, H. (2022). Machine Generated Text: A Comprehensive Survey of Threat Models and Detection Methods.
  2. Goodside, R. (2022). GPT-3 Prompt Injection Defenses. https://twitter.com/goodside/status/1578278974526222336?s=20&t=3UMZB7ntYhwAk3QLpKMAbw