📄️ 🟢 介詔
提示駭客攻擊(Prompt hacking)是一個術語,用於描述透過操縱 %%LLMs|LLM%% 的輸入或提示來利用其漏洞的攻擊類型。與通常利用軟體漏洞的傳統駭客攻擊不同,提示駭客攻擊依賴精心設計的提示來欺騙 LLM 執行意想不到的操作。
📄️ 🟢 提示注入
提示注入(Prompt injection)是一種用於劫持語言模型輸出(@branch2022evaluating)(@crothers2022machine)(@goodside2022inject)(@simon2022inject)的技術。
📄️ 🟢 提示洩漏
提示洩漏(Prompt leaking)是一種提示注入的形式,其中模型被要求輸出自己的提示。
📄️ 🟢 越獄
越獄(Jailbreaking)是一種提示注入技術,用於繞過語言模型(LLM)的建立者放置在其上的安全和審查功能(@perez2022jailbreak)(@brundage_2022)(@wang2022jailbreak)。
🗃️ 🟢 防禦措施
9 個項目
🗃️ 🟢 攻擊措施
8 個項目