„Malicious Prompt Injection“ bezieht sich auf eine Technik, bei der Angreifer versuchen, KI-Systeme, insbesondere solche, die auf natürlicher Sprachverarbeitung (Natural Language Processing, NLP) basieren, durch die Eingabe manipulierter Aufforderungen (Prompts) zu täuschen oder zu kompromittieren. Das Ziel ist es, das System dazu zu bringen, unerwünschte oder schädliche Aktionen auszuführen, Informationen preiszugeben, die es nicht preisgeben sollte, oder auf eine Weise zu agieren, die für den Angreifer vorteilhaft ist.
Diese Technik nutzt die Art und Weise, wie KI-Modelle, insbesondere Chatbots oder Sprachassistenten, auf Benutzereingaben reagieren. Durch sorgfältig formulierte Eingabeaufforderungen können Angreifer die internen Mechanismen und Entscheidungsprozesse des Modells ausnutzen, um unerwartete oder nicht autorisierte Antworten zu provozieren. Dies könnte beispielsweise das Umgehen von Sicherheitsmaßnahmen, das Extrahieren sensibler Daten oder das Veranlassen des Systems, Falschinformationen zu verbreiten, umfassen.
Maßnahmen gegen Malicious Prompt Injection umfassen die Entwicklung robusterer Modelle, die besser gegen solche Angriffsvektoren geschützt sind, die Implementierung zusätzlicher Sicherheitsüberprüfungen innerhalb des Antwortprozesses und die Schulung der Modelle, um potenziell schädliche Prompts zu erkennen und angemessen darauf zu reagieren.