VectorMine | shutterstock.com
Das Open Worldwide Application Security Project (OWASP) hat seine Top Ten der kritischsten Schwachstellen bei Large Language Models (LLMs) aktualisiert.
Mit ihrer Top-Ten-Liste (PDF) wollen die OWASP-Security-Experten Unternehmen(sanwender) über die potenziellen Risiken beim Einsatz von großen Sprachmodellen aufklären, Awareness schaffen und mit Abhilfestrategien dabei unterstützen, das Sicherheitsniveau von (Generative-)AI-Anwendungen zu optimieren.
Top 10: LLM-Schwachstellen 2025
Im Folgenden haben wir die aus OWASP-Perspektive zehn kritischsten LLM-Schwachstellen in aller Kürze zusammengefasst. Weiterführende Informationen, Links und detailreiche Angriffsbeispiele entnehmen Sie dem oben verlinkten PDF.
1. Prompt Injection
Mit Prompt-Injection-Angriffen wollen Cyberkriminelle Filterfunktionen umgehen oder das Large Language Model mit sorgfältig ausgearbeiteten Prompts manipulieren. Das kann laut den OWASP-Experten unter anderem dazu führen, dass:
- sensible Informationen offengelegt werden,
- nicht korrekte oder Bias-intensive Outputs generiert werden,
- nicht autorisierter Zugriff auf LLM-Funktionen erfolgt,
- willkürliche Befehle auf verbundenen Systemen ausgeführt werden.
„Multimodalen KI-Systemen, die mehrere Datentypen parallel verarbeiten, sind einzigartige Prompt-Injection-Risiken inhärent“, schreiben die OWASP-Experten und fügen mahnend hinzu: „Die Komplexität dieser Systeme vergrößert die Angriffsfläche. Spezifische Abwehrmaßnahmen für multimodale Systeme zu entwickeln, ist ein wichtiger Bereich für künftige Forschungsbemühungen.“
Um sich gegen Prompt Injections zu schützen, empfiehlt OWASP:
- das Model Behavior einzugrenzen;
- erwartete Output-Formate zu definieren und zu validieren;
- Input- und Output-Filtering zu implementieren;
- Privilege Control und Least Privilege Access durchzusetzen;
- manuelle Bestätigungsprozesse für risikobehaftete Tasks einzusetzen;
- externen Content zu identifizieren und zu separieren;
- Adversarial Testing und Angriffssimulationen zu nutzen.
2. Offenlegung sensibler Informationen
Wenn ein LLM mit seinen Antworten versehentlich sensible Informationen preisgibt, ist die Schadensbandbreite potenziell hoch, wie die OWASP-Experten festhalten: „Besonders LLMs, die in Applikationen eingebettet sind, laufen Gefahr, sensible Daten, proprietäre Algorithmen oder vertrauliche Informationen über ihren Output preiszugeben. Das kann zu nicht autorisiertem Datenzugriff und Datenschutzverstößen führen und gefährdet potenziell geistiges Eigentum.“
Um solchen Kompromittierungen vorzubeugen, empfiehlt OWASP:
- Data-Sanitization-Techniken zu implementieren;
- strikte Methoden zur Validierung von Inputs anzuwenden;
- Access-Control-Maßnahmen zu etablieren;
- den Modellzugriff auf externe Datenquellen zu begrenzen;
- Federated Learning für das Modelltraining einzusetzen;
- den Differential-Privacy-Ansatz umzusetzen;
- Benutzer im Umgang mit LLMs und Daten zu schulen;
- Systemkonfigurationen anzupassen;
- Homomorphic Encryption zu nutzen;
- Tokenization zu implementieren.
3. Supply Chain
Laut den OWASP-Experten sind die Lieferketten von Large Language Models an mehreren Stellen anfällig für Manipulationen: „Das kann in Bias-behafteten Outputs, Security Breaches oder Systemfehlern resultieren. Während bei traditionellen Softwareschwachstellen der Fokus auf Unzulänglichkeiten und Abhängigkeiten innerhalb des Codes liegt, beziehen sich die Risiken von Machine Learning auch auf vortrainierte Modelle und Trainingsdaten von Drittanbietern.“
Diese externen Elemente ließen sich zum Beispiel durch Poisoning-Angriffe manipulieren, warnen die Sicherheitsexperten. Zur Vorbeugung empfehlen sie:
- Datenquellen und Drittanbieter (sowie deren Datenschutzrichtlinien und Partner) im Rahmen von Reviews und Audits genau unter die Lupe zu nehmen;
- Vulnerability Scanning und Patch Management zu fokussieren;
- AI Red Teaming und Evaluierung bei Drittanbieter-Modellen einzusetzen;
- SBOMs zu nutzen;
- Tools für automatisiertes Lizenzmanagement einzusetzen;
- Integritätschecks über Hash Files einzuziehen und Code Signing zu nutzen;
- strikte Monitoring- und Audit-Guidelines bei kollaborativer Modellentwicklung anzuwenden;
- Anomaly Detection und Adversarial Testing einzusetzen.
4. Data und Model Poisoning
Werden Daten für Pretraining, Feintuning oder Embedding manipuliert, um Schwachstellen, Hintertüren oder Bias zu erzeugen, spricht man von Data Poisoning. „Diese Art der Manipulation kann die Modellsicherheit und -Performance kompromittieren und zu schadhaften Outputs oder eingeschränkten Fähigkeiten führen“, erläutern die OWASP-Experten.
Um Angriffe dieser Art zu verhindern, empfehlen sie:
- Daten und mögliche Transformationen mit entsprechenden Tools zu tracken;
- Daten-Vendoren ausgiebig zu überprüfen und Modell-Outputs zu validieren;
- striktes Sandboxing zu implementieren und Techniken zur Anomalieerkennung zu nutzen;
- Modelle mit spezifischen Datensätzen feinabzustimmen;
- Infrastruktur-Kontrollmaßnahmen einzuziehen, um zu verhindern, dass Modelle auf nicht erwünschte Datenquellen zugreifen;
- Data Version Control einzusetzen, um Veränderungen an Datensätzen zu erkennen;
- Informationen von Benutzern in Vektordatenbanken zu speichern, um Anpassungen ohne Retraining vornehmen zu können;
- Modelle mit Red Teaming und Adversarial Testing zu überprüfen;
- den Verlust von Trainingsdaten zu überwachen und das Modellverhalten auf Anhaltspunkte für Poisoning zu analysieren;
- Modellhalluzinationen mit Retrieval Augmented Generation (RAG) und Grounding-Techniken zu reduzieren.
5. Improper Output Handling
„Improper Output Handling bezieht sich darauf, dass die von großen Sprachmodellen generierten Outputs unzureichend validiert, bereinigt und gehandhabt werden, bevor sie an andere Komponenten und Systeme weitergeleitet werden“, erläutert OWASP. Falls Angreifer solche Improper-Output-Handling-Schwachstellen ausnutzten, könne das zu Cross-Site-Scripting– und Server-side Request-Forgery-Angriffen, Privilege Escalation oder Remote Code Execution führen.
Präventive Maßnahmen, um das zu verhindern, sind laut OWASP:
- einen Zero-Trust-Ansatz zu verfolgen und Modelle wie User zu behandeln;
- effektive Maßnahmen einzusetzen, um Inputs zu validieren und zu bereinigen;
- (kontextsensitives) Output Encoding einzusetzen;
- parametrisierte Queries oder vorbereitete Statements für sämtliche Datenbank-Prozesse mit LLM-Beteiligung zu nutzen;
- strikte Content-Security-Richtlinien einzuziehen;
- robuste Logging- und Monitoring-Systeme zu implementieren, um verdächtige Muster in Outputs zu identifizieren.
6. Excessive Agency
Laut den OWASP-Experten beschreibt Excessive Agency eine Schwachstelle, die schadhafte Aktionen auf der Grundlage von unerwarteten, mehrdeutigen oder manipulierten LLM-Outputs ermöglicht – unabhängig davon, was der Grund für die Fehlfunktion ist. „Excessive Agency kann diverse Auswirkungen auf das gesamte Spektrum von Vertraulichkeit, Integrität und Verfügbarkeit nach sich ziehen und hängt im Wesentlichen davon ab, mit welchen Systemen eine LLM-basierte App interagieren kann“, konkretisiert OWASP.
Um diesen Risiken den Wind aus den Segeln zu nehmen, empfehlen die Spezialisten:
- Extensions und ihre Funktionalitäten zu minimieren;
- „Open ended“ Extensions wo möglich zu vermeiden;
- Extensions nur im User-Kontext auszuführen;
- Bestätigungen von Benutzern einzufordern;
- Autorisierung in Downstream-Systemen zu implementieren;
- LLM-Inputs und -Outputs zu bereinigen.
7. System Prompt Leakage
„System-Prompts sind darauf konzipiert, die Outputs von LLMs auf der Grundlage der Applikationsanforderungen zu steuern – können jedoch auch unbeabsichtigt Geheimnisse enthalten. Werden diese entdeckt, können sie für weitere Attacken genutzt werden“, warnt OWASP. Dabei stelle die Offenlegung eines System Prompts an sich nicht das eigentliche Risiko dar, so die Experten. Das liege vielmehr in den zugrundeliegenden Elementen wie den Guardrails und Formatierungsrestriktionen, über die Angreifer Rückschlüsse ziehen könnten, wenn sie mit den System interagierten.
Um offengelegte System-Prompts zu verhindern, sieht OWASP folgende Maßnahemn als hilfreich an:
- sensible Daten von System-Prompts zu trennen;
- System Prompts wenn möglich nicht dazu zu nutzen, um das Modellverhalten zu beeinflussen;
- Guardrails zu implementieren;
- Sicherheitskontrollen nicht an LLMs zu delegieren.
8. Vector- und Embedding-Schwachstellen
Mit Retrieval Augmented Generation (RAG) lassen sich Leistung und Relevanz von LLMs optimieren. Allerdings können solche Systeme auch schwerwiegende Sicherheitslücken aufweisen, wie die OWASP-Spezialisten konstatieren: „Wenn der Prozess, bei dem Vektoren und Embeddings generiert, gespeichert oder angerufen werden, Schwachstellen-behaftet ist, kann das von Bedrohungsakteuren ausgenutzt werden, um anstößige Inhalte zu integrieren, Modell-Outputs zu manipulieren oder auf sensible Informationen zuzugreifen.“
Dagegen hilft laut den Experten:
- granulare Zugriffskontrollmaßnahmen durchzusetzen;
- Daten zu validieren und Quellen zu authentifizieren;
- kombinierte Datensätze einem Review zu unterziehen;
- umfassendes Monitoring und Logging.
9. Desinformation
Wenn große Sprachmodelle Informationen liefern, die zwar auf den ersten Blick glaubwürdig erscheinen, aber falsch sind, ist Desinformation die Folge. Diese Schwachstelle kann laut OWASP unter anderem zu Breaches, Reputationsschäden und rechtlichen Problemen führen.
„Einer der Hauptgründe für Desinformation sind LLM-Halluzinationen“, schreiben die Experten und fügen hinzu: „Sie entstehen, wenn LLMs Lücken in ihren Trainingsdaten mit statistischen Mustern füllen, ohne den Inhalt wirklich zu verstehen.“
Als Abhilfemaßnahmen identifizieren die Security-Experten:
- RAG einzusetzen;
- Modelle feinabzustimmen;
- LLM-Outputs manuell zu überprüfen;
- Tools und Prozesse für automatisierte Validierung einzuführen;
- Risiko-Kommunikation zu betreiben;
- auf sichere Coding-Praktiken zu setzen;
- User Interface und APIs mit Content-Filtern und Labels auszustatten;
- Trainings- und Schulungsmaßnahmen anzuberaumen.
10. Unbounded Consumption
„Unbounded Consumption tritt auf, wenn eine LLM-Anwendung Benutzern eine übermäßige, unkontrollierte Nutzung ermöglicht. Das kann zu DoS-Angriffen, wirtschaftlichen Schäden, Modell-Diebstahl und eingeschränkten Services führen“, erklärt OWASP. Insbesondere in Cloud-Umgebungen seien große Sprachmodelle wegen ihrer hohen Leistungsanforderungen anfällig für Ressourcenausbeutung und nicht-autorisierte Nutzung.
Um diese Risiken zu minimieren, empfehlen die Experten:
- Inputs zu validieren;
- Rate Limiting einzusetzen;
- die Ressourcenzuweisung dynamisch zu überwachen und zu managen;
- Timeouts und Throttling einzusetzen;
- Sandboxing-Techniken zu implementieren;
- umfassende Logging-, Monitoring- und Anomaliedetektions-Aktivitäten einzuplanen;
- Watermarking zu nutzen;
- ein zentralisiertes ML-Modell-Inventar zu nutzen;
- MLOps Deployment zu automatisieren.
Sie wollen weitere interessante Beiträge rund um das Thema IT-Sicherheit lesen? Unser kostenloser Newsletter liefert Ihnen alles, was Sicherheitsentscheider und -experten wissen sollten, direkt in Ihre Inbox.