Datenschutz bei generativen KI-Systemen mit RAG-Methode
Datenschutz bei generativen KI-Systemen mit RAG-Methode
Ende 2025 veröffentlichte die Datenschutzkonferenz (DSK), d. h. die Konferenz der Datenschutzaufsichtsbehörden des Bundes und der Bundesländer, eine Orientierungshilfe zu den datenschutzrechtlichen Besonderheiten von KI-Systemen mit Retrieval Augmented Generation (RAG), sogenannten RAG-Systemen. Die Orientierungshilfe untersucht die Umsetzbarkeit der Grundsätze der Datenschutz-Grundverordnung (DSGVO) bei solchen KI-Systemen und zeigt auf, in welchen Punkten derartige Systeme eine datenschutzrechtliche Verbesserung darstellen könnten und in welchen Punkten sie gegebenenfalls sogar ein weiteres rechtliches Risiko bergen.
Was sind RAG-Systeme?
Unternehmen setzen zunehmend KI-Systeme ein, um ihre Abläufe zu optimieren. Dabei müssen unter Umständen interne Wissensquellen herangezogen werden, etwa wenn es gewünscht ist, dass ein KI-Chatbot die internen Richtlinien oder die Antworten auf vergangene Kundensupportanfragen berücksichtigen soll.
Um ein Large Language Model (LLM) für einen bestimmten Anwendungskontext zu optimieren, gibt es mehrere Ansätze. Zum einen kann das sogenannte Fine-Tuning des Sprachmodells genutzt werden, bei dem das LLM selbst modifiziert wird. Ein anderer Weg ist die Anwendung der RAG-Methode. Bei der RAG-Methode wird – vereinfacht gesagt – ein LLM mit einer Datenbasis kombiniert, um Informationen, die (lediglich) dem Verantwortlichen zur Verfügung stehen und nicht Teil des Trainingsdatensets des LLM waren, über ein KI-System zugänglich und nutzbar zu machen.
Dies geschieht wie folgt: Der eingegebene Prompt wird durch das RAG-Subsystem um Texte aus Referenzdokumenten angereichert und zusammen mit diesen an das LLM geschickt. Das LLM bezieht diese relevanten Informationen bei der Generierung der Antwort ein und stellt sie in den Fokus der zu generierenden Antwort.
Die eigentliche Wissensbasis (die Referenzdokumente) bleibt damit außerhalb des Modells bestehen und kann gezielt gepflegt, aktualisiert oder gelöscht werden.
Datenschutzrechtliche Chancen durch RAG
Die RAG-Methode bietet aus datenschutzrechtlicher Sicht einige Vorteile. Hervorzuheben ist insbesondere, dass personenbezogene Daten nicht dauerhaft im Sprachmodell gespeichert werden, sondern in der Vektordatenbank verbleiben. Dadurch können sie leichter aktualisiert oder gelöscht werden, was die Umsetzung von Betroffenenrechten wie Auskunft, Berichtigung und Löschung erleichtert. Auch die Richtigkeit der generierten Ausgaben kann verbessert werden, da das System auf aktuelle und überprüfbare Quellen zurückgreift. Dies hängt jedoch stark von der Qualität, Aktualität und Vollständigkeit der verwendeten Referenzdokumente ab. Darüber hinaus können Halluzinationen des Modells reduziert werden.
Da bei RAG-Systemen (im Gegensatz zu LLMs) technische Maßnahmen wie etwa die Mandantentrennung bzw. funktionale Trennung und das Rechte- und Rollenkonzept angewendet werden können, ist es vorliegend einfacher, dem Grundsatz der Zweckbindung zu genügen. Dies ermöglicht außerdem die Verarbeitung von Daten mit einem höheren Schutzbedarf, wie etwa sensibler personenbezogener Daten, sofern alle Anforderungen der DSGVO erfüllt sind.
Zentrale datenschutzrechtliche Herausforderungen
Trotz dieser Vorteile bleiben zentrale datenschutzrechtliche Probleme bestehen. So hat die RAG-Methode keinen Einfluss auf die Rechtmäßigkeit des Trainings des zugrunde liegenden Sprachmodells. Ein rechtswidrig trainiertes Modell bleibt auch im RAG-System gegebenenfalls problematisch. Die Zweckbindung personenbezogener Daten kann gefährdet sein, wenn Daten aus der Datenbank mit den im Modell enthaltenen Informationen kombiniert werden. Dadurch entstehen neue Verknüpfungen, die nicht mehr dem ursprünglichen Zweck entsprechen.
Die RAG-Methode erhöht zwar die Transparenz, jedoch beschränkt sich dies auf Aussagen über die verwendeten Referenzdokumente. Wie das Sprachmodell intern arbeitet und warum es bestimmte Ausgaben erzeugt, bleibt weiterhin intransparent.
Auch die Umsetzung von Betroffenenrechten ist für Daten, die im KI-Modell selbst gespeichert sind, nach wie vor ungelöst.
Fazit: Einzelfallprüfung bleibt unerlässlich
Insgesamt bietet die RAG-Methode datenschutzrechtliche Chancen, insbesondere bei der Kontrolle und Aktualisierung personenbezogener Daten. Gerade für Unternehmen, die sensible Daten verarbeiten, könnte die RAG-Methode eine echte Chance darstellen. Sie löst jedoch nicht alle Probleme generativer KI, vor allem nicht die Herausforderungen rund um das Training und die Intransparenz von LLMs. Die datenschutzrechtliche Bewertung eines RAG-Systems muss daher stets einzelfallbezogen erfolgen. Die Methode kann als eine von mehreren risikomindernden Maßnahmen betrachtet werden, sie ersetzt jedoch nicht die Notwendigkeit einer fundierten Rechtsgrundlage und einer sorgfältigen technischen sowie organisatorischen Umsetzung.
