Annex 22: Neue Leitlinien für Künstliche Intelligenz im GMP-Umfeld
Die pharmazeutische Industrie steht vor einem tiefgreifenden Wandel: Künstliche Intelligenz (KI) und Machine Learning (ML) halten Einzug in immer mehr Prozesse. Ob bei der Qualitätskontrolle, Prozessoptimierung oder Datenauswertung – intelligente Algorithmen bieten enormes Potenzial.
Doch der Einsatz von KI in der Herstellung von Arzneimitteln und Wirkstoffen ist kein Selbstläufer. Besonders dann, wenn diese Systeme direkt die Patientensicherheit, Produktqualität oder Datenintegrität beeinflussen, gelten strenge regulatorische Anforderungen.
Hier setzt Annex 22 an: Ein neuer Teil der EU-GMP-Richtlinien (Good Manufacturing Practice), der erstmals präzise Vorgaben macht, wie KI-Modelle entwickelt, getestet, dokumentiert und betrieben werden müssen.
Im Folgenden erläutern wir die Hintergründe, den Aufbau der Leitlinie und geben eine praxisnahe Übersicht der Anforderungen (Hinweis: Das ist eine Draftversion aktuell, d.h. bis zur Veröffentlichung können sich noch die Anforderungen ändern.
Hintergrund: Warum ein eigener Annex?
Bisher regelte Annex 11 die Nutzung computergestützter Systeme in der GMP-Umgebung. Annex 11 deckt jedoch nicht die spezifischen Herausforderungen ab, die sich aus maschinellem Lernen ergeben – insbesondere Fragen wie:
- Wie kann ich sicherstellen, dass ein Modell „generalisiert“ und nicht nur auswendig gelernt hat?
- Wie vermeide ich Datenlecks zwischen Training und Test?
- Wie erkläre ich, warum das Modell eine bestimmte Entscheidung getroffen hat?
- Wie gehe ich mit der stetigen Weiterentwicklung von Modellen um?
Annex 22 ergänzt daher Annex 11 und legt den Fokus speziell auf Machine Learning und KI in kritischen GMP-Anwendungen.
Geltungsbereich: Für welche Systeme gilt Annex 22?
Annex 22 gilt nur für eine klar definierte Kategorie:
✅ Statische, deterministische Modelle, die nach dem Training nicht mehr verändert werden und bei gleichen Eingaben immer gleiche Ergebnisse liefern.
❌ Nicht erlaubt für kritische Anwendungen sind:
- Dynamische Modelle, die während der Nutzung weiterlernen.
- Probabilistische Modelle, die bei identischen Eingaben unterschiedliche Ergebnisse ausgeben.
- Generative KI und große Sprachmodelle (LLMs), etwa Chatbots oder Textgeneratoren.
In nicht-kritischen Anwendungen dürfen solche Modelle eingesetzt werden – allerdings nur mit qualifiziertem Fachpersonal („Human in the Loop“), das die Ergebnisse überprüft.
Grundprinzipien
Annex 22 stellt drei zentrale Prinzipien auf:
- Kooperation aller Beteiligten
Entwickler, Data Scientists, IT, Qualitätssicherung (QA) und Prozessexperten müssen eng zusammenarbeiten. - Umfassende Dokumentation
Alle Schritte von der Modellentwicklung bis zur Betriebsüberwachung sind zu dokumentieren. - Risikobasiertes Vorgehen
Der Umfang der Anforderungen hängt vom Risiko für Patientensicherheit, Produktqualität und Datenintegrität ab.
Prozessschritte und Anforderungen im Überblick
Im Folgenden betrachten wir die wesentlichen Prozessschritte genauer:
1️⃣ Intended Use – Verwendungszweck definieren
- Was tut das Modell?
- Welche Daten nutzt es?
- Wo liegen mögliche Fehlerquellen, Verzerrungen oder Limitationen?
Bevor das Modell akzeptiert wird, muss ein detaillierter Verwendungszweck dokumentiert und von einem Prozessexperten genehmigt werden.
2️⃣ Akzeptanzkriterien festlegen
Es müssen Leistungsmetriken definiert werden, um die Güte des Modells objektiv messen zu können. Beispiele:
- Accuracy – Wie oft trifft das Modell die richtige Entscheidung?
- Sensitivity – Wie zuverlässig erkennt es positive Fälle?
- Specificity – Wie gut erkennt es negative Fälle?
- Precision / F1-Score
Wichtig:
- Das Modell darf nicht schlechter abschneiden als der bestehende Prozess.
- Für definierte Untergruppen können eigene Kriterien gelten.
3️⃣ Testdaten vorbereiten
Testdaten müssen:
- repräsentativ und ausreichend groß sein,
- alle relevanten Szenarien (inkl. seltener Abweichungen) abdecken,
- korrekt gelabelt und unabhängig vom Training sein.
Die Nutzung generierter Daten (z.B. von generativer KI) ist nur in Ausnahmefällen und mit Begründung zulässig.
4️⃣ Sicherstellen der Datenunabhängigkeit
Strikte Regeln garantieren, dass Testdaten nicht versehentlich beim Training verwendet werden:
- Trennung der Datensätze vor dem Training („data split“),
- Zugriffskontrollen,
- Protokollierung aller Änderungen.
5️⃣ Testdurchführung
Vor dem Test:
- Ein Testplan mit allen Details (Verwendungszweck, Metriken, Akzeptanzkriterien, Testscript) ist zu erstellen.
Während des Tests:
- Alle Ergebnisse dokumentieren,
- Abweichungen untersuchen und begründen,
- Nachweise zur Generalisierungsfähigkeit führen (kein Overfitting).
6️⃣ Explainability – Erklärbarkeit der Ergebnisse
Damit ein Modell vertrauenswürdig ist, muss nachvollziehbar sein, welche Merkmale zu einer Entscheidung beigetragen haben.
Empfohlene Verfahren:
- SHAP (Shapley Additive Explanations)
- LIME (Local Interpretable Model-Agnostic Explanations)
- Visualisierungen wie Heatmaps
7️⃣ Confidence – Vertrauensbewertung
- Für jede Vorhersage ist der Konfidenzscore zu protokollieren.
- Bei niedrigen Scores sollte das Modell Ergebnisse als „unsicher“ markieren.
8️⃣ Betrieb & Überwachung
Betriebsphase Anforderungen:
- Change Control: Jede Änderung am Modell, am Prozess oder den Eingangsdaten prüfen und ggf. retesten.
- Configuration Control: Schutz vor unautorisierten Änderungen.
- Leistungsüberwachung: Kontinuierliche Beobachtung der Modellgüte.
- Input Monitoring: Sicherstellen, dass neue Daten innerhalb der bekannten Datenräume liegen.
- Human-in-the-loop: Prozesse dokumentieren, wenn Menschen Entscheidungen überprüfen.
Glossar: Die wichtigsten Begriffe einfach erklärt
Begriff | Definition |
Artificial Intelligence (AI) | Maschinenbasierte Systeme, die auf Basis von Daten Vorhersagen oder Entscheidungen treffen. |
Machine Learning (ML) | Teilgebiet der KI: Algorithmen lernen aus Daten, statt durch Regeln programmiert zu werden. |
Deep Learning | Spezielle ML-Methode: Neuronale Netze mit vielen Schichten lernen komplexe Muster. |
Statisches Modell | Modell, dessen Parameter nach dem Training fixiert sind. |
Dynamisches Modell | Modell, das sich während der Nutzung weiterentwickelt. |
Deterministisches Modell | Liefert bei gleichen Eingaben immer gleiche Ergebnisse. |
Probabilistisches Modell | Liefert bei gleichen Eingaben unterschiedliche Ergebnisse. |
Generative KI / LLM | KI-Systeme, die eigenständig Inhalte (z.B. Texte) erzeugen, wie GPT-Modelle. |
Overfitting | Modell lernt Details aus Trainingsdaten, die nicht auf neue Daten übertragbar sind. |
Explainability | Nachvollziehbarkeit, warum ein Modell eine Entscheidung trifft. |
SHAP | Methode zur Erklärbarkeit, die den Beitrag einzelner Eingaben quantifiziert. |
LIME | Methode, die komplexe Modelle lokal durch einfachere Modelle approximiert. |
Accuracy | Anteil der korrekten Vorhersagen insgesamt. |
Sensitivity | Anteil korrekt erkannter positiver Fälle. |
Specificity | Anteil korrekt erkannter negativer Fälle. |
Fazit
Annex 22 markiert einen Meilenstein: Erstmals gibt es europaweit detaillierte Leitlinien, wie KI in der Arzneimittelproduktion sicher und regelkonform eingesetzt werden kann.
Unternehmen, die KI nutzen möchten, sollten:
- Prozesse definieren und dokumentieren,
- Modellgüte objektiv messen,
- Erklärbarkeit gewährleisten,
- Betriebskontrollen etablieren.
So kann KI ihr Potenzial entfalten – ohne Kompromisse bei Sicherheit und Qualität.