Medizinische KI-Applikationen im Lichte des europäischen KI-Verordnungsentwurfs

Philipp Leitner

Die datenschutzrechtliche Dimension bei der Verarbeitung von Gesundheitsdaten ist nicht neu, sondern beschäftigt sowohl Wissenschaft als auch Rechtsprechung bereits seit Jahrzehnten. Besondere Brisanz erhielt die Thematik jedoch insbesondere aufgrund folgender Faktoren:

  • Die verfügbare Datenmenge steigt ständig an. Dies ist einerseits auf eine verstärkte Dokumentation im Bereich des Gesundheitswesens zurückzuführen. Andererseits werden Gesundheitsdaten verstärkt auf alternativem Wege gesammelt, sei es etwa durch die Nutzung verschiedenster Gesundheitsapps in Verbindung mit Sensoren in Smartwatches, andererseits durch Nutzereingaben in sozialen Netzwerken und Suchmaschinen.
  • Die Verarbeitung dieser riesigen Datenmengen ist durch technische Errungenschaften im Bereich der Künstlichen Intelligenz sowie der stetig ansteigenden Leistung von Datenverarbeitungssystemen mittlerweile erheblich einfacher, als dies noch vor wenigen Jahrzehnten der Fall war. Hinzu kommt, dass die Kosten für die Speicherung stetig sinken.
  • Datenschutz ist nicht zuletzt durch das Fortschreiten der weltweiten Vernetzung sowie den Geltungsbeginn der Datenschutzgrundverordnung im Mittelpunkt der Gesellschaft angekommen, wobei das Thema durch regelmäßige mediale Berichterstattung über Vertraulichkeitsverletzungen („data breaches“) befeuert wird.

Die sich daraus ergebenden Fragestellungen füllen mehrere Publikationen mit Leichtigkeit. Als kleinster gemeinsamer Nenner ist jedoch festzuhalten, dass die Verarbeitung dieser Daten einem strengen datenschutzrechtlichen Korsett unterliegen muss, um einerseits die Geheimhaltungsinteressen betroffener Personen wahren zu können, andererseits den Interessen anderer Stakeholder (insbesondere Forschenden) in grundrechtskonformer Weise nachzukommen.

Besondere Fragestellungen ergeben sich dabei beim Einsatz künstlicher Intelligenz innerhalb von Forschungsvorhaben. Im Hinblick darauf, dass es der Wissenschaft nicht gelungen ist, seit Bestehen dieses – immerhin seit den 1940er Jahren – nicht mehr ganz jungen Forschungsfeldes eine einheitliche Definition einer solchen künstlichen Intelligenz zu finden, soll dies auch an dieser Stelle nicht versucht werden. Die Europäische Kommission hat jedenfalls im Februar 2020 ein Weißbuch zur künstlichen Intelligenz veröffentlicht, in welchem sie die Bedeutung der hinter diesem Begriff stehenden Technologien insbesondere auch für Medizinprodukte sowie die Medizin als Ganzes hervorgehoben hat. Eine besondere Rolle spielen dabei auch datenschutzrechtliche Aspekte, zumal insbesondere non-symbolische künstliche Intelligenz (mit besonderem Blick auf neuronale Netze) auf große Datenmengen angewiesen sind, deren Verarbeitung nur in datenschutzkonformer Weise erfolgen kann.

Im April 2021 legte die Europäische Kommission einen Vorschlag für eine KI-Verordnung vor, die weltweit die erste ihrer Art sein soll und medial breit diskutiert wurde. In diesem Verordnungsentwurf werden verschiedene Hochrisiko-KI-Systeme definiert, für die verschärfte Anforderungen zur Geltung gelangen. Als solche Hochrisiko-KI-Systeme gelten insbesondere KI-Systeme in Medizinprodukten iSd Verordnung (EU) 2017/745 sowie KI-Systeme, die „bestimmungsgemäß für die Entsendung oder Priorisierung des Einsatzes von Not- und Rettungsdiensten, einschließlich Feuerwehr und medizinischer Nothilfe, verwendet werden sollen“.

Besonderes Augenmerk ist dabei auf Artikel 10 des Verordnungsentwurfs zu lenken. In diesem ist vorgesehen, dass Hochrisiko-KI-Systeme mit Trainings-, Validierungs- und Testdatensätzen entwickelt werden müssen, die bestimmten Qualitätskriterien zu entsprechen haben. Insbesondere sind geeignete Daten-Governance- und Datenverwaltungsverfahren vorzusehen. Bei diesen Verfahren sind insbesondere zu berücksichtigen:

  • die „einschlägigen konzeptionellen Entscheidungen
  • die Datenerfassung
  • die relevanten Datenverarbeitungsvorgänge. Beispielhaft genannt werden etwa die Kommentierung, die Kennzeichnung, die Bereinigung, die Anreicherung und die Aggregation.
  • die „Aufstellung relevanter Annahmen, insbesondere in Bezug auf die Informationen, die mit den Daten erfasst und dargestellt werden sollen“.
  • eine vorab durchgeführte „Bewertung der Verfügbarkeit, Menge und Eignung der benötigten Datensätze“.
  • Untersuchungen hinsichtlich eines möglichen Bias.
  • die Ermittlung allfälliger Datenlücken oder Mängel in diesen Daten, einschließlich des Verfahrens zur Lückenschließung bzw Mängelbehebung.

Bei näherer Betrachtung sind diese Grundsätze in Ansätzen auch schon in der DSGVO enthalten. So zielt etwa der Grundsatz der Datenrichtigkeit darauf ab, dass personenbezogene Daten „sachlich richtig und erforderlichenfalls auf dem neuesten Stand“ sind. Die Stoßrichtung ist jedoch eine unterschiedliche: Geht es bei der DSGVO um den Schutz personenbezogener Daten und – mit Blick auf den vorgenannten Grundsatz – um die Vermeidung von Nachteilen einer Person aufgrund ihrer eigenen (unrichtigen) Daten, zielt die KI-Verordnung losgelöst von einer einzelnen Person auf die Sicherstellung einer ordnungsgemäßen Funktionsweise des KI-Systems ab.

Für Verarbeitungen besonderer Datenkategorien sowie Daten zu strafrechtlichen Verurteilungen und Straftaten zum Zweck der Beobachtung, Erkennung und Korrektur eines Bias ist mit Art 10 Abs 5 des KI-Verordnungsentwurfs eine eigene datenschutzrechtliche Rechtsgrundlage vorgesehen. Für einfache personenbezogene Daten wird – mangels Berücksichtigung im KI-Verordnungsentwurf – weiterhin das überwiegende berechtigte Interesse des Entwicklers (Art 6 Abs 1 lit f DSGVO) heranzuziehen sein.

Damit geht die KI-Verordnung offenkundig davon aus, dass sämtliche Datensätze, die für die Entwicklung eines solchen Hochrisiko-KI-Systems heranzuziehen sind, hochstrukturiert und „vollkommen“ zu sein haben. Sind sie es nicht, ist durch geeignete Verfahren die erforderliche Datenqualität herzustellen. Dies bedeutet folglich, dass Entwickler derartiger Systeme schon aus Kostenerwägungen eine genaue Analyse möglicher Datenquellen vornehmen müssen: Je unzuverlässiger das Roh-Datenmaterial ist, desto höher ist der Aufwand zur Herstellung der erforderlichen Qualität. Dies schlägt auch auf die Bereitsteller der Daten durch, zumal deren Bestände nur dann berücksichtigt werden, wenn sich der Aufbereitungsaufwand des Entwicklers in Grenzen hält. Datenbanken mit medizinischen Dokumenten (zB KIS), die im Wesentlichen nur aus eingescannten PDF-Dokumenten bestehen, wird damit eine Absage erteilt.

Eine gesamthafte Darstellung der im KI-Verordnungsentwurf vorgesehenen Regelungen würde den Umfang dieses Kurzbeitrages bei Weitem sprengen. Eines ist jedoch festzuhalten: Mit ihrem Inkrafttreten werden die Anforderungen an die Qualität der Daten bei der Entwicklung medizinischer KI-Applikationen sprunghaft ansteigen. Profiteure dieser Entwicklung sind neben der Datenbereitstellerin, die sich in aller Regel von der Bereitstellung einen gewissen „Return“ erwartet, aber auch neben dem Entwickler eines KI-Systems, der durch die Steigerung der Datenqualität auch verbesserte Ergebnisse erwarten kann, vor allem die Angehörigen von Gesundheitsberufen sowie letztlich die Patienten, denen das Ergebnis der Entwicklung zugutekommt.