The Dusseldorfer: Dezember 2012

Watson: breites Gesicht. Bald dethronisierte
Jeopardy-Meister: langes Gesicht.

1997 gewann der IBM-Supercomputer „Deep Blue“ 3,5 von 6 Spielen gegen Gary Kasparov, einen der besten Schachspieler aller Zeiten. 14 Jahre später besiegte ein anderer von IBM konstruierter Computer, „Watson“ [1], in „Jeopardy“ – einem ungleich schwierigeren und trivialeren Spiel – zwei der besten menschlichen Spieler aller Zeiten (siehe links).

(Jeopardy ist das Spiel, bei dem es darum geht, zu einer gegebenen Antwort die richtige Frage zu finden. Zum Beispiel, als mögliche Frage zu „1997“: „In welchem Jahr gewann Deep Blue gegen Gary Kasparov?“. Viele der Fragen und Antworten sind recht obskur, und nicht selten geht es um Personen, die man aus der „Yellow Press“ kennt.)

Dr. med. comp. Watson

Was hat nun Watson, der Jeopardy-Champion, zu tun mit Dr. Watson, dem als Arzt firmierenden Supercomputer (Dr. med. comp.)? Hier die These: Medizin ist ein bisschen so wie Jeopardy (oder, aus algorithmischer Perspektive, sogar relativ verwandt; auch IBM hat dies erkannt und arbeitet gerade daran, Watson diagnostische Fähigkeiten zu verleihen. Oder, anders: Bereiche wie Medizin waren wahrscheinlich die ursprüngliche Motivation für die Entwicklung von Watson, und der Jeopardy-Sieg bringt ein wenig Publicity).

Inwiefern nun ähneln sich Medizin und Jeopardy?

Die moderne Medizin umfasst zwei Teilbereiche: Forschung und Anwendung.

Die medizinische Forschung beschäftigt sich damit, Krankheitsprozesse im menschlichen Körper zu charakterisieren und, wenn möglich, Behandlungsmethoden zu entwickeln und zu testen (und ist damit eine Unter-Disziplin der modernen Biologie oder „Lebenswissenschaften“).

Der Zweck medizinischer Forschung ist es also, Wissen zu generieren – zum Beispiel, welche Symptome verlässliche Indikatoren für welche Krankheit sind, oder welche Medikamente besonders gut oder nebenwirkungsfrei gegen bei bestimmten Krankheiten anwendbar sind. Dieses Wissen ist, der Natur nach, statistisch: der menschliche Körper ist ein komplexes System, das auf externe Eingriffe mit Feedback-Schleifen reagiert. Außerdem werden sowohl Krankheiten (in Verlauf und im Risiko, die Krankheit überhaupt zu bekommen) als auch Reaktion auf Medikamente durch genetische Varianten beeinflusst [2].

Medizinische Forschung als Statistik

Man könnte auch sagen: jeder Mensch ist anders. Dieselbe Krankheit wird in zwei Menschen nicht genau identische Symptome zeigen, und dasselbe Medikament kann in zwei Menschen zu völlig unterschiedlichen Reaktionen führen. Ein Großteil medizinischen Wissens liegt daher eigentlich in folgender Form vor: „Wenn ein Patient Halsschmerzen hat, ist die Wahrscheinlichkeit für eine Mandelentzündung x Prozent“, oder „Wenn ein Patient Halsschmerzen und geschwollene Lymphknoten hat, ist die Wahrscheinlichkeit für eine Mandelentzündung x + y Prozent“. Und dann in der Behandlung: „Wenn ein Patient eine Mandelentzündung hat, verkürzt das Antibiotikum ANTIBAC die Krankheitsdauer im Durchschnitt um x Tage, und das Risiko von Komplikationen sinkt um y Prozent“. Dass diese Art von Wissen Wissen in statistischer Form ist, macht es keinen Deut weniger nützlich [3].

Und damit zum zweiten Teilbereich der Medizin, der Anwendung. Zur Abgrenzung: Viele Wissenschaftler, die medizinische Forschung betreiben, sind keine Mediziner (sondern zum Beispiel Genetiker, oder Pharmakologen, oder Mathematiker). Ein Großteil (wahrscheinlich >99%) der praktizierenden Mediziner hat anderseits mit Forschung nichts zu tun (hält sich aber, idealerweise, über die Entwicklung des medizinischen Wissens auf dem Laufenden).

Der subjektive Arzt

Über diese 99% läuft ein großer Teil der angewandten Medizin. Diese 99% haben einen Großteil des Patientenkontaktes, und verantworten einen Großteil der „verordneten“ („empfohlenen“ wäre aufgeklärter) Behandlungen. Und um diese Situation geht es: einem Menschen geht es nicht gut und er wendet sich mit der Bitte um Hilfe an einen Mediziner. Aufgabe ist es, und ich schreibe dies mit Absicht in aller Allgemeinheit, diese Bitte so gut wie möglich zu erfüllen. Der Mediziner wird nun versuchen, herauszufinden, ob es sich um ein medizinisches Problem handelt, und wenn ja: um welches, und was man dagegen tun kann. Wie? Bei einem Schnupfen kann er wahrscheinlich auf eigene Erfahrungen zurückgreifen und dem Patienten empfehlen, sich ins Bett zu legen und zu warten. Sobald es aber etwas komplizierter wird, muss er auf das medizinische Forschungswissen zurückgreifen; aus einer Reihe von Gründen taugt sein eigenes Erfahrungswissen nicht mehr als solide Basis für medizinische Beratung.

Ich will damit sagen, dass Aussagen wie „Ich behandele Patienten seit 40 Jahren mit diesem Medikament und habe noch nie schlechte Erfahrungen damit gemacht.“ problematisch sind; und einen misstrauisch machen sollten, wenn man selbst derjenige ist, der um Hilfe ersucht.

Die Gründe dafür verdienen nähere Betrachtung.

Erstens, es ist wohlbekannt, dass Behandlungserfolg nicht nur damit zusammenhängt, was ein Arzt tut, sondern vor allem auch mit ihm (oder ihr) selbst. Oder, anders gesagt: wie wohl man sich mit dem Arzt fühlt, ob man ihn als kompetent einschätzt und sich damit als gut aufgehoben, ob man den Arzt gut leiden mag oder nicht. Diese Faktoren beeinflussen die eigene Erwartungshaltung bezüglich der eigenen Genesung. Man kann diese Effekte unter „Placebo-Effekt“ zusammenfassen (und das ist keine Pseudo-Wissenschaft, sondern empirisch klar belegt, siehe zum Beispiel hier; in der Schmerztherapie beginnt man die neuronalen Grundlagen dieses Effekts zu verstehen und wie diese dazu führen, dass man mehr oder weniger Schmerz empfindet).

Kurz gesagt, ein Arzt, der es versteht, mit seinen Patienten gut umzugehen, entfaltet positive Wirkung, auch wenn er wirkungslose Medikamente verschreibt. Das heißt, dass eine Aussage wie „Ich behandele Patienten seit 40 Jahren mit diesem Medikament und habe noch nie schlechte Erfahrungen damit gemacht“ absolut wahr sein kann, ohne irgendetwas mit positiven Effekten des Medikamentes an sich zu tun zu haben.
Zweitens, Ärzte haben nicht die Mittel, die Wirkung einer Behandlung umfassend zu erfassen. Solange niemand stirbt und es keine massiven Nebenwirkungen gibt, bleibt ein Großteil der Nebenwirkungen wahrscheinlich unerkannt: einem Patienten mit Nebenwirkungen muss es so schlecht gehen, dass er oder sie sich entscheidet, deshalb noch einmal zum Arzt zu gehen (diesen Effekt gibt es für Wirkungslosigkeit; damit der Arzt davon erfährt, muss das Patient sich weiterhin schlecht fühlen, d.h. die Krankheit darf nicht von allein verschwinden). Besonders problematisch sind Nebenwirkungen, die mit Zeitverzögerung oder erst nach langfristiger Einnahme auftreten.

Das bedeutet, dass eine Aussage wie „Ich behandele Patienten seit 40 Jahren mit diesem Medikament und habe noch nie schlechte Erfahrungen damit gemacht“ nicht mehr bedeutet als: ich habe noch nie erlebt, dass es wirklich schief gegangen wäre.
Drittens, selbst wenn ein Arzt Erfolge objektiv untersuchen und auswerten könnte: die Gesamtzahl der Patienten eines einzelnen Arztes ist zu klein, um verallgemeinerbare Aussagen zu treffen (eine seltene Nebenwirkung kann zum Beispiel in einem von 1000 Patienten auftreten; ein einzelner Arzt kann durchaus 999 Patienten mit positivem Ergebnis behandeln und dann beim 1000. eine lebensgefährliche Komplikation beobachten).
Viertens, Ärzte sind (wie alle Menschen) nicht objektiv. Es ist wohlbekannt, dass Menschen dazu neigen, Erfolge den eigenen Handlungen zuzuschreiben und Misserfolge dem Zufall oder ungünstigen Umständen („wohlbekannt“ nicht nur aus Lebenserfahrung, sondern empirisch quantifiziert; siehe zum Beispiel das aktuelle Buch von Daniel Kahnemann). Jeder Arzt wird unterbewusst dazu neigen, die eigenen Erfolge zu glorifizieren; das Phänomen der „kognitiven Dissonanz“ dagegen führt dazu, Misserfolge auszublenden. Eine Aussage wie „Ich behandele Patienten seit 40 Jahren mit diesem Medikament und habe noch nie schlechte Erfahrungen damit gemacht.“ ist mit einiger Wahrscheinlichkeit eine Übertreibung.

Richtig durchgeführte medizinische Studien hingegen eliminieren viele dieser Effekte: durch große Teilnehmerzahlen (sowohl Ärzte als auch Patienten) nivellieren sich Unterschiede in der (emotionalen) Wirkung einzelner Ärzte und der Wirksamkeit der Behandlung auf verschiedene Personen (oder, idealerweise: die Studie deckt einige dieser Unterschiede auf und erklärt sie, indem sie sie z.B. auf genetische Faktoren zurückführt). Die Auswertung der Studien ist unparteiisch und statistisch einwandfrei. Durch Doppelblind-Design wird der Placebo-Effekt minimiert. Externe und regelmäßige Überprüfung von Wohlbefinden, Genesung und anderen Parametern führt zu einer verlässlicheren Bewertung von Risiken und Wirksamkeit. Durch Langzeit-Beobachtung zeigen sich sowohl Langzeit-Wirkungen und –Nebenwirkungen. [5]

Die optimale Behandlung und Dr. Watson, der Facharzt für Statistik

Aus diesen Gründen behaupte ich, dass die bestmögliche Behandlung notwendigerweise auf einer umfassenden und richtigen Anwendung des gegenwärtigen Forschungsstandes in Diagnose und Therapie beruht (das heißt: basierend auf guten Studien mit vielen Teilnehmern und Medizinern, die deren Implikationen verstehen. Buzzword für das eigentlich Selbstverständliche: „evidenzbasierte Medizin“).

Dies gilt selbst für „emotional effektive“ Mediziner (haben starken positiven Einfluss auf Patienten) mit brillanter „Intuition“ („erkennen einen Rheumakranken auf 20 Meter Entfernung“): Wissen ist kein Hindernis, sondern notwendige Basis für „Intuition“ („Intuition“ wächst durch regelmäßige Anwendung von Wissen). Und die emotional positiven (oder negativen) Effekte bekommt der Patient in jedem Fall, da ausgehend vom Arzt, und nicht der Art der gewählten Behandlung. [6]

Wie oben dargelegt, ist medizinisches Wissen der Natur nach Statistik. Eine richtige Anwendung dieses Wissens bedient sich daher der Methoden der Statistik, um Diagnosen und Behandlungen miteinander zu vergleichen.

Als illustratives (die Zahlen stimmen nicht) Beispiel: 50% aller Patienten mit Halsschmerzen haben entweder eine Reizung ohne Infektion oder eine bakterielle Infektion. Ein spezieller Test kann die bakterielle Infektion mit 100% Genauigkeit abklären. ANTIBAC ist ein Antibiotikum, das in 30% der Fälle die Krankheitsdauer massiv verkürzt, in 30% die Krankheitsdauer moderat verkürzt, und in 40% der Fälle keinen Effekt hat. ANTIBAC hat in 60% der Fälle unangenehme Nebenwirkungen auf die Darmflora.

Was bedeutet es also, wenn ein Patient mit Halsschmerzen zum Arzt kommt? In 50% der Fälle ist es am besten, überhaupt nichts zu tun, weil es keine Infektion ist. In 50% der anderen Fälle ist es eine Infektion, aber nur in 50% x 30% = 15% verkürzen wir die Krankheitsdauer durch Gabe von ANTIBAC massiv. Nebenwirkungen sind aber in 60% der Fälle zu erwarten.

Ein statistisches System würde nun wahrscheinlich empfehlen, den Test zur Abklärung einer Infektion durchzuführen, oder einfach zu warten (relevante Parameter hier wären, wie schmerzhaft die Infektion im Moment schon ist, als wie unangenehm der Patient die Nebenwirkungen empfinden würde, und wie teuer der Test ist).

„Umfassende und richtige“ Anwendung des aktuellen Forschungsstandes heißt idealerweise: diese Überlegungen für alle relevanten Krankheitsbilder anzustellen, und dementsprechend zu handeln.

Watson ermittelt Wahrscheinlichkeitsverteilung
für mögliche Antworten

An diesem Punkt betritt Dr. Watson, der Supercomputer-Arzt das Spielfeld. In gewisser Weise ist das Jeopardy-Modell verwandt mit dem hier beschriebenen: gegeben einige Informationen, zum Beispiel eine Jahreszahl oder einen Laborwert, gilt es, die richtige Frage oder die richtige Diagnose zu ermitteln (im medizinischen Kontext kann ein System auch vorschlagen, weitere Informationen, zum Beispiel durch weitere Tests, einzuholen).

Dass Supercomputer gut im Berechnen von Statistiken sind, dürfte wenig überraschen. Die Komplikation hier liegt im Detail: die Auswertung von allen relevanten medizinischen Studien und die Überführung der darin enthaltenen Daten in ein Format, mit dem ein Computer etwas anfangen kann (idealerweise explizite Wahrscheinlichkeitswerte, wie oben beschrieben).

Das manuell durchzuführen, ist kaum möglich; zu groß die zu verarbeitende Datenmenge. Ebenso wie bei Jeopardy, für das exzessives Zeitungslesen wohl die beste Vorbereitung ist. IBM hat es anscheinend geschafft, Watson mit einem Algorithmus für selbstlernende Auswertung von unstrukturierten Informationen zu versehen. Anders gesagt: der Algorithmus verarbeitet digitale Zeitungsartikel und extrahiert daraus die Informationen, die er benötigt, um in Jeopardy zu gewinnen. Im Moment wird Watson mit medizinischen Fachartikeln gefüttert (ich vereinfach das hier etwas; zum einen, weil die zugrundeliegenden statistischen Ideen recht kompliziert sind; und zum anderen, weil Watson nicht Open Source ist, d.h. die genaue Funktionsweise von Watson wurde bisher nicht offengelegt. Mehr Informationen zu Watson im Link unter [1]).

Dr. med. comp. gegen Dr. med. sapiens

Wenn Supercomputer potentiell gut darin sind, große Datenmengen zu medizinischen Informationen aufzunehmen und zu verarbeiten, wie gut ist der durchschnittliche Mediziner darin? Diese Frage gilt auch für Mediziner, die sich der Begrenztheit ihrer eigenen (subjektiven) Erfahrungen bewusst sind. Diese Mediziner müssen immerhin den aktuellen Forschungsstand verfolgen und richtig interpretieren.

Obwohl Statistik ein zentraler Teilbereich moderner Medizin ist (und medizinisches Wissen häufig nur in statistischer Form korrekt formuliert werden kann), haben Mediziner erstaunliche Schwierigkeiten mit der Interpretation dieses Wissens. Ein HIV-Test ist positiv: bedeutet dass, dass ich wirklich HIV habe? Viele Mediziner tun sich schwer mit der Beantwortung dieser Frage (die Antwort, je nach Test, ist: nein, das müssen wir jetzt im Detail untersuchen). Einige informative (und: erstaunliche) Beispiele hat SPIEGEL Online gesammelt.

Und wenn die liebe Medizinerschaft sich schon bei verhältnismäßig verbreiteten (und einfach zu verstehenden!) Diagnosemöglichkeiten wie HIV-Tests schwer tut: wie steht es dann um das Verständnis von wirklich komplexen Krankheitsbildern Therapien?

Dieses Problem wird verschärft durch mangelhafte Studien und sich widersprechende Meinungen. Kurz gesagt, viele medizinische Studien weisen Mängel auf (so wie Studien in allen anderen Bereichen auch); und um eine Studie zu beurteilen, muss man in der Regel sowohl das Thema als auch die statistische Methodik verstehen.

Das Design von Studien ist eine komplizierte Angelegenheit. Man will ein Medikament testen. Manche der Testpersonen hören in der Mitte der Behandlungsperiode auf, das Medikament zu nehmen. Was tun? Ignorieren? Zusammen analysieren mit denjenigen, die das Medikament zu Ende genommen haben? Oder etwa mit denjenigen, die es nie genommen haben?

(Man hört immer wieder, dass geringe Mengen Alkohols nun gesund seien oder ungesund; je nach Studie landen Ex-Alkoholiker dabei in unterschiedlichen Kategorien. Das erklärt einen Teil der Diskrepanzen und die unterschiedlichen Ergebnisse, die immer mal wieder durch die Presse wandern. Wein zu trinken, weil er gut schmeckt, ist ohnehin der bessere Grund.)

Auf diese Fragen gibt es nicht immer einfache Antworten. Wenn jemand aufgehört hat, ein Medikament zu nehmen, weil er keine Lust mehr hatte: wahrscheinlich irrelevant. Weil er schwere Nebenwirkungen hatte: relevant. Weil er das Gefühl hatte, dass es nicht hilft: sehr relevant!

Über diese Fragen nachzudenken erfordert genau die Zeit, die ein im täglichen Praxisbetrieb eingespannter Hausarzt vielleicht nicht hat. Und das Problem verschärft sich, wenn es nun zwei gute Studien mit gegensätzlichen Ergebnissen gibt. Und vielleicht sogar noch eine dritte, die zu subtil anderen Interpretationen führt.

In einem statistischen Modell ist es möglich, derartige Unwägbarkeiten zu quantifizieren: „Mit 50% Wahrscheinlichkeit ist die folgende Aussage richtig“. Es ist auch möglich, ein automatisch zusammengetragenes Wissensmodell von Experten überprüfen zu lassen. Wenn die zwei anerkanntesten Wissenschaftler in einem Bereich unterschiedlicher Meinung sind, so lässt sich dies dementsprechend quantifizieren.

Die konservative Interpretation ist die folgende: IBM hat einen Computer gebaut, der, versorgt mit den richtigen Informationen, wahrscheinlich so gut diagnostizieren und Therapien vorschlagen kann wie 80% der praktizierenden Mediziner.

Die revolutionäre Interpretation ist identisch, nur dass „so gut“ durch „besser“ ersetzt werden muss und „80%“ durch „99%“. Wo genau zwischen konservativ und revolutionär Watson im Endeffekt landen wird, muss sich erst noch herausstellen. Tatsächlich geht es hier natürlich auch nicht nur um Watson; auf kurz oder lang wird es mehrere Alternativen für ein Produkt geben, das zumindest die konservative Interpretation erfüllt. Zeit spielt hier auf Seiten der Computer: je mehr Wissen ein guter Mediziner im Kopf haben muss, um als guter Mediziner zu gelten, desto schwieriger wird es, ein guter Mediziner zu sein. Computer dagegen sind in der Regel relativ robust, wenn es um gigantische Informationsmengen geht – wenn ein passender Interpretationsalgorithmus gefunden wurde. Das Zeitalter automatisierter Medizin beginnt in dem Moment, in dem ein Computer so gut diagnostiziert und therapiert wie 80% der menschlichen Mediziner. Die relevante Frage ist nicht „ob“, sondern „wann“ und „wie genau“.

Sequenzierung, elektronische Patientenakten und Big Data

Es macht wenig Sinn, automatisierte Medizin isoliert zu betrachten.

Erstens, wer sich ab und an in der Welt der Start-Ups (Silicon Valley, zum Beispiel) oder Weltverbesserer (TED oder Davos) bewegt, weiß, dass „Big Data“ nicht nur das 21. Jahrhundert prägen, sondern unser aller Leben verbessern wird. „Big Data“ ist das Wort der Stunde, und Wörter der Stunde sollte man eigentlich mit Vorsicht genießen, oder gar nicht.

Die Kernthese hinter „Big Data“ jedoch ist einfach und zwangsläufig: Das Erzeugen, Speichern und Auswerten von Daten für Dutzende von Millionen Menschen, die alle möglichen Lebensbereiche betreffen, wird immer einfacher. Irgendwie werden diese Daten sich gewinnbringend (im allgemeinen, z.B. auch sozialen, Sinne) einsetzen lassen.

Das gilt auch für Medizin.

In diversen Ländern (z.B. UK, Deutschland…) gibt es Initiativen, Patientenakten einzuführen, nützlicher zu machen (Nützlichkeit hängt hier vom allem mit Vollständigkeit und Freiheit von Fehlern zusammen) oder besser mit anderen Datenquellen zu integrieren. Die dabei entstehenden Datenmengen sind groß (also „Big Data“), und dass solche Patientenakten potentiell enorm nützlich sein könnten, ergibt sich fast schon von selbst.

Beispiel: Studien, die den Effekt von bestimmten Medikamenten auf Lebenserwartung bestimmen – mit Dutzenden von Millionen Teilnehmern, weil jeder Mensch in einem Land, der das Medikament erhalten hat, automatisch erfasst wird (dieses Thema ist komplex und ist problematisch in Bezug auf Datenschutz – mehr dazu in einem separaten Posting).

Elektronische Patientendaten wären ein mögliches ideales Eingabesystem für Watson-ähnliche Systeme und würden deren Einsatz massiv vereinfachen (oder möchten Sie Ihre Patientengeschichte manuell mit einem iPhone eingeben?).

Zweitens, Gen-Sequenzierung steht kurz davor, therapeutisch eingesetzt zu werden (in Deutschland wird das wegen eines innovationshemmenden, und falschen [6], Gendiagnostikgesetzes wohl noch etwas länger dauern…). Die dabei entstehenden Datenmengen sind enorm, also per definitionem „big“, und lassen sich ohne statistische Methoden nicht interpretieren.

Ein Beispiel: ein Mensch hat eine bakterielle Infektion des Halses. Um herauszufinden, welche Antibiotika einzusetzen sind, nimmt man ein kleines Schwämmchen, geht damit über die Infektion (d.h. sammelt alle möglichen Bakterien ein, auch die, die die Infektion verursachen), und sequenziert das Erbmaterial, das man im Schwamm findet.

Man sieht: menschliches Erbmaterial (von der Haut), Erbmaterial von vielen Bakterien (denen, die sowieso immer im Hals sitzen), Erbmaterial von der einen Bakterienart, die die Infektion verursacht. Man will nun wissen, gegen welche Antibiotika letztere Bakterien nicht immun sind. Dazu muss man feststellen, welche Gene an welchen Positionen mutiert sind.

Dieser ganze Auswertungsprozess ist hochkomplex und inhärent statistisch. Das Ergebnis wird in fast allen Fällen eine assoziierte Unsicherheit mit sich tragen. Gleichzeitig sprechen wir hier von einer Technologie, deren Einsatz bestimmte Bereiche der Medizin potentiell revolutionieren wird. Das heißt: statistische Methoden werden noch relevanter, als sie ohnehin schon sind – und der behandelnde Arzt muss sie entweder selbst hinreichend verstehen (und das ist komplexer als ein HIV-Test), oder diese Aufgabe delegieren – zum Beispiel an Dr. Watson.

Ärzte und Patienten

Wenn das alles so funktioniert wie geplant (Watson diagnostiziert gut und übernimmt in dem Prozess nicht nebenbei die Weltherrschaft), gibt es mindestens drei plausible Modelle:

Patient-exklusiv

Es gibt eine iPhone-App oder ein ähnlich effizientes System, um mit Watson zu kommunizieren. Viele Menschen wenden sich zuerst an Watson, wenn sie ein medizinisches Problem haben. Das System empfiehlt weitere Tests und Therapien. Ärzte kommen in besonders schwierigen Fällen zum Einsatz, für invasive Eingriffe, oder für Tests, die nicht automatisiert durchgeführt werden können (z.B. Blut abnehmen).
Arzt-exklusiv

Das iPhone mit der Watson-App steckt in der Brusttasche des Arztes. Watson wird zum dauerhaften Begleiter und Berater, verhindert Fehldiagnosen und hilft mit Statistik.
Patient und Arzt

Kombination der beiden anderen Modelle: Ärzte lassen sich von Watson helfen, und Patienten nutzen Watson, um weitere Informationen oder eine zweite Meinung einzuholen.

Wenn ich raten müsste, würde ich auf das dritte Modell setzen. Es vereint alle therapeutischen Vorteile: den hoffentlich vertrauenswürdige Arzt aus Fleisch und Blut, der einem wenn nötig die Hand hält und gut zuspricht; und die vereinte diagnostische/therapeutische Expertise von einem speziellen Arzt und einer hoffentlich möglichst vollständigen Kollektion aller möglichen klinischen Studien in Form von Watsons Wahrscheinlichkeitsmodellen. Die Expertise des einen speziellen Arztes hat den Vorteil einer zusätzlichen Überprüfung; auch (oder manchmal: gerade) Maschinen machen Fehler, und der Pilot kontrolliert den Autopilot.

Alle Macht den "Kunden"

Im Vergleich zu Modell 2 hat Modell 3 aber einen entscheidenden Vorteil: es ändert die Machtbalance zwischen Arzt und Patient (in dieser Überschrift „Kunde“), weil es den Patienten unabhängigen Zugriff auf die analytischen Fähigkeiten Watsons gibt (solange Ärze-Lobbys nicht dazwischenfunken; siehe Punkt [6], Gendiagnostikgesetz).

Das ist so wie eine zweite, dritte, vierte und fünfte Meinung einzuholen – weil statistische Modelle es erlauben, verschiedene Optionen miteinander zu vergleichen, und, ein wichtiger Punkt, individuell zu bewerten!

Ein einfaches Beispiel wäre das Folgende: es wurde eine Infektion diagnostiziert. Wir haben zwei verfügbare Medikamente mit vergleichbarer Wirksamkeit. Das eine löst Übelkeit aus, und das andere Kopfschmerzen. Man stelle sich die iPhone-App vor, auf der man mit Schiebereglern einstellen kann, wie sehr man Kopfschmerzen verabscheut, und wie sehr Übelkeit. Die Empfehlung wird entsprechend den eigenen Präferenzen angepasst.

Wichtig ist, dass dies eine Entscheidung ist, die einem prinzipiell von niemandem abgenommen werden kann; weil Richtig oder Falsch nur durch die eigenen Präferenzen definiert werden.

Bei lebenswichtigen Entscheidungen werden Alternativen häufig (oder, je nachdem, manchmal) von Ärzten kommuniziert und diskutiert; aber zum Beispiel bei der Wahl eines Antibiotikums? Auch wenn es nur um die Wahl zwischen Kopfschmerzen und Übelkeit geht, im Prinzip ist das eine Entscheidung, die man – wenn man will – selbst treffen sollte.

Unsicherheit als Stärke

Überhaupt ist die explizite Berücksichtigung von Unsicherheit eine der großen Stärken statistischer Modelle.

Der menschliche Körper hat eine erstaunliche Fähigkeit, sich selbst zu heilen, und in vielen Fällen ist es besser, eher darauf zu vertrauen als auf Medikament mit verhältnismäßig geringer Erfolgswahrscheinlichkeit. Zumal jeder Medikamenteneinsatz mit potentiell schädlichen Nebenwirkungen einhergeht (und wohl nur die wenigsten Medikamente in Bezug auf Nebenwirkungen komplett charakterisiert wurden [7]).

Statistische Modelle können diese Aspekte explizit berücksichtigen und stehen nicht unter dem Druck, von dem manche Ärzte manchmal berichten: „Die Patienten sind nicht zufrieden, wenn sie ohne Rezept aus der Praxis gehen“. Manchmal haben Zahlen eine erstaunliche Überzeugungskraft.

(In lebensbedrohlichen Situationen gelten diese Argumente meist nicht mehr bzw. verkehren sich u.U. sogar in ihr Gegenteil – ein Medikament mit unsicherer Wirkung auszuprobieren ist hier mitunter wesentlich vernünftiger als einfach abzuwarten bzw. nur deshalb nichts zu tun, weil die Wirkung unsicher ist. Auch spricht keines dieser Argumente für Homöopathie oder „alternative Behandlungen“ ohne empirische Basis).

Wie so häufig gibt es aber auch hier eine potentielle Nebenwirkung: vielleicht ist es manchmal gesünder, weil weniger beunruhigend, nicht komplett über Risiken und Nebenwirkungen einer bestimmten Prozedur informiert sein.

Essentiell aber ist der Punkt, dass Unsicherheit nicht durch statistische Modelle entsteht. Der Effekt statistischer Modelle ist: bestehende Unsicherheit wird sichtbar und quantifizierbar. Das könnte einen heilsamen Effekt haben auf das „Halbgötter in Weiß“-Syndrom. Und aus der Perspektive des Patienten, nein: des Menschen, ist es erstrebenswert, selbst zu entscheiden, wie transparent diese Unsicherheit werden soll.

Anmerkungen

[1] Informationen zu Watson auf Wikipedia. Tatsächlich ist der Computer auch nicht nach Dr. Watson aus Sherlock Holmes benannt, sondern nach dem Gründer von IBM.

[2] Im Moment populär, weil (relativ) einfach zu erforschen: der Einfluss individueller genetischer Varianten auf zum Beispiel das Risiko, durch Einnahme eines Medikamentes schwere Nebenwirkungseffekte zu erhalten („genetics of drug response“; ein schon etwas älterer Übersichts-Artikel hier).

[3] Wenn Menschen mit statistischem Wissen konfrontiert werden, denken sie sich gerne „kausale“ Zusammenhänge dafür aus. Diese können richtig sein, oder nicht. In der Medizin ist eine solche kausale Hypothese: Wir beobachten, dass dieses Medikament in x Prozent der Fälle hilft, weil das Medikament auf bestimmte Weise in bestimmte Prozesse des Körpers eingreift, mit diesem und jenem Effekt auf die Krankheit.

Solche Erklärungsmuster sind mit einer gewissen Skepsis zu betrachten. Erstens, weil wir in vielen Fällen weit davon entfernt sind, Krankheiten kausal zu verstehen. Zum Beispiel können wir (wahrscheinlich recht verlässlich) berechnen, wie groß der Einfluss genetischer Varianten auf bestimmte Krankheitsrisiken mindestens ist: indem man beobachtet, ob eineiige Zwillinge, die praktisch identisches genetisches Material haben, auch die gleichen Krankheiten bekommen. Um Umwelteffekte zu minimieren, untersucht man häufig Paare von Zwillingen, die nach der Geburt getrennt wurden (zwei verbleibende potentiell verzerrende Faktoren sind: die meisten Kinder werden in Mittelschichts-Familien hinein adoptiert, sodass selbst nach der Geburt getrennte Zwillinge wahrscheinlich in ähnlicher Umgebung aufwachsen und leben; und natürlich verbringen alle Zwillinge die ersten neun Monate ihres Lebens gemeinsam, im Bauch ihrer Mutter). Wir können also eine Untergrenze für den Einfluss genetischer Varianten abschätzen. Wenn solche genetischen Varianten zum Beispiel 50% des Krankheitsrisikos ausmachen, würde ich argumentieren, dass man diese 50% kennen und verstehen muss, um die Krankheit zu verstehen – und damit auch, in welcher Weise ein Medikament wirklich gegen eine Krankheit hilft.

Der Haken: in vielen Fällen wissen wir, dass die 50% existieren, aber wir wissen nicht, welche genetischen Varianten involviert sind („50%“ sind ein willkürlicher Wert, der für jede Krankheit anders ist. Für viele Autoimmunkrankheiten liegt der wahre Wert bei 30 – 60%). Selbst wenn wir diese Varianten kennen, sind wir weit entfernt von einem Verständnis der Interaktionen zwischen diesen Varianten und wie diese nun das Krankheitsrisiko beeinflussen („The Case of the Missing Heritability“ war ein prominenter Nature-Artikel zu diesem Thema. Fairerweise muss man anmerken, dass jedes Jahr neue Varianten entdeckt werden und wir uns damit den 50% nähern). Ich behaupte daher, dass jeder kausale Erklärungsansatz für Medikamenten-Wirksamkeit in solchen Fällen skeptisch betrachtet werden muss (auch und gerade dann, wenn klar gezeigt wurde, dass das Medikament hilft).

Ein anderes interessantes Beispiel sind Antibiotika: Hier verstehen wir wenigstens recht klar, wie die „Ursache“ der Krankheit, die Bakterien, von den Antibiotika bekämpft werden (wenn die Bakterien nicht resistent sind). Nun sind Bakterien allein natürlich nicht die alleinige Ursache einer Krankheit: hinzu kommt das Immunsystem, das das Wachstum der Bakterien offensichtlich nicht von allein verhindert hat. Man hört immer wieder (ich habe leider gerade keine Referenz zur Hand), dass Antibiotika bei Mittelohrentzündung gar nicht helfen, und bei Entzündungen des Halses, selbst bei bakteriell verursachten, die Krankheitsdauer um höchstens einen Tag verringern. Beides nicht besonders beeindruckend, und eindeutig nicht kompatibel mit einem simplen „Bakterie ist da, Bakterie wird getötet, Patient gesund“-Erklärungsansatz.

Und, als letztes Beispiel: inzwischen ist relativ klar, dass Aspirin kurz- und langfristiges Krebs-Risiko vermindert (I, II; Aspirin, das kleine Wunder-Medikament, scheint ohnehin eine Unzahl von Krankheiten zu beeinflussen). Wenn man nach Erklärungen dafür fragt, hört man häufig vom anti-entzündlichen Effekt von Aspirin und wie der das Immunsystem moduliert – diese Hypothese ist natürlich so allgemein, dass sie nur eingeschränkt nützlich ist (ich kann wahrscheinlich für alle bekannten Krebs-Risikofaktoren die Behauptung aufstellen, dass sie das Immunsystem modulieren, und würde damit wahrscheinlich in 50% der Fälle richtig liegen – ohne die Details dieser Modulation und den Effekt auf Krebs-Risiko auch nur ansatzweise im Detail zu verstehen).

[4] Eine amüsante Ausnahme wäre ein Arzt, dessen Selbstbewusstsein darauf basiert, bestimmte Medikamente zu verordnen.

[5] Und der imaginäre letzte Punkt der Liste: die Pharma-Industrie wird von Regulatoren dazu gezwungen, alle Daten, die es zu einer Behandlung gibt, offenzulegen.

[6] Das deutsche Gendiagnostikgesetz sagt, in sehr vereinfachter Form:

Genetische Daten sind eine besondere Form von Information. Du, lieber Mensch, bist zwar der Eigentümer dieser Information (es ist ja Deine Erbsubstanz), aber Du darfst diese Information nur so interpretieren wie wir, der Gesetzgeber, das für richtig halten.

Insbesondere darf jede Interpretation nur durch Fachärzte erfolgen (dass Ärzte gut Statistik können, wissen wir ja schon). Du darf zum Beispiel nicht Dein Genom nehmen und es an eine darauf spezialisierte Firma schicken und Dir dann mitteilen lassen, wie es so aussieht und was so drinsteckt, in Deinem Genom. (Außer natürlich, die Firma beschäftigt Ärzte, die Dir die Ergebnisse mitteilen – wer da den Einfluss der Ärzte-Lobby wittert, muss paranoid sein). Es ist paradox, einem Menschen vorschreiben zu wollen, was er mit den wahrscheinlich privatesten Daten, die er besitzt, tun darf.

Natürlich ist es richtig, dass ich mein Genom, wenn ich denn will, in eine Art „Gen-Google“ einspeisen darf, das mir dann ermöglicht, durch mein Genom zu navigieren, es zu durchsuchen, und das Maximum an verfügbarer Information zu jeder einzelnen Position anzeigen zu lassen.

[7] Erstens, weil menschliche Körper komplexe Systeme sind, in denen Nebenwirkungen, die vielleicht nur unter bestimmten Bedingungen (eine seltene genetische Variante, zum Beispiel) auftreten, schwierig zu entdecken sind. Zweitens, weil das mitunter Langzeit-Studien erfordert, die manchmal einfach (noch) nicht durchgeführt wurden. Drittens, weil es statistisch nicht einfach ist, die These „dieses Medikament hat keine Nebenwirkungen“ zu bestätigen.

Standard-Hypothesentests erlauben es, eine bestimmte These zu verwerfen; also davon auszugehen, dass die These falsch ist. Wenn der Test aber nicht so ausgeht, dass die These verworfen werden muss, heißt das nicht, dass die These als „richtig“ angenommen werden muss – unter Umständen nur, dass in dieser bestimmten Studie nicht genug „Evidenz zusammengetragen wurde, um die These zu verwerfen.

Donnerstag, 13. Dezember 2012

Dusseldorf Steet Art: Best of 2012

Dr. Watson und die Argumente für automatisierte Medizin

Über mich