Die funktionelle Magnetresonanztomographie oder fMRT ist eines der fortschrittlichsten Werkzeuge, um zu verstehen, wie wir denken. Während eine Person in einem fMRI-Scanner verschiedene mentale Aufgaben erledigt, produziert die Maschine faszinierende, farbenfrohe Bilder ihres Gehirns in Aktion.
Wenn man sich die Gehirnaktivität einer Person auf diese Weise ansieht, können Neurowissenschaftler feststellen, welche Bereiche des Gehirns eine Person nutzt, aber nicht Was dieses Individuum denkt, sieht oder fühlt. Forscher haben jahrzehntelang versucht, diesen Code zu knacken, und jetzt, indem sie künstliche Intelligenz verwenden, um die Zahlen zu knacken, haben sie einige ernsthafte Fortschritte gemacht. Zwei Wissenschaftler in Japan kombinierten kürzlich fMRT-Daten mit fortschrittlicher bildgenerierender KI, um die Gehirnaktivität der Studienteilnehmer in Bilder zu übersetzen, die dem, was sie während der Scans sahen, auf unheimliche Weise ähnelten. Die Original- und neu erstellten Bilder können auf der Website der Forscher eingesehen werden.
“Wir können diese Art von Techniken verwenden, um mögliche Schnittstellen zwischen Gehirn und Maschine zu bauen”, sagt Yu Takagi, Neurowissenschaftler an der Universität Osaka in Japan und einer der Autoren der Studie. Diese zukünftigen Schnittstellen könnten eines Tages Menschen helfen, die derzeit nicht kommunizieren können, beispielsweise Menschen, die scheinbar nicht ansprechbar sind, aber möglicherweise noch bei Bewusstsein sind. Die Studie wurde kürzlich zur Präsentation auf der Conference on Computer Vision and Pattern Recognition 2023 angenommen.
Die Studie schlägt online Wellen, seit sie im Dezember 2022 als Preprint veröffentlicht wurde (d. h. sie wurde noch nicht von Experten begutachtet oder veröffentlicht). Online-Kommentatoren haben die Technologie sogar mit dem „Gedankenlesen“ verglichen. Aber diese Beschreibung übertreibt, wozu diese Technologie in der Lage ist, sagen Experten.
„Ich glaube nicht, dass wir uns um das Lesen kümmern“, sagt Shailee Jain, eine Computer-Neurowissenschaftlerin an der University of Texas in Austin, die nicht an der neuen Studie beteiligt war. „Ich glaube nicht, dass die Technologie zum jetzigen Zeitpunkt annähernd wirklich nützlich für Patienten ist oder für schlechte Dinge eingesetzt wird. Aber wir werden jeden Tag besser.“
Die neue Studie ist bei weitem nicht die erste, die KI in der Gehirnaktivität einsetzt, um Bilder zu rekonstruieren, die von Menschen gesehen werden. In einem Experiment aus dem Jahr 2019 verwendeten Forscher in Kyoto, Japan, eine Art maschinelles Lernen, das als Deep Neural Network bezeichnet wird, um Bilder aus fMRT-Scans zu rekonstruieren. Die Ergebnisse sahen eher wie abstrakte Gemälde als wie Fotografien aus, aber menschliche Richter konnten die von der KI erstellten Bilder immer noch genau mit den Originalbildern abgleichen.
Seitdem haben Neurowissenschaftler diese Arbeit mit neueren und besseren KI-Bildgebern fortgesetzt. In der aktuellen Studie verwendeten die Forscher Stable Diffusion, ein sogenanntes Diffusionsmodell des Londoner Startups Stability AI. Diffusionsmodelle, eine Kategorie, zu der auch Bildgeneratoren wie DALL-E 2 gehören, seien „die Hauptfigur der KI-Explosion“, sagt Takagi. Diese Modelle lernen, indem sie ihren Trainingsbildern Rauschen hinzufügen. Wie statisches Fernsehen verzerrt Rauschen Bilder, aber auf vorhersehbare Weise, dass das Modell zu lernen beginnt. Schließlich kann das Modell Bilder allein aus “statisch” erstellen.
Stable Diffusion wurde im August 2022 der Öffentlichkeit vorgestellt und mit Milliarden von Fotos und ihren Bildunterschriften trainiert. Es hat gelernt, Muster in Bildern zu erkennen, sodass es visuelle Merkmale auf Befehl mischen und anpassen kann, um völlig neue Bilder zu erzeugen. „Sagen Sie einfach ‚Ein Hund auf einem Skateboard‘, und dann wird daraus ein Hund auf einem Skateboard“, sagt Iris Groen, Neurowissenschaftlerin an der Universität Amsterdam, die nicht an der neuen Studie beteiligt war. Die Forscher “nahmen einfach dieses Modell und sagten dann: ‘OK, jetzt können wir es auf intelligente Weise mit Gehirnscans verknüpfen?’
Die in der neuen Studie verwendeten Gehirnscans stammten aus einer Forschungsdatenbank, die die Ergebnisse einer früheren Studie enthielt, in der sich acht Teilnehmer bereit erklärten, sich regelmäßig in einen fMRI-Scanner zu stellen und im Laufe eines Jahres 10.000 Bilder anzusehen. Das Ergebnis war eine riesige Sammlung von MRT-Daten, die zeigen, wie die Sehzentren des menschlichen Gehirns (oder zumindest die Gehirne dieser acht menschlichen Teilnehmer) auf das Sehen jedes der Bilder reagieren. In der jüngsten Studie verwendeten die Forscher Daten von vier der ursprünglichen Teilnehmer.
Um die rekonstruierten Bilder zu generieren, muss das KI-Modell mit zwei verschiedenen Arten von Informationen arbeiten: den untergeordneten visuellen Eigenschaften des Bildes und seiner übergeordneten Bedeutung. Zum Beispiel ist es nicht nur ein längliches, eckiges Objekt auf blauem Hintergrund, sondern ein Flugzeug am Himmel. Auch das Gehirn arbeitet mit diesen beiden Arten von Informationen und verarbeitet sie in unterschiedlichen Regionen. Um Gehirnscans und KI zu verknüpfen, verwendeten die Forscher lineare Modelle, um die Teile von jedem abzugleichen, die visuelle Informationen auf niedrigerer Ebene verarbeiten. Dasselbe taten sie auch mit den Teilen, die konzeptionelle Informationen auf hoher Ebene verarbeiten.
„Grundsätzlich konnten sie diese Bilder erzeugen, indem sie sie einander zuordneten“, sagt Groen. Das KI-Modell könnte dann lernen, welche subtilen Muster der Gehirnaktivierung einer Person welchen Merkmalen in den Bildern entsprechen. Sobald das Modell diese Muster erkennen konnte, fütterten die Forscher es mit fMRT-Daten, die es noch nie zuvor gesehen hatte, und beauftragten es mit der Erstellung des dazugehörigen Bildes. Schließlich konnten die Forscher das generierte Bild mit dem Original vergleichen, um die Leistung des Modells zu sehen.
Viele der von den Autoren in der Studie gezeigten Bildpaare sehen sich verblüffend ähnlich. „Was ich spannend finde, ist, dass es funktioniert“, sagt Ambuj Singh, Informatiker an der University of California, Santa Barbara, der nicht an der Studie beteiligt war. Das bedeutet jedoch nicht, dass Wissenschaftler genau herausgefunden haben, wie das Gehirn die visuelle Welt verarbeitet, sagt Singh. Das stabile Diffusionsmodell verarbeitet Bilder nicht unbedingt auf die gleiche Weise wie das Gehirn, auch wenn es in der Lage ist, ähnliche Ergebnisse zu erzielen. Die Autoren hoffen, dass der Vergleich dieser Modelle und des Gehirns Aufschluss über das Innenleben beider komplexer Systeme geben kann.
So großartig diese Technologie auch erscheinen mag, sie hat viele Einschränkungen. Jedes Modell muss trainiert werden und Daten von nur einer Person verwenden. „Jedes Gehirn ist wirklich anders“, sagt Lynn Le, eine Computational Neuroscientistin an der Radboud University in den Niederlanden, die nicht an der Forschung beteiligt war. Wenn Sie wollten, dass KI Bilder aus Ihren Gehirnscans rekonstruiert, müssten Sie ein benutzerdefiniertes Modell trainieren, und dafür bräuchten Wissenschaftler viele hochwertige fMRI-Daten aus Ihrem Gehirn. Wenn Sie nicht zugestimmt haben, absolut still zu stehen und sich auf Tausende von Bildern in einer klaustrophobischen MRT-Röhre zu konzentrieren, hätte kein vorhandenes KI-Modell genügend Daten, um mit der Entschlüsselung Ihrer Gehirnaktivität zu beginnen.
Selbst mit diesen Daten sind KI-Modelle nur für die Aufgaben gut, für die sie explizit trainiert wurden, erklärt Jain. Ein Modell, das darauf basiert, wie Sie Bilder wahrnehmen, funktioniert nicht, um zu versuchen, zu entschlüsseln, an welche Konzepte Sie denken, obwohl einige Forschungsteams, einschließlich Jains, andere Modelle dafür erstellen.
Es ist noch nicht klar, ob diese Technologie funktionieren wird, um Bilder zu rekonstruieren, die sich die Teilnehmer nur vorgestellt und nicht mit eigenen Augen gesehen haben. Diese Fähigkeit wäre für viele Anwendungen der Technologie erforderlich, beispielsweise für die Verwendung von Gehirn-Computer-Schnittstellen, um Menschen zu helfen, die nicht sprechen oder gestikulieren können, um mit der Welt zu kommunizieren.
“Es gibt neurowissenschaftlich viel zu gewinnen, wenn man Decodierungstechnologie baut”, sagt Jain. Aber die potenziellen Vorteile gehen mit potenziellen ethischen Dilemmata einher, und deren Bewältigung wird umso wichtiger, je besser diese Techniken werden. Die derzeitigen Beschränkungen der Technologie „sind keine gute Entschuldigung dafür, den potenziellen Schaden der Dekodierung auf die leichte Schulter zu nehmen“, sagt er. „Ich denke, es ist jetzt an der Zeit, über den Datenschutz und die negativen Nutzungen dieser Technologie nachzudenken, auch wenn wir vielleicht noch nicht in dem Stadium sind, in dem das passieren könnte.“