Die mikroskopisch kleine Welt der Moleküle birgt noch immer viele Geheimnisse. Künstliche Intelligenz kann helfen, sie zu lüften. Am Institut für Machine Learning der JKU arbeitet man schon jetzt an den Algorithmen der Zukunft, die nicht nur die Medizin voranbringen könnten.
Ein „wissenschaftlicher Durchbruch“, die Lösung für „ein 50 Jahre altes Problem“ und eine „Entdeckung, die alles verändern könnte“: Mit diesen Worten reagierte die Fachpresse im Herbst 2020 auf die jüngsten Leistungen des Computerprogramms Alpha Fold 2. Der Künstlichen Intelligenz, entwickelt von der Google-Tochterfirm a DeepMind in London, war es gelungen, die 3D-Struktur von Proteinen ähnlich genau vorherzusagen wie mit experimentellen Methoden im Labor. Der Unterschied: Laboruntersuchungen mithilfe von Röntgenkristallografie oder Kryoelektronenmikroskopie sind aufwendig, langwierig und teuer. AlphaFold 2 dagegen arbeitet schnell, kostet nichts und läuft auf jedem Laptop, da die komplexen Berechnungen in der Google-Cloud stattfinden.
„AlphaFold ist eines der bis dato bekanntesten Beispiele für molekular e Simulationen mithilfe von Künstlicher Intelligenz“, sagt Günter Klambauer, Assistenzprofessor am Institut für Machine Learning der Johannes Kepler Universität Linz, der zu diesem Thema forscht. „Der Deep- Learning- Algorithmus analysiert die Abfolge der Aminosäuren, aus denen jedes Protein aufgebaut ist, und berechnet anschließend mit erstaunlicher Genauigkeit, wie diese ineinander gefaltet sind.“ Das sei wichtig, denn erst die Faltung der Proteine bestimmt, wie diese sich verhalten, wie sie im Körper wirken und auf welche Wirkstoff e sie möglicherweise reagieren. Und diese Kenntnis wiederum könne wichtige Fragen über den Aufbau unserer Zellen und die Funktionsweise unseres Körpers beantworten.
Nicht erst seit dem Erfolg von Alpha Fold gilt Machine Learning und der Teilbereich Deep Learning, beides gehört zum Forschungsgebiet von Künstlicher Intelligenz (KI), als eine der vielversprechendsten Ansätze, um Aktivitäten auf molekularer Ebene besser zu verstehen. Denn je kleiner die Teilchen werden, desto schwieriger ist es, sie mit traditionellen Labormethoden zu analysieren. An der JKU entwickeln die Expertinnen und Experten gemeinsam mit ihren Forschungsgruppen schon jetzt die nächste Generation von Algorithmen, mit denen die geheimnisvolle Welt der Moleküle besser erforscht werden soll.
„Bislang sind Moleküle vor allem klassifiziert, also in grobe Einheiten eingeteilt worden“, erklärt Johannes Brandstetter, der neben seiner Arbeit an der JKU derzeit Researcher bei Microsoft im neu gegründeten Lab für Molecular Simulations ist und davor am renommierten Amsterdam Machine Learning Lab war. Bei der Klassifikation geht es zum Beispiel darum, welche Eigenschaften ein Molekül hat, also ob es etwa toxisch ist, oder mit welchen anderen Molekülen es sich bindet. Die Simulation geht noch einen Schritt weiter: „Man will herausfinden, wie ein Molekül etwa in 3D aussieht und wie die Kräfte genau interagieren: Wie bindet sich etwa ein Virus an menschliche Zellen? Welche Oberflächeneffekte gibt es? Wie bewegen sich die Moleküle?“ Gerade bei sogenannten Makromolekülen wie Proteinen, die teils aus Tausenden Atomen bestehen, sei das mit rein physikalischen Simulationen fast nicht mehr zu berechnen, sagt Brandstetter.
KI im Kampf gegen Corona
Hier kommen Machine Learning und Deep Learning ins Spiel. Diese KI-Methoden werden zunächst mit Trainingsdaten gefüttert, also etwa mit Datenbanken, die Strukturen bereits bekannter Proteine enthalten. Daraus lernen sie, was bestimmte Proteine auszeichnet, und erkennen Gemeinsamkeiten, die menschlichen Expert*innen möglicherweise nicht auffallen. Dieses Wissen übertragen sie anschließend selbstständig auf noch unbekannte Proteine. Sie geben also quasi eine Einschätzung ab, wie andere Proteine aussehen könnten und welche Eigenschaften sich daraus ergeben. Je mehr Daten das Netzwerk erhält, desto robuster, sprich zuverlässiger, wird es.
Vor allem in der Medikamentenforschung wird der Technologie großes Potenzial nachgesagt. Die Algorithmen können etwa aus Zigtausenden Substanzen mögliche Wirkstoffe identifizieren – ein Prozess, der mit klassischen Labormethoden Monate oder Jahre dauert. Erste Erfolge gibt es bereits. So haben 2018 Forschende der ETH Zürich mithilfe einer KI neue Wirkstoff e erzeugt, die die Funktion eines Rezeptor-Proteins für Retinoide verändern konnten. Retinoide haben einige wichtige Funktionen im ganzen Körper, etwa was das Wachstum von Zellen und Knochengewebe angeht, und sind deshalb auch für die Medizin interessant.
Auch im Kampf gegen Corona kann Deep Learning helfen, wie ein Projekt der JKU zeigt. Im Frühjahr 2020, also schon kurz nach Beginn der Pandemie, hat Günter Klambauer ein Projekt betreut, in dem ein Deep- Learning-Algorithmus aus einer Datenbank von Molekülen und deren Wirkstoffkapazitäten erkennen sollte, welche von ihnen die Aktivität des Virus verringern könnten. „Wir haben die KI eine Datenbank aus einer Milliarde Molekülen durchsuchen lassen und die Ergebnisse anschließend der Allgemeinheit zur Verfügung gestellt“, sagt Klambauer. Rund 30.000 potenzielle Wirkstoff e seien am Ende dabei herausgekommen. Diese könnten nun von Pharmaunternehmen weiter eingegrenzt und später im Labor auf ihre tatsächliche Wirksamkeit hin getestet werden.
Tatsächlich steht die Johannes Kepler Universität Linz im regen Austausch mit der Pharma- und Healthcare-Branche, die nicht umsonst als einer der größten Profi teure von Entwicklungen auf dem Gebiet der Künstlichen Intelligenz gilt. Die KI-Expert*innen übernehmen die Modellierung, die Unternehmen untersuchen dann die Ergebnisse. „Im konkreten Fall geht es darum, den ersten Schritt in der Medikamentenforschung, nämlich die Identifizierung von Wirkstoff en, zu beschleunigen“, sagt Klambauer. Er habe sich mit seiner Arbeitsgruppe auf sogenannte Few-Shot- oder Low- Data-Drug-Discovery spezialisiert, bei der es darum geht, bekannte Wirkstoff e schnell anpassen zu können und mit vergleichsweise wenig Trainingsdaten gute Ergebnisse zu erzielen. Solche Methoden könnten unter anderem dabei helfen, Impfstoff e schneller auf Mutationen anzupassen.
Eine Dimension namens Zeit
Im Mittelpunkt der molekularen Simulationen stehen immer häufiger die sogenannten dynamischen Systeme. Damit gemeint ist die Berechnung von Molekülen, die in Bewegung sind und bei denen man noch den Faktor Zeit mit einbeziehen muss. „Die Zeit bildet eine zusätzliche Dimension, die die Schwierigkeit der Simulation enorm erhöht“, erklärt Johannes Brandstetter und liefert gleich die passenden Beispiele mit: „Es ist einfacher, bei einem Bild zu sagen, was man sieht, als in einem Video vorherzusagen, was man sehen wird. Und eine Luftströmung für die nächsten zwei Stunden zu berechnen ist leichter, als das Wetter in drei Tagen vorherzusagen, weil dort die Dynamik, man könnte auch sagen das Chaos, um einiges größer ist.“
Um diese Dynamik mithilfe von Künstlicher Intelligenz simulieren zu können, benötigen die Forschenden andere Modelle. Algorithmen, die zur Klassifikation von Molekülen oder zur eingangs erwähnten Analyse von Wirkstoffkapazitäten eingesetzt werden, geraten bei dynamischen Systemen schnell an ihre Grenzen. Am Machine Learning Lab der JKU arbeiten die Wissenschaftlerinnen und Wissenschaftler deshalb an neuen Architekturen, die unter anderem die physikalischen Gesetze mit einbeziehen.
Vor allem ein Begriff taucht in diesem Kontext immer wieder auf: Geometric Deep Learning. Als Grundlage gilt eine Paperserie aus dem Jahr 2016 eben genau aus Amsterdam. Richtig Fahrt aufgenommen habe das Thema aber erst in den vergangenen drei Jahren, erklärt Brandstetter. Er nennt es einen „mathematisch-physikalischen Gegenpunkt“ zu jener Strömung von Deep Learning, die auf immer größer e Systeme, auf immer mehr Daten und immer mehr Rechnerkapazitäten setzt. Also zum Beispiel auf die Bestrebungen von großen Tech-Firmen wie Google und Facebook, die sowohl über die Daten als auch die Infrastruktur verfügen, um diese zu verarbeiten.
Bei Geometric Deep Learning dagegen versucht man, dem System bestimmte Eigenschaften „einzuimpfen“, wie es die Forscher*innen nennen. Zum Beispiel Rotationsinvarianz: „Wenn sich ein Molekül um eine Achse dreht, also andere Koordinaten im Raum hat, soll die KI erkennen, dass das eigentlich das gleiche Molekül ist“, sagt Brandstetter. Man müsse dem System möglichst viel Wissen über die Welt, über die Physik und die Naturgesetze beibringen, damit es auch sich bewegende Moleküle simulieren kann. Geometric Deep Learning ist also eine Weiterentwicklung des Maschinellen Lernens, die aus noch komplexeren Strukturen lernen kann und sich deshalb für noch komplexere Anwendungsfälle eignet.
Die Proteinfaltung am Beispiel von AlphaFold ist dabei nur eines von vielen Beispielen, wo die neuen Algorithmen zum Einsatz kommen. Ein weiteres Feld mit großem Potenzial ist das der Diagnostik, also etwa die Analyse von Röntgen- oder MRT-Bildern. Hier konnten durch den Einsatz von Künstlicher Intelligenz in Form von Bilderkennung in den vergangenen Jahren bereits Erfolge erzielt werden. Die nächste Herausforderung besteht darin, nicht nur 2D-Bilder wie die Röntgenaufnahme einer Lunge zu analysieren, sondern auch 3D-Aufnahmen. Dadurch ließen sich etwa die Oberflächenstrukturen von Gehirnen genauer untersuchen und bessere Erkenntnisse über den Aufbau des menschlichen Gehirns sowie mögliche Krankheiten ableiten.
In diesem Sinne könnten die Entwicklungen auch der sogenannten personalisierten oder Präzisionsmedizin einen Schub verpassen. Dabei geht es darum, für jeden Patienten und für jede Patientin individuelle Therapieansätze zu entwickeln. Dazu braucht es sehr viele Daten, die von den Lebensumständen bis hin zu genetischen Markern reichen können, womit man wieder bei der molekularen Simulation wäre. Ein Ziel sei es laut Klambauer dabei, sogenannte „Broad AIs“ zu entwickeln, also möglichst breit aufgestellte und robuste KIs, die eben nicht nur für ganz bestimmte Aufgaben konzipiert sind, etwa um einzelne Moleküle zu klassifizieren, sondern die verschiedenen Datenquellen mit einbeziehen und die sich schnell auf Veränderungen anpassen lassen und insgesamt eine breitere Problemlösefähigkeit besitzen.
Potenzial für viele Branchen
„Künstliche Intelligenz kann sicherlich in vielen medizinischen Bereichen noch einiges verändern und vor allem beschleunigen“, sagt Günter Klambauer. Gleichzeitig dürfe man aber auch das Potenzial für andere Branchen nicht außer Acht lassen. „Die breiten Anwendungsmöglichkeiten machen die molekulare Simulation so attraktiv. Da wird gerade viel Wissen zwischen verschiedenen Forschungsgebieten und Branchen transferiert“, sagt Kollege Johannes Brandstetter. Denn schließlich bestehe unsere gesamte Welt aus dynamischen, sich bewegenden Systemen, die wir Menschen mithilfe von Deep Learning im besten Fall besser verstehen können.
In der Materialwissenschaft etwa könnten die Entwicklungen dazu führen, dass neue Materialien für Solarzellen entdeckt werden, die wiederum im Kampf gegen den Klimawandel helfen. In den Motoren und Katalysatoren von Autos ließen sich die komplexen Luftzirkulationen analysieren, um die Motoren effizienter zu machen. Flüssigkeits- oder Luftsimulationen könnten helfen, extreme Wetterereignisse besser zu verstehen und im besten Fall früher vorherzusagen. Und im Fall der Quantenmechanik lassen sich viele Phänomene mit der jetzigen Technik noch gar nicht berechnen, was sich aber ändern könnte. „Was wir im Bereich des Deep Learning einmal mehr sehen, ist, dass Forschung, die zunächst disjunkt ist, im Laufe der Zeit zusammenwächst“, sagt Brandstetter. Deshalb sind die Expert*innen am LIT Artificial Intelligence Lab der JKU schon jetzt ganz vorne dabei, wenn es um die Weiterentwicklung der Technologie geht. „Wir in Linz konzentrieren uns zwar zum Teil auf Geometric Deep Learning, wir profitieren aber auch von Entwicklungen der Vergangenheit“, sagt Klambauer. „So arbeiten wir schon länger an molekularen Simulationen. Und sowohl die Deep-Learning-Expertise von Institutsleiter Professor Sepp Hochreiter als auch der KI-Studiengang helfen uns, die verschiedenen Forschungsgebiete zusammenzubringen.“ Und auch das Interesse der Industrie – und der erwähnten Gesundheitsbranche – an der Arbeit sei insgesamt sehr hoch, was für die Forschung natürlich förderlich sei.
In den kommenden Jahren, da sind sich Expert*innen einig, wird es mithilfe von Künstlicher Intelligenz und Deep Learning noch mehr spannende Einblicke in die Welt der Moleküle geben. Denn um den „großen gesellschaftlichen Herausforderungen unserer Zeit zu begegnen“, wie es in der aktuellen „Strategie der Bundesregierung für Künstliche Intelligenz“ aus dem österreichischen BMDW hieß, hilft es sicherlich, zunächst die kleinsten Teile besser zu verstehen.