Wie passen Orchesterwerke und künstliche Intelligenz zusammen? Der JKU-Informatiker Gerhard Widmer analysiert mithilfe ausgeklügelter Technologien die Musikwahrnehmung. Und dringt dabei zum Kern künstlerischen Ausdrucks vor.
Die Finger des Pianisten wandern über die Tasten. Auf seinem Flügel steht ein Laptop. Dessen Monitor zeigt Notenblätter, auf denen farblich jeweils jener Takt hervorgehoben wird, der gerade zu hören ist. Plötzlich, man bemerkt die kleine Vorrichtung erst jetzt, hebt sich wie von Zauberhand eine kleine Gabel und blättert um.
Magie ist hier natürlich keineswegs im Spiel. Denn der Vorgang, der so wundersam anmuten mag, ist ein Resultat der langjährigen Forschungsarbeit von Gerhard Widmer. Er leitet das Institut für Computational Perception an der JKU sowie die Intelligent Music Processing and Machine Learning Group am Austrian Research Institute for Artificial Intelligence in Wien. Der 1961 geborene Wissenschafter ist Experte für künstliche Intelligenz, einem Bereich, der oft allzu klischeehaft dargestellt wird. Doch dazu später.
An einem sommerlichen Vormittag erzählt Widmer im institutseigenen Studio am Campus über seine Arbeit, die atemberaubende Einblicke in die Welt des Hörens bietet. Einige Musikinstrumente sind im Raum verteilt. Computerausdrucke verschiedenster Art – Fotos, Porträts, Grafiken, Landschaften, Feuerwerke – bedecken eine schräg stehende Sichtbetonmauer: Auf der „Visualisierungswand“, wie sie institutsintern genannt wird, können Institutsmitarbeiterinnen und -mitarbeiter gemeinsam Ideen spinnen.
„Methodisch sind wir in der Artificial Intelligence, der künstlichen Intelligenz, zuhause“, sagt der Institutsleiter. Machine Learning – also das „maschinelle Lernen“, die automatisierte Generierung von Wissen aus Unmengen von Daten – ist als eine Art Unterkapitel der künstlichen Intelligenz zu verstehen. „Machine Learning ist derzeit das Zauberwort in der Forschung. Denn es sind viele Daten in der Welt, die dafür verwendet werden können.“ Von der Artificial Intelligence (AI) machen sich allerdings viele Menschen falsche Vorstellungen (siehe dazu auch: Kepler Tribune Ausgabe 1, Artikel von Martina Mara: „Künstliche Intelligenz“). Mediale Berichte darüber werden gern mit einem möglichst menschlich wirkenden Roboter illustriert. Die gruseligen Gesellen sollen alte Menschen pflegen, autistischen Kindern helfen oder gar zu Freunden von Berufstätigen mit wenig Freizeit werden. Meist erinnern sie eher an Protagonisten eines Science-Fiction- Films. Widmer kostet derlei bloß ein Lächeln: „95 Prozent der Artificial-Intelligence- Forscher interessieren sich nicht für diese Art von Robotern. Deren Vermenschlichung führt völlig in die Irre. Ein Roboter wird nie gut genug sein, um einen alten Menschen zu pflegen.“ Die AI ist ein viel breiteres und spannenderes Feld, erklärt der Forscher: „Man versteht darunter die Fähigkeit zu kommunizieren, vorauszudenken, Pläne zu machen. Computer lernen Dinge, die wir beim Menschen mit Intelligenz assoziieren würden.“
Sein Forschungsgebiet, in dem sich Informatik und Musik kreuzen, rührt aus einer persönlichen Leidenschaft. Schon als Kind spielte Widmer gern Klavier, als Jugendlicher räumte der gebürtige Vorarlberger sogar einen Landespreis dafür ab. Letztlich entschied er sich aber doch gegen eine Karriere als Musiker und studierte stattdessen Informatik. Seit Jahrzehnten forscht er mithilfe der künstlichen Intelligenz zu Musikwahrnehmung, 2009 wurde ihm dafür sogar der Wittgenstein-Preis verliehen. Seine Tätigkeit an der JKU umschreibt er in der Kürzestversion so: „Wir bringen Computern das Hören bei.“ Nur selten macht man sich bewusst, wie komplex die Vorgänge der Informationsverarbeitung bei der auditiven Wahrnehmung sind. Im Studio am JKU-Campus spielt Widmer nur wenige Sekunden eines Stücks an. „Was haben Sie gehört?“, fragt er schlicht. Ja, was eigentlich? Dass es sich um Bob Marleys „No Woman, no Cry“ handelt. Dass es ein Reggae ist. Dass Instrumente und Stimme zum Einsatz kommen. Wie die Melodie klingt. „Und dass es überhaupt Musik ist!“, betont der Professor. Was das menschliche Ohr selbstverständlich wahrnimmt, muss der Computer erst lernen. Aber wie?
Um das zu erklären, erzählt Widmer erst einmal, wie Klang entsteht. „Schallwellen sind nichts anderes als Zusammenstauchungen der Luft, die sich im Raum fortsetzen. Diese werden von Mikrofonen gemessen. Man kann sie elektronisch erfassen und daraus 44.100 Messwerte pro Sekunde generieren. Aus einem Stück, das drei Minuten dauert, gewinnen wir rund 16 Millionen Zahlen. Das sind 254 Millionen Bits.“ Aus diesen Datenmassen lernen Computer dann beispielsweise, Musik von Sprache zu unterscheiden.
Wer all das für Spielereien hält, irrt gewaltig. Denn Widmers Forschungsergebnisse erwiesen sich längst als praxistauglich. Eines seiner Projekte verhalf sogar Musikerinnen und Musikern zu höheren Tantiemen. Er entwickelte es im Auftrag der Swissperform, dem Schweizer Pendant zur österreichischen Musikverwertungsgesellschaft AKM. „Wenn ich eine Stunde Radioprogramm abspiele, kann ich dem Computer sagen, in welchem Zeitraum Musik gespielt wird und in welchem nicht. Wir haben das mit hunderten Stunden gemacht. Der Computer muss nun systematische Zusammenhänge finden und lernt so, Musik von Sprache zu unterscheiden. Er muss verallgemeinern.“ Swissperform benützte Widmers Algorithmen, um den Anteil an Musik zu überprüfen, der im Radio gespielt wird. Diese Tätigkeit wird üblicherweise stichprobenartig von Menschen durchgeführt – wenn überhaupt. „Unser Programm überprüfte 90 Stunden an Radiosendungen und unterschied Musik von Nicht-Musik. Die Resultate stimmten zu 98,71 Prozent mit jenen überein, die Menschen erzielten.“ Die Ergebnisse zwischen zwei menschlichen Prüfern waren zu einem etwas geringeren Prozentsatz – 98,5 Prozent – ident, der Unterschied von 1,5 Prozent stellt schlichtweg die Fehlerquote dar. Durch die Automatisierung konnten nun mehr Radiostunden als üblich überprüft werden. Das Ergebnis, erfreulich für die Musikschaffenden: „Die Tantiemen sind gestiegen.“ Als ebenso erfolgreich erwiesen sich die Programme beim FM4 Soundpark, einer Online-Musikplattform des gleichnamigen Senders. „Da gibt es viele unbekannte Musikerinnen und Musiker. Alle haben das Ziel, entdeckt zu werden. Wenn man im FM4 Soundpark ein Stück auswählt, wird einem vom Programm vorgeschlagen, fünf andere, ähnliche Nummern anzuhören. Auf diese würde man sonst gar nicht kommen.“ Der Effekt: „Die User hören sich jetzt viel mehr unterschiedliche Songs an als vorher.“ Die Einsatzfähigkeit dieses Spezialgebiets zeigt sich freilich auch darin, dass immer wieder Konzerne mit Jobangeboten an Widmers Mitarbeiterinnen und Mitarbeiter herantreten. Gerade hat ihm Sony zwei „weggekauft“, wie er es ausdrückt.
Die Materie fasziniert freilich unabhängig von wirtschaftlichen Überlegungen. Je länger Widmer spricht, desto spektakulärer wird es. Gerade hat er demonstriert, wie das Publikum einer Orchesteraufführung im Amsterdamer Concertgebouw am Tablet Partituren mithilfe farblicher Hervorhebungen live mitverfolgt. Der Mund bleibt einem offen vor Staunen. Doch plötzlich sagt der Informatiker: „Das ist eigentlich alles einfach.“ Die eine Frage, die ihn umtreibt, geht noch stärker an den Kern der Kunst. „Wie erwecken Musiker und Musikerinnen ein totes Stück Notenpapier zum Leben?“
Um das zu erforschen, wird jede Note exakt vermessen. „Wo sehen wir Unterschiede zwischen den einzelnen Pianisten, wo Gemeinsamkeiten?“ Zwar geben auch handelsübliche Aufnahmen Daten her; detaillierteres Zahlenmaterial können Forscher mithilfe spezieller Geräte schürfen, die direkt am Instrument angebracht sind und das Klavierspiel unglaublich exakt aufzeichnen. Freilich lassen sich nur wenige Pianisten derart in die Karten schauen; schließlich tritt bei einer derart genauen Analyse eben auch jeder noch so kleine Fehler zutage.
Dennoch gelangte Widmer an spannendes Material. Ein russischer Pianist, Nikita Magaloff, spielte 1989 auf einem entsprechend präparierten Bösendorfer sämtliche Klavierwerke Frédéric Chopins ein. „Der Bösendorfer Computerflügel misst mit feinsten Sensoren jede Tasten-, Hammer- und Pedalbewegung. So kann ich jedes Detail rekonstruieren.“ Die seinerzeit gewonnenen Daten erlaubten eine exakte Analyse von Magaloffs Interpretationen. Doch auch Einspielungen seiner Kollegen, von denen weitaus weniger exaktes Datenmaterial vorlag, können Widmers Programme systematisch darstellen: Als Animation lassen sich parallel zum Musikstück Gebilde verfolgen, die wie Würmer zwischen zwei Achsen – sie stellen Tempo und Lautstärke dar – mäandern. Eindrücklich treten die Unterschiede zwischen zwei Interpretationen desselben Stücks, eine von Vladimir Ashkenazy, eine von Andrei Gavrilov, hervor.
Da liegt es nicht fern, dass Programme das menschliche Spiel auch imitieren können. Aktuell arbeitet das Team des Instituts an einem „Musical Companion“. Für das Projekt erhielt es den renommierten Advanced Grant des European Research Council, dotiert mit 2,3 Millionen Euro. Ein Computer, so die Überlegung, soll, etwa zu Übungszwecken ein ganzes Orchester ersetzen. „Wenn man zusammen spielt, muss man antizipieren können. Das bringen wir dem Computer bei“, so Widmer. 2020 soll der erste „Musical Companion“ mit Rachmaninovs Klavierkonzert in d-Moll die Bühne betreten.
Während frühere Technologien Musik bloß monoton interpretierten, lässt sich das Spiel von Widmers Algorithmen nicht als computergesteuert identifizieren. Bei einem Experiment vor einem musikkundigen Publikum wurde das getestet:
Dafür stellte man die Aufnahmen eines professionellen Pianisten, eines herkömmlichen Computers und von Widmers Programm zur Disposition. Die Mehrheit hielt Letzteres für den Menschen. Doch der Informatiker relativiert: „Musikinterpretation ist natürlich viel komplizierter.“ Dann spielt er ein Stück vor, das von einem Algorithmus komponiert wurde. Es klingt beliebig und langweilig, ein Geplätscher ohne Höhen und Tiefen, bestenfalls Fahrstuhlmusik. Auch die künstliche Intelligenz hat eben ihre Grenzen. Zumindest derzeit.