Missing Link: Stephen Wolfram über die Rolle der KI in der Forschung (Teil 1)

Seite 4: Kann KI vorhersagen, was passieren wird?

Inhaltsverzeichnis

Im einfachsten Fall soll KI genutzt werden, um induktive Schlussfolgerungen zu ziehen. Man gibt die Ergebnisse einer Reihe von Messungen ein und bittet dann die KI, die Ergebnisse von Messungen vorherzusagen, die bisher nicht durchgeführt wurden. Auf dieser Ebene wird die KI wie eine Blackbox behandelt; es spielt keine Rolle, was im Inneren passiert; es interessiert nur, ob die KI die richtige Antwort gibt. Man könnte denken, dass es möglich ist, die KI irgendwie so einzurichten, dass sie "keine Annahmen trifft" und nur "den Daten folgt". Aber es ist unvermeidlich, dass der KI eine Struktur zugrunde liegt, die sie letztlich dazu bringt, eine Art Modell für die Daten anzunehmen.

Ja, dieses Modell kann sehr flexibel sein. Aber ein wirklich "modellloses Modell" kann es nicht geben. Vielleicht basiert die KI auf einem riesigen neuronalen Netz mit Milliarden von numerischen Parametern, die verändert werden können. Vielleicht kann sich sogar die Architektur des Netzes ändern. Aber der gesamte Aufbau des neuronalen Netzes definiert unweigerlich ein ultimatives zugrunde liegendes Modell.

Betrachten wir einen sehr einfachen Fall. Stellen wir uns vor, dass unsere "Daten" die blaue Kurve im folgenden Bild sind – die vielleicht die Bewegung eines an einer Feder aufgehängten Gewichts darstellt. Die Physik sagt dann die rote Kurve voraus. Nimmt man nun ein sehr einfaches neuronales Netz und trainiert es mit den obigen Daten der "blauen Kurve", um ein Netz mit einer bestimmten Sammlung von Gewichten zu erhalten.

(Bild: Stephen Wolfram)

Das Resultat sieht dann wie folgt aus:

(Bild: Stephen Wolfram)

Man sieht, dass das Netz die Daten, auf denen es trainiert wurde, gut reproduziert, aber wenn es um die "Vorhersage der Zukunft" geht, versagt es grundsätzlich. Was ist hier also los? Haben wir einfach nicht lange genug trainiert? Das ist nicht das Problem. Denn egal, ob man mehr Runden trainiert, größere neuronale Netze oder andere Aktivierungsfunktionen (für das neuronale Netz) verwendet, das Problem bleibt.

(Bild: Stephan Wolfram / Bearbeitung: heise online)

Die Idee, eine Funktion durch eine Kombination von Standardfunktionen zu approximieren, ist natürlich sehr alt (man denke an die Epizyklen und früher). Neuronale Netze ermöglichen es, kompliziertere (und hierarchische) Kombinationen von komplizierteren und nicht-linearen Funktionen zu verwenden, und bieten eine effizientere Methode zur "Anpassung aller Parameter", die beteiligt sind. Aber im Grunde ist es die gleiche Idee. Hier sind zum Beispiel einige Annäherungen an die "Daten", die in Form von einfacheren mathematischen Funktionen konstruiert wurden:

(Bild: Stephen Wolfram)

Ein Vorteil dieser Methode liegt in ihrer Einfachheit: Die Beschaffenheit jedes Modells lässt sich direkt durch seine Formel darstellen. Doch ebenso wie bei den neuronalen Netzen stoßen wir auf Herausforderungen in der Vorhersagegenauigkeit. (Übrigens gibt es eine ganze Reihe von Methoden für Dinge wie Zeitreihenprognose, die Ideen wie "Anpassung an Rekurrenzrelationen“ enthalten – und in der modernen Zeit die Verwendung von Transformer-Neuronalen-Netzen. Und obwohl einige dieser Methoden in der Lage sind, ein periodisches Signal wie eine Sinuswelle gut zu erfassen, erwartet man nicht, dass sie breit gefächert erfolgreich sind, Funktionen genau vorherzusagen.)

Man könnte argumentieren, dass der Ansatz, neuronale Netze auf eine zu spezifische Weise einzusetzen und zu schulen, möglicherweise limitierend wirkt. Die breite und umfassende Datenbasis, auf der beispielsweise ChatGPT trainiert wurde, ist womöglich entscheidend für dessen Fähigkeit, "allgemeine Sprachmuster und Konzepte des gesunden Menschenverstands" zu erlernen – ein Fortschritt, der bei einer Beschränkung auf enger gefasste Datensätze womöglich ausgeblieben wäre.

Was bedeutet das also für uns hier? Es könnte sein, dass wir wollen, dass unser neuronales Netz eine "allgemeine Vorstellung davon hat, wie Funktionen funktionieren" - zum Beispiel, dass es Dinge wie die Kontinuität von Funktionen oder, was das betrifft, Periodizität oder Symmetrie kennt. Wir können also nicht nur auf ein bestimmtes "Fenster" von Daten trainieren, wie wir es oben getan haben, sondern auf ganze Familien von Funktionen, wie Sammlungen trigonometrischer Funktionen oder vielleicht alle eingebauten mathematischen Funktionen in der Wolfram Language.

Und wenn wir das tun, können wir natürlich unsere Sinuskurve erfolgreich vorhersagen – genauso wie wir es tun würden, wenn wir die traditionelle Fourier-Analyse mit Sinuskurven als Grundlage verwenden würden. Aber betreibt man so Wissenschaft?

Im Wesentlichen heißt es: "Ich habe so etwas schon einmal gesehen, also gehe ich davon aus, dass es jetzt so abläuft". Und das kann zweifellos nützlich sein, denn es handelt sich um eine automatisierte Version eines typischen Vorgangs, den ein Mensch mit Erfahrung auf einem bestimmten Gebiet durchführen kann. Wir werden später darauf zurückkommen. Der wichtigste Punkt ist jedoch, dass zumindest bei der Vorhersage von Funktionen neuronale Netze und die heutige KI nicht in der Lage zu sein scheinen, darüber hinauszusehen, was in ihre Konstruktion und ihr Training einfließt. Es gibt keine "emergente Wissenschaft", sondern nur einen ziemlich direkten "Musterabgleich".