Dabei lernen Sie etwas über die Technologie hinter der KI – und wie sich die Funktionsweise moderner Grafikkarten in die eigentlich konstant vorgegebene Mathematik einmischt. Das ist Luxuswissen für Leute, die sich dafür interessieren, was unter der Motorhaube moderner KI-Systeme so passiert. Wenn das gut ankommt (bitte melden), schreibe ich mehr über diese Themen.

Mathematik ist deterministisch

Rechnen Sie mal schnell 3 mal 3.

Das Ergebnis? 9. Egal, ob Sie es heute Morgen unter der Dusche rechnen, morgen Nachmittag im Garten oder in zehn Jahren, während Sie Ihr Enkelkind mit Apfelmus füttern. 3 mal 3 macht 9 – an guten und an schlechten Tagen, bei Regen und Sonnenschein.

Oder wissenschaftlich ausgedrückt:

Mathematik ist deterministisch.

KI-Systeme bestehen aus Mathematik. Im Grunde sind sie eine ellenlange Formel (die aufgeschrieben ein paar Hundert Mal um den Globus gewickelt werden könnte).

Die Formel errechnet Wahrscheinlichkeiten für plausible nächste Wörter – ganz ähnlich wie die Autovervollständigung im Handy. Nur dass die KI millionenfach mehr Rechenpower hat.

Aber auch für ellenlange Formeln gilt: Sie müssten eigentlich morgens, nachmittags und in zehn Jahren das gleiche Ergebnis liefern, wenn man die gleichen Werte einsetzt.

Wir halten also fest: KI-Systeme erzeugen Sätze, indem sie Wahrscheinlichkeiten für nächste Wörter errechnen und die wahrscheinlichsten Wörter aneinanderreihen.

Aber jetzt kommt das Verblüffende:

Auf die dreimal nacheinander (jeweils in einem neuen Chat) gestellte Anfrage:

«Entwickle eine Headline für ein Plakat, das eine homöopathische Creme gegen Hühneraugen bewirbt.»

erhielt ich nacheinander diese drei Vorschläge:

  • Sanft statt schneiden – die homöopathische Hilfe bei Hühneraugen.
  • Sanft gegen Hühneraugen – natürlich wirksam mit Homöopathie.
  • Sanft statt schmerzhaft – die natürliche Hilfe gegen Hühneraugen.

Wie kann das angehen, wenn jedes Mal die gleiche Formel ausgerechnet wurde?

Früher habe ich das immer mit der Temperatur erklärt. Die Temperatur ist ein Verfahren, das Vielfalt in KI-Ergebnisse bringt. Und das funktioniert so:

Die Temperatur bei KI-Modellen

Bei manchen Modellen kann man festlegen, mit welcher «Temperatur» sie arbeiten sollen. Je höher die Temperatur, desto mehr Abwechslung (und gelegentlich Chaos).

Sie schreiben einen Text über einen Spaziergang im Wald. «Buche», «Eiche» und «Ahorn» sind laut KI mit einer Wahrscheinlichkeit von 20 %, 18 % und 16 % als nächstes Wort geeignet.

Bei Temperatur 0 nimmt die KI das wahrscheinlichste Wort, in diesem Fall «Buche». Bei steigender Temperatur wird das Wort aus den besten Kandidaten ausgelost.

Beispiel: «Buche» kommt 20-mal in einen Beutel, «Eiche» 18-mal und «Ahorn» 16-mal. Jetzt wird gut geschüttelt und ein Gewinnerzettel aus dem Beutel gezogen. Das kann «Buche» sein, aber auch «Eiche» oder «Ahorn». Alle drei Wörter sind ja fast gleich oft im Beutel.

Bei niedriger Temperatur kommen nur wenige Wörter in den Beutel. Bei hoher Temperatur mehr. «Hundekacke» hat vielleicht nur 3 % Wahrscheinlichkeit. Bei hoher Temperatur landet selbst dieses Wort im Beutel.

Und weil die folgenden Wörter auch wieder per Los ausgewählt werden, driften die Ergebnisse immer weiter auseinander.

Das Lotterieverfahren kommt aber nur zum Einsatz, wenn die Temperatur höher als 0 ist. Bei Temperatur 0 müsste eigentlich immer das gleiche Ergebnis aus der KI-Statistikformel herauskommen.

Das hatte ich bislang jedenfalls geglaubt. Es stimmt auch beinahe. Aber eben nicht ganz, wie ich vergangene Woche durch einen Blogartikel gelernt habe. Selbst bei Temperatur 0 liefern KI-Modelle nicht immer das gleiche Ergebnis – und das, obwohl sie nur aus Mathematik bestehen.

Die Hardware mischt sich ein

Dieses bessere Verständnis verdanke ich einem Blogartikel der Firma Thinking Machines Lab. Das ist die Firma von Mira Murati, die früher bei OpenAI (denen ChatGPT gehört) Technikchefin war und dann ihre eigene KI-Firma gründete.

Ihr Team fand heraus: Die technische Beschaffenheit der Computer, vor allem der Grafikkarten, ist für einen grossen Teil der Unvorhersehbarkeit verantwortlich. Schauen wir uns das mal Schritt für Schritt an.

KI-Modelle bestehen aus Milliarden miteinander verknüpften Berechnungen. Sie können sich das vorstellen wie eine riesige Excel-Tabelle: Jede Zelle bekommt aus ihrer Umgebung einen Input-Wert, wendet darauf eine Formel an und gibt ihr Ergebnis an benachbarte Zellen weiter. Wir müssen die Formel gar nicht im Detail verstehen. Wichtig ist nur: Die Zahlen, mit denen die KI rechnet, werden als sogenannte Fliesskommazahlen gespeichert – zum Beispiel im Format Float32. Das heisst: Jede Zahl belegt 32 Bit Speicherplatz und kann im Durchschnitt rund 7 Ziffern Genauigkeit darstellen. Ob diese Ziffern vor oder nach dem Komma stehen, spielt keine Rolle – insgesamt sind es etwa sieben verlässliche Stellen. Wenn also ein Ergebnis vorne schon gross ist, bleibt für die Nachkommastellen kein Platz mehr. Sie fallen unter den Tisch. Eine Zahl wie 0,47365 kann das System noch fein von 0,47366 unterscheiden, doch bei einer grossen Zahl wie 734'000'000 erkennt es nur noch Unterschiede im Bereich von etwa Tausendern.

Die FLiesskommaarithmetik hat den Effekt, dass grosse Zahlen bei der Rundung um Tausende oder Millionen vom exakten Wert abweichen können und sehr kleine Zahlen nur eine Winzigkeit. Das ist beabsichtigt: Wenn wir das Gewicht des Mondes berechnen, kommt es auf ein paar hundert Tonnen nicht an. Aber wenn wir einen Diamanten wiegen, wollen wir es auf ein tausendstel Gramm genau wissen. Beides schaffen Fliesskommazahlen. Mit ihren 7 Ziffern Genauigkeit liefern sie normalerweise in allen Lebenslagen, trotz Rundung der überzähligen Stellen, brauchbare Ergebnisse. Schwierig wird es nur, wenn sehr grosse und sehr kleine Fliesskommazahlen in der gleichen Berechnung vorkommen. Das erkläre ich später noch am Lagerhallen-Beispiel.

Ein KI-System führt für jedes einzelne Wort eines Textes abermilliarden Berechnungen mit Fliesskommazahlen durch. Die vielen Rundungsfehler können sich kumulieren und das Ergebnis verändern. Das erklärt aber immer noch nicht, warum sich die Ergebnisse der KI-Systeme bei Temperatur 0 voneinander unterscheiden. Denn diese Rundungsfehler müssten ja jedes Mal gleich ausfallen.

Um das zu verstehen, brauchen wir zwei Analogien: das Paketauto und die Lagerhalle.

Die Grafikkarte als Paketauto

Moderne Grafikkarten verarbeiten Rechenoperationen nicht immer in der gleichen Reihenfolge, sondern so, wie es am schnellsten geht.

Stellen Sie sich ein Paketauto vor, das mit Paketen beladen wird. Ein zusätzliches landet dort, wo gerade Platz ist. Mal wird es vorne abgelegt, mal hinten hineingeschoben, mal zwischen zwei andere Kisten geklemmt. So oder so sind alle Pakete im Auto. Aber wenn der Chauffeur die Pakete in der Reihenfolge ausliefern würde, in der sie im Auto liegen, wirkt sich die Packordnung auf seine Route aus – und letztlich darauf, ob Beat Künzi sein neues Bügeleisen um 14:00 oder erst um 16:00 bekommt.

So ähnlich sortiert auch die Grafikkarte ihre Rechenoperationen: Je nach Auslastung und freien Kapazitäten werden bestimmte Teilberechnungen mal früher und mal später durchgeführt und daraus dann am Schluss das Endergebnis zusammengesetzt.

So weit, so gut. Jetzt brauchen wir die Lagerhalle.

Die Grafikkarte und die Lagerhalle

Stellen Sie sich ein Lager vor, in dem die Zu- und Abgänge mit ihrem Gewicht erfasst werden, sodass man immer genau weiss, wie viel Gewicht sich aktuell im Lager befindet. Die Waage, die dafür verwendet wird, hat eine 7-stellige Anzeige. Sie kann sehr leichte Dinge auf ein Tausendstel Milligramm genau wiegen, sehr schwere Dinge aber nur noch auf fünf Kilogramm genau.

In diesem Lager ist am Donnerstagabend der Bestand 0. Und am Freitag gibt es drei Lieferungen:

  • 07:00 Uhr: Ein Lieferant bringt ein Sandkorn – Gewicht: 0,004 Gramm. Die Waage erfasst: 0,004 g.
  • 11:00 Uhr: Ein anderer bringt einen Betonwürfel mit drei Metern Kantenlänge – Gewicht: 65'000 Kilogramm. In der Buchhaltung steht also: 65'000 kg plus das eine Sandkorn.
  • 15:00 Uhr: Der Betonwürfel wird wieder abgeholt. Die Waage misst einen Abgang von 65'000 kg.

Am Freitagabend ist laut Buchhaltung der Lagerbestand 0,004 g – das eine Sandkorn von 7 Uhr morgens.

Am Wochenende wird das Lager gründlich ausgefegt, das Sandkorn nach draussen befördert und die Buchhaltung auf 0 g korrigiert.

Am Montag folgen zwei neue Lieferungen:

  • 09:00 Uhr: Ein Betonwürfel wird angeliefert, auf dem zufällig noch ein zusätzliches Sandkorn liegt. Weil die Waage das nicht so genau messen kann, werden die 0,004 g zusätzliches Gewicht gar nicht erfasst. In der Buchhaltung steht nur: 65'000 kg.
  • 14:00 Uhr: Der Betonwürfel wird wieder abgeholt. Beim Aufladen rollt das Sandkorn vom Betonblock und bleibt im Lagerraum liegen. Die Waage registriert den Unterschied nicht. Also vermerkt die Buchhaltung: -65'000 kg.

Am Ende steht in der Lagerbuchhaltung also: 0 g. In Wirklichkeit liegt aber ein Sandkorn im Lager. Genau wie am Freitag davor.

Der gleiche Effekt passiert auch in der Fliesskommaarithmetik. Wenn sehr kleine Werte isoliert auftreten, können sie verarbeitet werden. Aber wenn sie sich an sehr grosse Werte anhängen, verschwinden sie in der Rundung. Und weil die Grafikkarte die Teilrechnungen nicht immer in der gleichen Reihenfolge durchführt (Paketauto) kommt es zu unterschiedlichen Rundungsfolgen.

Muratis Team testete das eindrücklich: Dasselbe Modell musste bei Temperatur 0 tausendmal denselben Text schreiben. Das Ergebnis: 80 verschiedene Varianten. Die ersten 102 Wörter waren immer identisch, dann drifteten die Geschichten auseinander. Rein rechnerisch hätten alle 1000 Texte gleich sein müssen.

Warum das wichtig ist

Diese Einsicht hat Folgen:

  • Zuverlässigkeit. Wenn wir die Hardware-Effekte besser verstehen und ihren Einfluss managen, können wir KI-Modelle zuverlässiger machen. Dann lassen sie sich auch in sensiblen Bereichen einsetzen, wo es auf exakte Reproduzierbarkeit von Ergebnissen ankommt.
  • Training. Damit eine KI zuverlässig wird, muss sie in der Trainingsphase stabile Bedingungen haben. Stellen Sie sich vor, Sie wollten Tennis lernen, aber während der Trainings verschieben sich die Feldbegrenzungslinien und das Netz wird mal hochgezogen und mal heruntergedrückt. Unter solchen Bedingungen lernen Sie kein gutes Spiel.
  • Technische Gegenmassnahmen. Das Problem der Rundungsfehler entsteht vor allem, weil kleine Werte manchmal allein und manchmal zusammen mit sehr grossen Werten verrechnet werden und dann in der Rundung untergehen (wie das Sandkorn in der Lagerhalle). Das lässt sich aber steuern: Wenn man die Reihenfolge der Berechnungen streng reglementiert, verschwinden die meisten Variationen. Die Modelle werden zwar spürbar langsamer (weil sie nicht mehr so effizient die Lücken füllen dürfen), aber dafür zuverlässiger.

Die Verschiedenheit der Ergebnisse meines Eingangsbeispiels ist aber sicher auf die Temperatur zurückzuführen. Denn bei so kurzen Texten würden sich die Fehler noch nicht so weit aufsummieren, dass drei verschiedene Headlines entstehen. Also war meine Antwort «Das kommt von der Temperatur», die ich in so vielen Seminaren im Brustton der Überzeugung vorgetragen habe, im Grunde doch richtig.

Die Sache mit dem Paketauto, der Lagerhalle und dem Sandkorn ist für die meisten von uns reines Luxuswissen. Ich fand es spannend, dem nachzugehen. Sie hoffentlich auch.

Zu guter Letzt: Helfen Sie uns und teilen Sie diesen Artikel in den sozialen Medien oder per E-Mail. Wir haben kaum Budget für Werbung und sind auf Empfehlungen angewiesen.

Danke.

Das wars für heute.

wiemeyer matthias rund

Herzliche Grüsse
Matthias Wiemeyer

Matthias Wiemeyer