Luxuswissen: Warum ChatGPT Ihnen nie die gleiche Antwort zweimal gibt

In meinen KI-Seminaren geben manchmal alle Teilnehmer:innen den gleichen Prompt bei ChatGPT ein. Und dann wundern sie sich, warum jede:r ein etwas anderes Ergebnis bekommt.

Das klären wir heute auf.

Fragen? Anrufen.

Dabei lernen Sie etwas über die grundlegende Technik hinter der KI und wie sich die Funktionsweise moderner Grafikkarten in die eigentlich konstant vorgegebene Mathematik einmischt. Das ist Luxuswissen für Leute, die hinter die Kulissen der KI-Systeme schauen und etwas von der Wissenschaft dahinter verstehen möchten. Wenn das gut ankommt (bitte melden), schreibe ich mehr über diese Themen.

Mathematik ist deterministisch

Rechnen Sie mal schnell 3 mal 3.

Das Ergebnis? 9. Egal ob Sie es heute Morgen unter der Dusche rechnen, morgen Nachmittag im Garten oder in zehn Jahren, während Sie Ihr Enkelkind mit Apfelmus füttern. 3 mal 3 ist 9. An guten und an schlechten Tagen, bei Regen und Sonnenschein.

Oder wissenschaftlich ausgedrückt:

Mathematik ist deterministisch.

KI-Systeme bestehen aus Mathematik. Im Grunde sind sie eine ellenlange Formel (die aufgeschrieben ein paar hundert Mal um den Globus gewickelt werden könnte).

Die Formel errechnet Wahrscheinlichkeiten für plausible nächste Wörter; ganz ähnlich wie die Autovervollständigung im Handy. Nur dass die KI die Vorschläge selbst annimmt und millionenfach mehr Rechenpower hat.

Aber auch für ellenlange Formeln gilt: Sie müssten eigentlich morgens, nachmittags und in 10 Jahren das gleiche Ergebnis liefern, wenn man die gleichen Werte einsetzt.

Wir halten also fest: KI-Systeme erzeugen Sätze, indem sie Wahrscheinlichkeiten für nächste Wörter errechnen und die wahrscheinlichsten Wörter aneinanderreihen.

Aber jetzt kommt das Verblüffende:

Auf die dreimal nacheinander (jeweils in einem neuen Chat) gestellte Anfrage:

“Entwickle eine Headline für ein Plakat, das Familien mit Kindern animieren soll, in den Herbstferien einen Besuch im Zoo Basel einzuplanen.”

erhielt ich nacheinander diese drei Vorschläge:

Herbstferien? Ab in den Zoo Basel – Tiere erleben, Abenteuer entdecken!
«Ferienabenteuer im Zoo Basel – entdecken, staunen Herbstferien erleben!»
Herbstferien im Zoo Basel – ein Abenteuer für die ganze Familie!

Wie kann das angehen, wenn jedes Mal die gleiche Formel ausgerechnet wurde?

Früher habe ich das immer mit der Temperatur erklärt. Die Temperatur ist ein Verfahren, das absichtlich Vielfalt in die Ergebnisse bringt. Und das funktioniert so:

Die Temperatur bei KI-Modellen

Bei manchen Modellen kann man festlegen, mit welcher “Temperatur” sie arbeiten sollen. Je höher die Temperatur, desto mehr Vielfalt kommt in die Ergebnisse.

Sie schreiben einen Text über einen Spaziergang im Wald. “Buche”, “Eiche” und “Ahorn” sind laut KI mit einer Wahrscheinlichkeit von 20 %, 18 % und 16 % als nächstes Wort geeignet.

Bei Temperatur “0” nimmt die KI das wahrscheinlichste Wort, in diesem Fall “Buche”. Bei steigender Temperatur wird das Wort aus den besten Kandidaten ausgelost.

Beispiel: “Buche” kommt 20-mal in einen Beutel, “Eiche” 18-mal und “Ahorn” 16-mal. Jetzt wird gut geschüttelt und ein Gewinnerzettel aus dem Beutel gezogen. Das kann “Buche” sein, aber auch “Eiche” oder “Ahorn”. Alle drei Wörter sind ja fast gleich oft im Beutel.

Bei niedriger Temperatur kommen nur wenige Wörter in den Beutel. Bei hoher Temperatur mehr. “Hundekacke” hat vielleicht nur 3 % Wahrscheinlichkeit. Bei hoher Temperatur landet selbst dieses Wort im Beutel.

Und weil die folgenden Wörter auch wieder per Los ausgewählt werden, driften die Ergebnisse immer weiter auseinander.

Das Lotterieverfahren kommt aber nur zum Einsatz, wenn die Temperatur höher als 0 ist. Bei Temperatur 0 müsste eigentlich immer das gleiche Ergebnis aus der KI-Statistikformel herauskommen.

Das hatte ich bislang jedenfalls geglaubt und habe in meinen Seminaren behauptet, die Temperatur sei die Quelle der Unterschiede.

Das stimmt auch beinahe. Aber eben nicht ganz, wie ich gestern durch einen Blogartikel gelernt habe. Selbst bei Temperatur 0 liefern KI-Modelle nicht immer das gleiche Ergebnis. Und das, obwohl sie nur aus Mathematik bestehen.

Die Hardware mischt sich ein

Dieses bessere Verständnis verdanke ich einem Blogartikel der Firma Thinking Machines Lab. Das ist die Firma von Mira Murati, die früher bei OpenAI (denen ChatGPT gehört) Technikchefin war und dann ihre eigene KI-Firma gründete.

Ihr Team fand heraus: Die technische Beschaffenheit der Computer, vor allem der Grafikkarten, ist für einen grossen Teil der Unvorhersehbarkeit verantwortlich.

KI-Modelle bestehen aus Milliarden miteinander verketteten Berechnungen. Sie können sich das vorstellen wie eine riesige Excel-Tabelle: Jede Zelle bekommt aus ihrer Umgebung einen Input-Wert, wendet dann eine Formel darauf an und reicht ihr Ergebnis an benachbarte Zellen weiter. Wir müssen die Formel gar nicht im Detail verstehen. Wichtig ist nur: Die Variablen in der Formel werden als sogenannte Fliesskommazahlen gespeichert, zum Beispiel im Format Float32. Das bedeutet: Die Zahl darf in digitaler Darstellung maximal 32 Bit lang sein. Für Alltagsrechner heisst das: Sie hat ungefähr 7 Dezimalstellen – mehr geht nicht. Wenn also bei einer Berechnung ein Ergebnis mit 25 Dezimalstellen herauskäme, muss man runden.

Jede einzelne Rundung hat nur einen winzigen Effekt. Aber da bei der Erzeugung eines einzigen Wortes Abermilliarden solcher Rechnungen passieren, summieren sich diese Abweichungen und können das Ergebnis verändern.

Das erklärt aber immer noch nicht, warum sich die Ergebnisse der KI-Systeme bei Temperatur 0 voneinander unterscheiden. Denn diese Rundungsfehler müssten ja jedes Mal gleich ausfallen.

Um das zu verstehen brauchen wir zwei Analogien: Das Paketauto und die Lagerhalle

Die Grafikkarte als Paketauto

Moderne Grafikkarten verarbeiten Rechenoperationen nicht immer in der gleichen Reihenfolge, sondern so, wie es am schnellsten geht.

Stellen Sie sich ein Postauto vor, das mit Paketen beladen wird. Ein zusätzliches landet dort, wo gerade Platz ist. Mal wird es vorne abgelegt, mal hinten hineingeschoben, mal zwischen zwei andere Kisten geklemmt. So oder so sind alle Pakete im Auto. Aber wenn der Chauffeur die Pakete in der Reihenfolge ausliefern würde, in der sie im Auto liegen, wirkt sich die Packordnung auf seine Route aus und letztlich darauf, ob Beat Kuenzi sein neues Bügeleisen um 14:00 oder erst um 16:00 bekommt.

So ähnlich sortiert auch die Grafikkarte ihre Rechenoperationen: Je nach Auslastung und freien Kapazitäten werden bestimmte Teilberechnungen mal früher und mal später durchgeführt und daraus dann am Schluss das Endergebnis zusammengesetzt.

So weit so gut. Jetzt brauchen wir die Lagerhalle

Die Grafikkarte und die Lagerhalle

Stellen Sie sich ein Lager vor, in dem die Zu- und Abgänge mit ihrem Gewicht erfasst werden, sodass man immer genau weiss, wie viel Gewicht sich aktuell im Lager befindet. Die Waage, die dafür verwendet wird, kann sehr leichte Dinge auf ein Tausendstel Milligramm genau wiegen, sehr schwere Dinge aber nur noch auf fünf Kilogramm genau.

In diesem Lager ist am Donnerstagabend der Bestand null. Und am Freitag gibt es drei Lieferungen:

07:00 Uhr: Ein Lieferant bringt ein Sandkorn – Gewicht: 0,004 Gramm. Die Waage erfasst: 0,004 g.
11:00 Uhr: Ein anderer bringt einen Betonwürfel mit drei Metern Kantenlänge – Gewicht: 64.999 Kilogramm. In diesem Bereich zeigt die Waage nur noch auf 5 kg genau an. In der Buchhaltung steht also: 65.000 kg plus das eine Sandkorn.
15:00 Uhr: Der Betonwürfel wird wieder abgeholt. Die Waage misst einen Abgang von 65.000 kg.

Am Freitagabend ist laut Buchhaltung der Lagerbestand 0,004 g – das eine Sandkorn von 7 Uhr morgens.

Am Wochenende wird das Lager gründlich ausgefegt, das Sandkorn nach draussen befördert, und die Buchhaltung auf 0 g korrigiert.

Am Montag folgen zwei neue Lieferungen:

09:00 Uhr: Ein Betonwürfel wird angeliefert, auf dem zufällig noch ein zusätzliches Sandkorn liegt. Weil die Waage das nicht so genau messen kann, werden die 0,004 g zusätzliches Gewicht gar nicht erfasst. In der Buchhaltung steht nur: 65 000 kg.
14:00 Uhr: Der Betonwürfel wird wieder abgeholt. Beim Aufladen rollt das Sandkorn vom Betonblock und bleibt im Lagerraum liegen. Die Waage registriert den Unterschied nicht. Also vermerkt die Buchhaltung: minus 65 000 kg.

Am Ende steht in der Lagerbuchhaltung also: 0 g. In Wirklichkeit liegt aber ein Sandkorn im Lager. Genau wie am Freitag davor.

Der gleiche Effekt passiert auch in der Fliesskommaarithmetik. Wenn sehr kleine Werte isoliert auftreten, können sie verarbeitet werden. Aber wenn sie sich an sehr grosse Werte anhängen, verschwinden sie in der Rundung.

Muratis Team testete das eindrücklich: Dasselbe Modell musste bei Temperatur 0 tausendmal denselben Text schreiben. Das Ergebnis: 80 verschiedene Varianten. Die ersten 102 Wörter waren immer identisch, dann drifteten die Geschichten auseinander. Rein rechnerisch hätten alle 1000 Texte gleich sein müssen.

Warum das wichtig ist

Diese Einsicht hat Folgen.

Zuverlässigkeit. Wenn wir die Hardware-Effekte besser verstehen und ihren Effekt managen, können wir KI-Modelle zuverlässiger machen. Dann lassen sie sich auch in sensiblen Bereichen einsetzen, wo es auf zuverlässige Reproduzierbarkeit von Ergebnissen ankommt.
Training. Damit eine KI zuverlässig wird, muss sie in der Trainingsphase reproduzierbare Bedingungen haben. Stellen Sie sich vor, Sie wollten Tennis lernen, aber während der Trainings verschieben sich die Feldbegrenzungslinien und das Netz wird mal hochgezogen und mal heruntergedrückt. Unter solchen Bedingungen lernen Sie kein gutes Spiel.
Technische Gegenmassnahmen. Das Problem der Rundungsfehler entsteht vor allem, weil kleine Werte manchmal allein und manchmal zusammen mit sehr grossen Werten verrechnet werden und dann in der Rundung untergehen (wie das Sandkorn in der Lagerhalle). Das kann man aber steuern: Wenn man die Reihenfolge der Berechnungen streng reglementiert, verschwinden die meisten Abweichungen. Die Modelle werden zwar spürbar langsamer (weil sie nicht mehr so effizient die Lücken füllen dürfen), aber dafür verschwinden die meisten Unwägbarkeiten.

Die Verschiedenheit der Ergebnisse meines Eingangsbeispiels mit dem Basler Zoo ist wohl vor allen Dingen auf die Temperatur zurückzuführen. Denn bei so kurzen Texten würden sich nicht drei völlig unterschiedliche Antworten ergeben. Also war meine Antwort «Das kommt von der Temperatur», die ich in so vielen Seminaren im Brustton der Überzeugung vorgetragen habe, im Grunde doch richtig.

Die Sache mit dem Postauto, der Lagerhalle und dem Sandkorn ist für die meisten von uns reines Luxuswissen. Ich fand es spannend, dem nachzugehen. Sie hoffentlich auch.

Zu guter Letzt: Helfen Sie uns und teilen Sie diesen Artikel in den sozialen Medien oder per E-Mail. Wir haben kaum Budget für Werbung und sind auf Empfehlungen angewiesen.

Danke.

Das wars für heute.

wiemeyer matthias rund

Herzliche Grüsse
Matthias Wiemeyer

Matthias Wiemeyer