Gleiche Frage und trotzdem anders?

Manchmal klingt KI-Diskussion nach „zu technisch“. Dabei geht es oft um sehr alltagstaugliche Fragen. Zum Beispiel darum, warum eine KI bei gleicher Eingabe nicht immer die gleiche Antwort gibt. Genau dieses Phänomen nennt sich Nondeterminismus. Und nein: Du musst dafür kein Matheprofi sein. Es reicht zu verstehen, woher die Unterschiede kommen, warum sie in der Praxis relevant sind und wie man sie in kritischen Anwendungen in den Griff bekommt.

Stell dir eine KI‑gestützte Steuerplattform vor. Du stellst dieselbe Frage zur Kontierung eines Vorgangs. Einmal wird die Ausgabe als Betriebsausgabe verbucht, ein anderes Mal als Abschreibung – obwohl du nichts verändert hast und die „Temperatur“ (der Kreativitätsregler) auf 0 steht. In regulierten Bereichen wie Steuern, Medizin, Recht oder Finanzen ist das mehr als lästig: Tests werden unzuverlässig, Auswertungen schwanken, Nutzervertrauen leidet.

Genau hier setzt ein erstes öffentliches Technik‑Paper des neuen Labs Thinking Machines an (gegründet von Mira Murati, Ex‑CTO von OpenAI; die spektakuläre Frühbewertung hast du vielleicht in den Medien gesehen). Die Autor:innen räumen mit einer verbreiteten Annahme auf: Temperatur 0 bedeute automatisch identische Antworten. Ihr Gegenbeweis ist simpel und eindrucksvoll: 1.000 mal dieselbe Anfrage, Temperatur 0 und trotzdem 80 verschiedene vollständige Antworten. Der Clou: Die Ursache liegt nicht (nur) im Training, nicht in mehrdeutigen Daten und auch nicht bloß in Server‑„Gleichzeitigkeiten“. Sie entsteht während der Ausführung – also genau dann, wenn das bereits trainierte Modell deine Anfrage beantwortet.

Warum gibt es unterschiedliche Antworten?

Der wichtigste Baustein ist Gleitkomma‑Arithmetik, das Rechnen mit begrenzter Genauigkeit, wie es Chips und GPUs nun mal tun. Dabei gilt: In der Praxis macht es einen Unterschied, in welcher Reihenfolge Zahlen zusammenaddiert werden.

Eine alltagstaugliche Analogie ist Runden auf Cent. Stell dir vor, dein System darf nach jedem Schritt nur auf zwei Nachkommastellen runden. Wenn du 0,004 € zu 1000,00 € addierst, bleibt es bei 1000,00 €, weil 0,004 € auf 0,00 € gerundet wird. Machst du das zweimal hintereinander, bleibst du bei 1000,00 €. Fasst du die beiden Kleinstbeträge aber vorher zusammen (0,004 € + 0,004 € = 0,008 €) und rundest dann, wird daraus 0,01 € und am Ende stehen 1000,01 €. Gleiche Zahlen, andere Gruppierung, anderes Ergebnis. Genau so verhalten sich Gleitkomma‑Operationen auf Chips, nur eben mit zig Nachkommastellen und viel, viel schneller.

Warum spielt das bei KI‑Antworten hinein?

Weil moderne Modelle bei jeder Wortwahl eine Wahrscheinlichkeitsverteilung ausrechnen und dann das „beste“ nächste Wort nehmen. Liegen zwei Kandidaten extrem dicht beieinander, können diese winzigen Rundungsunterschiede gerade die Reihenfolge kippen: Einmal liegt „Queens, New York“ hauchdünn vorn, einmal „New York City“. Ab diesem Punkt nimmt der Text einen anderen Verlauf und aus einer kleinen Abweichung wird über viele Wörter eine sichtbare andere Antwort.

Der zweite Baustein ist Batch‑Verarbeitung.

Um schnell zu sein, fasst der Server viele Anfragen zu Paketen (Batches) zusammen. Welche Anfrage mit welchen „Nachbaranfragen“ gemeinsam verarbeitet wird, hängt von der aktuellen Auslastung ab. Mal landet deine Anfrage in einem Fünfer‑Batch, mal in einem Fünfziger‑Batch. Und genau das ändert intern die Reihenfolge mancher Rechenschritte. Je nach Batchgröße nutzen GPUs sogar unterschiedliche, besonders schnelle Abkürzungen (Kernel‑Optimierungen). In Summe heißt das: Andere Batch‑Nachbarn → andere Rechenreihenfolge → minimal andere Zahlen → potenziell andere Antwort, selbst bei Temperatur 0.

Warum ist das wichtig?

Erstens für Tests & Integration: Wenn ein System bei identischem Input mal so, mal so antwortet, sind Ende‑zu‑Ende‑Tests schwer verlässlich. Zweitens für Evaluation & Tuning: Wer Qualität, Geschwindigkeit und Kosten sauber vergleichen will, braucht reproduzierbare Messungen, sonst optimierst du gegen Rauschen. Drittens für Reinforcement Learning (RL): Viele moderne KI‑Systeme verbessern sich per Feedback. Dafür muss das System möglichst konstant reagieren, sonst lernt es ungewollt von Verhalten, das es so gar nicht stabil zeigt. Und viertens für den Produktivbetrieb in regulierten Umfeldern: Gleiche Fälle sollten gleich behandelt werden, sonst sind Audits, Nachvollziehbarkeit und Vertrauen schnell dahin.

Was schlägt Thinking Machines vor?

Eine technische, aber gut erklärbare Idee: „Batch‑invariante Kernels“. Vereinfacht gesagt werden die Rechenoperationen so umgeschrieben, dass das Ergebnis für eine bestimmte Eingabe immer gleich ist – unabhängig davon, mit welchen anderen Anfragen sie zusammen verarbeitet wird. Damit entfällt die „Zufallswirkung“ des Batchings auf die Rechenreihenfolge. Der Preis dafür: Performance. Determinismus kostet derzeit spürbar Durchsatz und Rechenzeit. Für viele Teams dürfte sich das in kritischen Pfaden trotzdem lohnen, weil sauberes Testen, verlässliche Auswertungen und stabileres RL den Mehraufwand mehr als ausgleichen können.

Was folgt daraus für die Praxis?

Zunächst: Trenne zwei Betriebsarten bewusst. Für kreative Aufgaben (Ideen, Texte, Varianten) ist etwas Varianz oft sogar wünschenswert, dort darf die KI gern „atmen“. Für kritische Aufgaben (Kontierung, medizinische Hinweise, rechtliche Bewertung, Compliance‑Texte) braucht es dagegen so viel Determinismus wie möglich. In der Architektur bedeutet das: einen „Determinismus‑Modus“ für Pflichtpfade vorsehen, Anbieter gezielt fragen, ob sie batch‑invariante Inferenz oder gleichwertige Garantien bieten, und messbar machen, wie viel Performance dieser Modus kostet. Dazu gehören saubere Protokolle (Modellversion, Einstellungen, Datenstand, Seeds), Gold‑Prompts mit erwarteten Ausgaben, Lasttests mit wechselnden Batchgrößen und Canary‑Checks in der Pipeline, die bei Abweichungen früh alarmieren.

Spannend ist auch der Blick nach vorn: Neben der Wahl zwischen Reasoning‑Modellen und „normalen“ Modellen oder zwischen großen und kleinen Varianten könnte eine neue Auswahlachse entstehen – deterministisch für Tests, Evaluation, RL‑Training und regulierte Anwendungen, probabilistisch für alles, wo Vielfalt hilft. Die Temperatur würde dann vor allem die Kreativität innerhalb des gewählten Modus steuern, nicht die Grundfrage „stabil vs. variabel“.

Und was ist mit uns Menschen?

Auch Expert:innen sind nicht immer gleich: Frag drei Steuerberater:innen – du bekommst oft drei Nuancen. Das ist normal. Aber Standardprozesse sollten konsequent sein. Eine Plattform, die bei identischer Eingabe täglich ihre „Meinung“ ändert, wird niemand langfristig vertrauen. Genau deshalb ist Determinismus kein Nice‑to‑have, sondern ein Must‑have überall dort, wo es auf Nachvollziehbarkeit, Fairness und Wiederholbarkeit ankommt. Die gute Nachricht: Das Problem ist lösbar – heute schon, mit bewusster Architektur und den richtigen Fragen an die Anbieter. Für kreative Arbeit behalten wir die gewünschte Varianz. Für kritische Pfade holen wir uns echte Reproduzierbarkeit. So nutzen wir das Beste aus beiden Welten.

Leave a Reply