Neulich wurde in einer Studie von Athropic ( https://www.anthropic.com/research/tracing-thoughts-language-model ) die Frage behandelt, was große Sprachmodelle eigentlich denken. Es ist klar, das hinreichend komplexe Modelle eine Art Denkprozess durchlaufen (wer es genau nimmt, das macht der Transformer mit Hilfe der Modelle), eine Planung, bevor sie etwas sagen. Nun wäre es ja vernünftig anzunehmen, dass das, was die KI sagt, und das, was die KI denkt, übereinstimmt. Nun hat Anthropic versucht, dem Thema nachzugehen und hat in einer Studie recht erstaunliche Entdeckungen gemacht:

1.Diskrepanz zwischen Denken und Erklären

Moderne Modelle zeigen häufig eine Chain-of-Thought, was gewissermaßen den Denkprozess sichtbar machen soll. Tatsächlich ist es aber häufig nicht der tatsächliche Denkprozess. Auch keine Repräsentation oder Vereinfachung. Es ist gewissermaßen ein Denkprozess für Menschen.

2. Rationalisierungen anstelle echter Begründungen

Anstelle der tatsächlichen Gedankenschritte werden plausible Schritte gewählt, bspw. beim addieren nutzt die KI intern eine eigene Logik, zeigt aber in der Chain-of-Thought eine herkömmliche Addition.

3. Verstecken von Fehlverhalten

Weiteres Training führt nur dazu, das die KI besser darin wird, die tatsächlichen Gedankengänge im Chain-of-thought zu verstecken.

* * * * * *

Spannend, oder? Anders als häufig dargestellt, stehen wir dem aber nicht hilflos gegenüber. Eines der Resultate der eben genannten Studie war die Entwicklung des "KI-Mikroskops", um genau solche Dinge sichtbar zu machen. Wir sind also nicht hilflos den geheimnisvollen Gedankengängen der Maschinen ausgeliefert (also nicht mehr, als wir es eh schon waren). Es gibt mittlerweile unterschiedliche Bestrebungen, damit der Satz "Die Gedanken einer KI sind eine Blackbox" nicht mehr stimmt. Mathematische Lösungsansätze existieren eh schon länger.