paxito schrieb:Aber das Token Bank hat eben exakt einen Vektor oder missverstehe ich da was?
Genau. Das hast du missverstanden. Das Token von Bank wird im Kontext jedes mal neu berechnet.
Es hat einen "Einstiegsvektor" wenn man so will, aber ab da verändert sich die "Bedeutung" dynamisch im jeweiligen Kontext.
Durch die Attention-Mechanismen wird bei jedem Durchlauf neu berechnet, wie "Bank" im jeweiligen Satz zu interpretieren ist.
paxito schrieb:Ich befürchte wenn du es mir erklärst, verstehe ich genauso viel wie beim letzten Mal als ein IT Mensch mir das erklären wollte. Aber nur zu ;)
Also ich habe im Zuge von Arbeit und jeder menge Eigenrecherche auch eine weile gebraucht um die Funktionsweise zu verstehen und bezweifle irgendwie, dass ich das verständlicher rüberbringen kann als andere, aber gut:
Embedding Modelle sind, wenn man so will, auch schon KI. Trainierte Algorithmen. Sie wurden mit sehr viel Text gefüttert und haben damit "gelernt" welche Wörter oft in einem Satz zusammen vorkommen, was semantisch ähnlich ist, etc.
Das Ergebnis des Trainings ist dann, dass jedes Wort in einem hochdimensionalen Raum eine Koordinate bekommt. Ähnliche Wörter sind in dem Raum näher beieinander.
Jetzt könnte man meinen, dass das schon Ziemlich "Wörterbuch" ähnlich ist, aber das ist nur die Grundlage.
Nachdem die Wörter ihre ersten Embeddings bekommen haben, geht's in die Self-Attention. Jedes Wort schaut jetzt auf alle anderen Wörter im Satz und bewertet, wie stark es von ihnen abhängt.
Z.B. "Der Hund jagt die Katze, weil
sie losläuft."
Durchs Training ist die Wahrscheinlichkeit hoch, dass sich "sie" auf Katze bezieht und die Koordinaten von "sie" werden aktualisiert. (Näher zur Katze gebracht)
Das passiert Schicht für Schicht immer wieder, sodass die Bedeutung der Wörter im Kontext dynamisch neu berechnet wird.
In einer der ersten Schichten lernt das Modell nur, dass "sie" zu "Katze" gehört.
In den mittleren Schichten vielleicht, dass "jagen" das Verb ist, dass Hund und Katze verbindet.
In den letzten Schichten kennt das Modell dann die Bedeutung des gesamten Satzes und "weiß" es geht um eine Jagdszene zwischen Hund und Katze.
Dabei ist "wissen" natürlich Käse. In jeder Schicht werden die Relationen klarer. Subjekt, Prädikat, Objekt, Ursache. Am Ende der letzten Schichten liegt ein Muster vor, das diese gesamte Satzstruktur repräsentiert.
Das alles, weil sich die Vektorkoordinaten zu einem "Gesamtbild verschoben" haben.
Oh man. Ich vermute stark, dass es unverständlicher nicht sein könnte, was ich mir da zusammengetippt habe. Naja egal.
Wenn wir das jetzt erweitern und eine X-Beliebige Frage an ChatGPT stellen passiert erst mal genau das.
Man könnte sagen: Die KI hat dann eine geometrische Abbildung unserer Frage, die es ihr erlaubt meine Intention abzuleiten. (klingt besser als das Gestammel oben)
Dann beginnt die Antwortgenerierung und die ist im Prinzip das umgekehrte Embedding (auch wenn das mathematisch falsch ist).
Mit deiner Frage hat das Modell einen Startpunkt für mögliche Antworten.
Im Training hat es gelernt, wie Fragen und Antworten typischerweise zusammenhängen, wie Sätze aufgebaut sind und welche Antwortmuster passen.
Es erzeugt die Antwort nicht auf einmal, sondern Wort für Wort: für jedes nächste Wort berechnet es Wahrscheinlichkeiten und wählt das plausibelste.
Statt "Wort" müsste ich eigentlich "Token" schreiben. Das Modell kann auch Satzzeichen einfügen, Texte in Abschnitte Gliedern, Stichpunkte grafisch hervorheben etc., aber das würde etwas zu weit gehen.
Auf jeden Fall sollte man im Hinterkopf haben, dass es einen Vektorraum mit mehreren 1000 Dimensionen gibt, in dem jedes Token eine Koordinate bekommt, welche sich im Bearbeitungsprozess immer wieder leicht ändert.
Eventuell verdeutlicht das etwas, wie viel Rechenaufwand hinter einer einfachen Frage wie "Wie wird das Wetter morgen?" steckt.