Wörter, die aufeinander achten
Bei Bildern war jede Eingabe ein Pixel. Bei Sprache ist jede Eingabe ein Wort — aber ein Wort allein sagt wenig. Seine Bedeutung hängt von den anderen Wörtern ab. Genau das löst ein neues Prinzip: Attention.
Zuerst werden Wörter zu Zahlen — jedes Wort bekommt eine Liste von Werten, mit der das Netz rechnen kann. Schickt man diese Wörter aber einfach nacheinander durch ein Netz wie bisher, betrachtet es jedes Wort für sich. Das reicht für Sprache nicht. Nimm den Satz „Das Buch passt nicht in das Regal, weil es zu groß ist." — worauf bezieht sich es, auf das Buch oder das Regal? Grammatisch wäre beides möglich. Erst das Wort groß verrät: Das Buch ist gemeint. Tausche groß gegen klein, und plötzlich ist das Regal zu klein.
Die Idee der Attention ist verblüffend einfach: Jedes Wort schaut auf alle anderen Wörter und entscheidet, welche für seine Bedeutung wichtig sind. Probier es aus — klicke unten ein Wort an und sieh, worauf es achtet.
Für Neugierige: die ganze Aufmerksamkeits-Tabelle
Jede Zeile ist ein Wort, das schaut; jede Spalte ein Wort, auf das geschaut wird. Je blauer die Zelle, desto mehr Aufmerksamkeit. Klicke auf ein Wort am Zeilenanfang, um es oben im Satz auszuwählen.
Zur Einordnung: nur ein Ausschnitt
Diese Werte sind vereinfacht, damit das Prinzip klar wird. Ein echtes Sprachmodell hat viele solcher Aufmerksamkeits-„Köpfe" gleichzeitig, in dutzenden Schichten übereinander — der eine schaut auf Bezüge wie „es → Buch", ein anderer auf Grammatik, wieder ein anderer auf das Thema. Du hast hier den Kern gesehen, nicht die ganze Maschine.
Attention ist der Trick, der moderne Sprachmodelle möglich gemacht hat (das „T" in GPT steht für Transformer — das Netz, das auf diesem Prinzip aufbaut). Aber Aufmerksamkeit allein schreibt noch keinen Text. Wie aus „worauf achte ich" tatsächlich Wort für Wort ein Satz entsteht, ist die nächste Stufe.