← Übersicht
Stufe 5 ~15 Minuten Bogen 1 · Abschluss

Dieselbe Idee — nur größer

Das Tier-Netz hatte fünf Eingaben. Aber was, wenn die Eingabe ein Bild ist? Dann ist jeder einzelne Bildpunkt eine Eingabe. Zeichne eine Ziffer — und ein Netz, das genauso aufgebaut ist wie deins, erkennt sie.

Ein kleines Schwarz-Weiß-Bild einer Ziffer ist 28 × 28 Pixel groß. Jeder Pixel hat eine Helligkeit zwischen 0 (weiß) und 1 (schwarz). Das sind 28 · 28 = 784 Zahlen — und genau die wandern als 784 Eingaben in die erste Schicht. Sonst ändert sich nichts: gewichtete Summen, eine Zwischenschicht, am Ende Ausgaben pro Klasse. Statt vier Tiergruppen sind es jetzt zehn Ziffern (0–9).

Deine Zeichnung Was das Netz sieht

28 × 28 = 784 Helligkeitswerte. Deine Zeichnung wird zugeschnitten, verkleinert und mittig gesetzt — so wie alle Trainingsbilder.

Tipp: Zeichne die Ziffer groß und mittig. Das Netz wurde mit echten handgeschriebenen Ziffern trainiert.
Das Netz tippt auf Zeichne eine Ziffer
00%
10%
20%
30%
40%
50%
60%
70%
80%
90%

Der Tipp aktualisiert sich live, während du malst. Dieses Netz ist klein (für MNIST-Verhältnisse) und macht durchaus Fehler — liegt es daneben, schau auf die zweithöchste Vermutung.

So ist dieses Netz aufgebaut

Links liegt jeder der 784 Pixel als eigener Eingang — deshalb das ganze Gitter. Bis zur Antwort sind das über 50 000 Gewichte, alle aus 60 000 Trainingsbildern gelernt, genau mit dem Verfahren aus Stufe 4. Es ist exakt dieselbe Maschine wie das Tier-Netz — nur viel größer.

Probiere ruhig krakelige oder schiefe Ziffern. Manchmal liegt das Netz daneben — schau dann nach rechts: Oft ist die zweithöchste Ziffer die, die du gemeint hast. Das Netz rät nicht, es wägt ab, genau wie das Tier-Netz.

Geschafft — Bogen 1 zusammengefasst

Du bist einen weiten Weg gegangen: vom einzelnen Neuron, das eine gewichtete Summe bildet, über ein kleines Netz aus Schichten, das von selbst lernt, bis zu einem Netz, das handgeschriebene Ziffern erkennt. Der Sprung von 5 auf 784 Eingaben hat nichts Grundlegendes verändert — nur die Größe. Genau so funktionieren auch die riesigen Netze dahinter.

Und als Nächstes? Bisher waren die Eingaben Zahlen und Pixel. Aber wie bekommt ein Netz Sprache hinein — Wörter, Sätze, Bedeutung? Das ist der zweite Bogen: von der Ziffer zur Sprach-KI.