Das Ziel von Jargonopolis ist, einen Überblick über Begriffe zu bekommen, kurz
ein Glossar. In anderen Artikeln haben wir uns bereits in die Welt der großen
Sprachmodelle (englisch: Large Language Models, kurz LLMs) gewagt, deshalb wollen
wir auch gleich mit diesem Begriff beginnen.
Allgemein gibt es heute schon viele LLMs. Wir nutzen sie z.B. mit ChatGPT
aber wahrscheinlich ist nicht allen von uns klar, was dort genau hinter den Kulissen passiert.
Ein genauerer Blick wirft eine Vielzahl von Begriffen auf, die ziemlich verwirrend sein können.
Zusammen können wir versuchen, einen nach dem anderen anzugehen. Für diejenigen unter Ihnen,
die nur einen schnellen Überblick möchten, lohnt sich ein Blick ans Ende des Artikels.
Kontext
Am Anfang möchten wir uns anschauen, wo wir LLMs überhaupt verorten können.
LLMs sind Teil des Deep Learning (DL), welches Teil des Machine Learning (ML) ist,
welches wiederum Teil dessen ist, was wir Künstliche Intelligenz (KI) nennen:
Soweit verständlich, aber was bedeuten diese Begriffe?
Künstliche Intelligenz (KI)
Beginnen wir mit der Künstlichen Intelligenz. Künstliche Intelligenz ist ein Forschungsbereich,
der sich entwickelt hat, um menschliche Intelligenz mit etwas Künstlichem,
hauptsächlich Maschinen, nachzuahmen. Wenn Sie “Star Trek: Voyager” kennen, erinnern Sie sich
vielleicht an eine Szene, in der Kes die Intelligenz des Doktors mit der von Menschen vergleicht.
Sie tut dies, um ihn zu ermutigen, selbst einen Namen zu wählen. Ähnlich war die Idee, dass etwas
Künstliches menschliches Verhalten - nämlich Informationen und logisches Denken zu nutzen,
um Probleme zu lösen und sich dadurch zu verbessern - imitieren könnte.
Heute gibt es keine festgelegte Definition von KI, jeder definiert KI ein bisschen
anders. Jedoch ist die grundsätzliche Idee der Vergangenheit in all diesen Definitionen noch präsent.
Mit diesem Hintergrund kann KI in einfachen Worten als Verhalten von etwas Künstlichem beschrieben
werden, das für uns intelligent erscheint. Auch wenn unter der Oberfläche z.B. einfach nur eine
Regel existiert, die vorgibt “Wenn jemand Hallo sagt, dann antworte mit Hallo”,
können wir es KI nennen, wenn es von außen wie intelligentes Verhalten aussieht.
Die Definition von Intelligenz liegt hierbei im Auge des Betrachters ( 1
, 2
, 3
,
4
, 5
).
Maschinelles Lernen (ML)
Es gibt verschiedene Wege, um KI zu erreichen. Einen haben wir bereits in Form
von Regeln kennengelernt. Ein anderer ist maschinelles Lernen (ML). In den Anfangstagen
konzentrierten sich Forschende auf das Lernen. Sie wollten Maschinen ermöglichen,
selbstständig zu lernen, wie man Probleme löst und sich dadurch verbessert.
Um ein Problem zu lösen, muss zunächst ein Problem vorhanden sein, das gelöst werden muss.
Wenn wir ein Problem identifiziert haben, steht als Nächstes die Überlegung an, wie eine
Maschine lernen könnte, dieses Problem zu lösen.
Wenn wir über uns selbst nachdenken, wie wir lernen, so benötigen wir etwas, von oder aus
dem wir lernen können, d.h. Erfahrung. Um Maschinen etwas Ähnliches zu geben, wurden in der
Vergangenheit Daten verwendet, zum Beispiel Bilder von Katzen und Hunden, Mails oder Text aus Büchern.
Um Lernen zu simulieren, wurde versucht, Algorithmen (also mathematische Techniken) einzubinden,
die gut darin sind, Daten zu verarbeiten sowie Muster zu erkennen und Vorhersagen auf Basis
der vorhandenen/historischen Daten zu treffen.
Warum ist es wichtig, dass die Algorithmen Muster erkennen können? Stellen Sie sich vor,
Sie müssten einen Test absolvieren über den Inhalt eines Buches, das Sie nie zuvor gelesen haben.
Jetzt gebe ich Ihnen die Fähigkeit, sich an den Inhalt jeder Seite zu erinnern. Damit könnten Sie mir sagen,
was auf einer bestimmten Seite geschrieben steht, ohne jemals hineingeschaut zu haben. Könnten
Sie den Test jetzt lösen? Ja und nein. “Sag-mir-was-auf-Seite-x-steht”-Fragen wären kein
Problem, aber was ist mit schwierigeren Fragen? Wären Sie in der Lage, diese zu beantworten?
Wahrscheinlich nicht, da Sie die Verbindungen zwischen den Inhalten der Seiten benötigen würden.
Sie müssten zuerst Muster aus den Daten ableiten. Basierend auf den Mustern könnten Sie Vorhersagen
treffen, z.B. was “typische” gute Antworten für die schwierigen Fragen wären. Deshalb sind Muster
wichtig für das Lernen und daher für die Algorithmen.
Zurück zu unseren Algorithmen. Wir haben nun die Algorithmen, die lernen können, aber wie
können die Algorithmen behalten und wiederverwenden, was sie gelernt haben? Sie benötigen ein
Modell, das in einer mathematischen Darstellung die in den Daten entdeckten Muster zusammenfasst.
Modelle lassen sich auch so visualisieren:
Stellen Sie sich ein Modell als eine Vereinfachung eines Phänomens vor, das ein Problem löst.
Das Modell hilft uns, Dinge einfacher, kleiner oder leichter darzustellen und zu verstehen.
Zum Beispiel ist ein Empfehlungssystem in einem Online-Shop ein Modell eines
persönlichen Einkäufers. Das Empfehlungssystem kennt Ihre Vorlieben basierend auf Ihren
früheren Käufen und schlägt Produkte vor, die auf bestimmte Art und Weise zu den bereits
gekauften passen, sei es, weil andere diese Produkte ebenfalls in Kombination gekauft haben
oder weil sich die Produkte gut ergänzen - dies löst das Problem, Produkte zu finden,
die Ihnen gefallen könnten. Ein anderes Beispiel: ein Papierflugzeug ist
ein Modell eines echten Flugzeugs. Es zeigt uns, wie ein echtes Flugzeug aussehen und fliegen
könnte. Wenn wir beobachten, wie das Papierflugzeug fliegt und dann die Flügel ein wenig
biegen, um es hoffentlich noch besser fliegen zu lassen, machen wir dasselbe wie die Algorithmen
mit ihren Modellen. Man könnte dies sogar weiter spinnen und denken, dass echte Flugzeuge
Modelle von fliegenden Tieren, z.B. Vögeln, sind. Nachdem wir von der Erfahrung der Natur
gelernt haben, konnten wir eine “vereinfachte Version” von Vögeln bauen. Sie sehen,
es gibt viele Modelle um uns herum.
Sie können sich die Algorithmen als eine Reihe von Anweisungen vorstellen. Wie
ein Rezept stellen sie Schritt für Schritt dar, wie man das Papierflugzeug in die Luft
wirft, es während seines Fluges beobachtet und die Beobachtung interpretiert. Ohne das
Papierflugzeug wären die Anweisungen nur Anweisungen. Das bedeutet, der Algorithmus benötigt
einen Ausgangspunkt und etwas, das er modifizieren und verbessern kann - das Modell.
Dementsprechend wird der Algorithmus verwendet, um das Modell zu verbessern, aber das Modell
erledigt die eigentliche Arbeit, das Problem zu lösen.
Mit dem Algorithmus, den Daten und dem Modell sollte die Maschine grundsätzlich alles haben,
um lernen zu können, richtig? Noch nicht. Da Lernen auch beinhaltet, besser im Lösen von
Problemen zu werden, mussten die Menschen der Vergangenheit herausfinden,
wie die Algorithmen ihr jeweiliges Modell so anpassen können, dass es zu einer besseren Lösung
führt. Dafür kombinierten sie die Algorithmen und ihre Modelle mit Optimierungstechniken wie
folgt:
Ein Mensch stellt einem Algorithmus ein anfängliches Modell mit einigen Parametern zur
Verfügung, d.h. Aspekte des Modells, die angepasst werden können.
Der Algorithmus verwendet das Modell, um Muster in den gegebenen Daten zu identifizieren.
Dann überprüft er, wie gut sich die identifizierten Muster zur Problemlösung eignen.
Basierend darauf passt der Algorithmus die Parameter des Modells unter Verwendung der
Optimierungstechniken an und überprüft abermals.
Diese Schritte wiederholen sich, bis das Modell gut funktioniert. Was “wie gut” und “gut”
bedeuten, wird ebenfalls von einem Menschen definiert. Um diesen Ansatz besser zu beschreiben
und von anderen abzugrenzen, wurde dieser als maschinelles Lernen (ML) bezeichnet ( 5
,
6
, 7
, 8
).
Deep Learning (DL)
Stellen Sie sich vor, Sie würden ein Modell der menschlichen Intelligenz erstellen wollen - worauf
würden Sie Ihr Modell stützen? In Anbetracht der Wörter “menschlich” und “Intelligenz” kommt uns
früher oder später unser Gehirn in den Sinn. Ebenso hatten die Forschenden in der Vergangenheit
die gleiche Idee.
Bei genauerer Betrachtung besteht unser Gehirn auf einer grundlegenden Ebene aus einem Netzwerk
von sogenannten Neuronen. Ein Neuron ist eine mikroskopische Zelle, die mit anderen Neuronen
mittels elektrischer Signale kommunizieren kann. Eine prototypische Version von zwei miteinander
verbundenen Neuronen könnte so aussehen:
Das Gehirn kann das Netzwerk von Neuronen, kurz neuronales Netzwerk, nutzen, um Informationen
durch unseren Körper zu senden, zu empfangen und zu interpretieren. Dies ermöglicht ihm
beispielsweise, Gedanken zu formen oder auf die Außenwelt zu reagieren.
Erinnern Sie sich noch an unser Papierflugzeug? Ähnlich sollte es möglich sein, eine vereinfachte Version
des neuronalen Netzwerks unseres Gehirns zu erstellen, oder? Ja, ein Modell, zur besseren
Unterscheidung künstliches neuronales Netzwerk (KNN), kurz ebenfalls neuronales Netzwerk (NN)
genannt, wurde im ML als Modell der Gehirnzellinteraktion eingeführt. Ein NN besteht ebenfalls
aus einem Netzwerk von Neuronen. Visualisiert könnte ein NN so aussehen:
Verglichen mit den Neuronen des Gehirns sehen Sie vielleicht die Ähnlichkeiten. Abstrakt betrachtet
ist ein Neuron in einem NN eine mathematische Funktion, die Eingaben empfangen und eine Ausgabe
produzieren kann. Genau wie bei den Neuronen des Gehirns kann der Ausgang eines Neurons mit dem
Eingang eines anderen verknüpft sein, dargestellt durch die Kanten, die die Neuronen verbinden.
Jede Kante könnte Parameter haben, genannt Gewichte, die die Ausgabe anpassen, bevor sie an
das/die nächsten Neuron(en) weitergegeben wird. Diese Gewichte sind vergleichbar mit dem Zustand
des Axons, das ebenfalls die Signale, die an die nächsten Neuron(en) gesendet werden, beeinflussen kann.
Vereinfacht stellt jedes Neuron eine kleine Entscheidungseinheit dar. Daten fließen
durch diese Einheiten und bei jeder Einheit wird eine Entscheidung basierend auf der
empfangenen Eingabe getroffen. Die Gewichte bestimmen, wie viel Einfluss der Ausgang eines
Neurons auf die Entscheidung des nächsten oder des endgültigen Ausgangs hat. Genau wie wir
Informationen bewerten, bevor wir eine Entscheidung treffen. Die Entscheidungen der Neuronen
kommen nach und nach zusammen, um dem Netzwerk zu helfen, die Daten zu “verstehen” und
ein oder mehrere Ergebnisse daraus abzuleiten.
Stellen Sie sich jetzt vor, wir fügen dem NN oben immer mehr Neuronen hinzu. Es könnte sehr
komplex werden und daher schwierig, den Überblick zu behalten. Deshalb sind NNs meistens auf
Grundlage von Schichten strukturiert. D.h. alle Neuronen, die parallel ausgeführt werden können,
können in eine Schicht gelegt werden. Dabei wird die allererste Schicht oft als Eingabeschicht
bezeichnet, die allerletzte als Ausgabeschicht und die Schichten dazwischen als versteckte
Schichten. Die Schichten für das NN oben würden wie folgt aussehen:
Also besteht eine Schicht in einem NN aus einer Gruppe von Neuronen, die gleichzeitig
Berechnungen durchführen können. Beachten Sie jedoch, dass dies nicht unbedingt impliziert, dass
sie alle dieselbe Funktion ausführen. Jedes Neuron könnte seine eigene einzigartige Funktion mit
seinem eigenen Beitrag zum Gesamtnetzwerk ausführen. Zusammenfassend sind NNs aus miteinander
verbundenen Neuronen zusammengesetzt, die oft in Schichten angeordnet sind, wobei jedes Neuron
als mathematische Funktion betrachtet werden kann, die Eingaben nimmt und eine Ausgabe
produziert.
Da es keine Grenze gibt, wie man Neuronen zusammenstapelt oder welche Funktionen man für sie
wählt, sind NNs sehr anpassbar, was zu einer Vielzahl von Möglichkeiten führt, was wiederum
bedeutet, dass erneut ein Begriff benötigt wurde, um dies zu beschreiben. So entstand der Begriff
Deep Learning (DL), was ML mit NNs als Modelle bezeichnet. “Deep” bezieht sich dabei auf eine große Anzahl
von Schichten und anpassbaren Parametern, die NNs haben können. Mit diesen Modellen haben
wir leistungsfähige Werkzeuge, um KI zu erreichen ( 9
, 10
, 11
, 12
, 13
, 14
).
Nachdem wir den Kontext behandelt haben, schauen wir uns als Nächstes die LLMs selbst an.
Vom Modell zum LM zum LLM
Mit dem Grundlagenwissen sind wir jetzt in der Welt der großen Sprachmodelle (LLMs)
angekommen - was genau sind LLMs? Wenn wir den Begriff selbst genauer betrachten,
kann er in drei Begriffe unterteilt werden:
Modell
Sprachmodell (LM)
Großes Sprachmodell (LLM)
Fürs Erste haben wir nun den Kontext geklärt. Konkreter werden bezeichnet ein Sprachmodell (LM)
ein Modell, das Probleme durch vereinfachte Versionen von (menschlicher) Sprache löst.
Im Vergleich dazu ist ein großes Sprachmodell (LLM) einfach nur ein sehr großes LM. Da LLMs Teil
des DL sind, gehören sie ebenfalls zu den NNs. Im Grunde sind LLMs LMs mit einer großen Anzahl
von Neuronen und anpassbaren Parametern ( 5
, 9
, 11
).
Dies ist eine sehr abstrakte Sicht auf LLMs, wir werden im nächsten Jargonopolis-Artikel tiefer eintauchen.
Fazit
Wir haben bisher folgende Begriffe kennengelernt:
Künstliche Intelligenz (KI)
Verhalten von etwas Künstlichem, z.B. einer Maschine, das für uns intelligent erscheint.
Maschinelles Lernen (ML)
Ansatz zur Erreichung von KI, der sich auf das Lernen eines Modells konzentriert, das eine
Maschine nutzen kann, um Probleme autonom zu lösen.
Modell
Vereinfachung eines Phänomens, das ein Problem löst. Z.B. ein Papierflugzeug, das ein Modell
eines echten Flugzeugs ist.
Deep Learning (DL)
ML mit Modellen, die auf NNs basieren.
Neuronales Netzwerk (NN)
Modell der Gehirnzellinteraktion, das aus miteinander verbundenen Neuronen besteht.
Neuron
Mathematische Funktion, die Eingaben empfangen und eine Ausgabe erzeugen kann.
Sprachmodell (LM)
Modell der (menschlichen) Sprache.
Großes Sprachmodell (LLM)
LM, das auf NNs basiert.
und zur Vollständigkeit hinzugefügt:
Star Trek: Voyager
Eine Fernsehserie, die zeigt, wie LLMs sich durch die Figur des Doktors entwickeln könnten.
Letztendlich sind LLMs wie unsere kleinen Papierflugzeuge; beide sind Modelle von etwas, das wir
Menschen beobachtet haben und verstehen bzw. nachbilden wollen.
Die Schlüsselerkenntnis der Autorin aus dem Schreiben dieses Artikels: Genau wie Papierflugzeuge
nicht für alles verwendet werden können (und sollten), haben auch LLMs begrenzte Fähigkeiten,
die wir respektieren müssen. Was ist Ihre Erkenntnis?
Nächstes Mal in Jargonopolis: ein Überblick über Begriffe, aus den inneren Abläufen von LLMs.
Sophia Keil - Software Developer.
Meine aktuellen Forschungsinteressen: große Sprachmodelle, Verarbeitung natürlicher Sprache, virtuelle Realität.
Wenn Sie Fragen oder Anregungen haben, würde ich mich freuen, von Ihnen auf LinkedIn zu hören.
Lernen Sie GPT4All kennen, ein hochmodernes Ökosystem, das darauf ausgelegt ist, benutzerindividuelle große Sprachmodelle auf herkömmlichen CPUs zu trainieren und bereitzustellen. Diese bahnbrechende Initiative demokratisiert AI-Technologie, indem sie sie einem breiteren Publikum zugänglich macht, unabhängig von ihrer individuellen oder unternehmerischen Stellung.
OpenSCAD ermöglicht die Erstellung komplexer Designs durch einfache Codezeilen. Statt visuell zu entwerfen, definiert man die Form durch Skripting, was dynamische und parametrisierbare Ansätze bietet.