Jargonopolis: Die Welt der großen Sprachmodelle (Large Language Models)

Post image

Das Ziel von Jargonopolis ist, einen Überblick über Begriffe zu bekommen, kurz ein Glossar. In anderen Artikeln haben wir uns bereits in die Welt der großen Sprachmodelle (englisch: Large Language Models, kurz LLMs) gewagt, deshalb wollen wir auch gleich mit diesem Begriff beginnen. Allgemein gibt es heute schon viele LLMs. Wir nutzen sie z.B. mit ChatGPT aber wahrscheinlich ist nicht allen von uns klar, was dort genau hinter den Kulissen passiert. Ein genauerer Blick wirft eine Vielzahl von Begriffen auf, die ziemlich verwirrend sein können. Zusammen können wir versuchen, einen nach dem anderen anzugehen. Für diejenigen unter Ihnen, die nur einen schnellen Überblick möchten, lohnt sich ein Blick ans Ende des Artikels.

Kontext

Am Anfang möchten wir uns anschauen, wo wir LLMs überhaupt verorten können. LLMs sind Teil des Deep Learning (DL), welches Teil des Machine Learning (ML) ist, welches wiederum Teil dessen ist, was wir Künstliche Intelligenz (KI) nennen:

Kontext der LLMs

Soweit verständlich, aber was bedeuten diese Begriffe?

Künstliche Intelligenz (KI)

Beginnen wir mit der Künstlichen Intelligenz. Künstliche Intelligenz ist ein Forschungsbereich, der sich entwickelt hat, um menschliche Intelligenz mit etwas Künstlichem, hauptsächlich Maschinen, nachzuahmen. Wenn Sie “Star Trek: Voyager” kennen, erinnern Sie sich vielleicht an eine Szene, in der Kes die Intelligenz des Doktors mit der von Menschen vergleicht. Sie tut dies, um ihn zu ermutigen, selbst einen Namen zu wählen. Ähnlich war die Idee, dass etwas Künstliches menschliches Verhalten - nämlich Informationen und logisches Denken zu nutzen, um Probleme zu lösen und sich dadurch zu verbessern - imitieren könnte.

Heute gibt es keine festgelegte Definition von KI, jeder definiert KI ein bisschen anders. Jedoch ist die grundsätzliche Idee der Vergangenheit in all diesen Definitionen noch präsent. Mit diesem Hintergrund kann KI in einfachen Worten als Verhalten von etwas Künstlichem beschrieben werden, das für uns intelligent erscheint. Auch wenn unter der Oberfläche z.B. einfach nur eine Regel existiert, die vorgibt “Wenn jemand Hallo sagt, dann antworte mit Hallo”, können wir es KI nennen, wenn es von außen wie intelligentes Verhalten aussieht. Die Definition von Intelligenz liegt hierbei im Auge des Betrachters ( 1 , 2 , 3 , 4 , 5 ).

Maschinelles Lernen (ML)

Es gibt verschiedene Wege, um KI zu erreichen. Einen haben wir bereits in Form von Regeln kennengelernt. Ein anderer ist maschinelles Lernen (ML). In den Anfangstagen konzentrierten sich Forschende auf das Lernen. Sie wollten Maschinen ermöglichen, selbstständig zu lernen, wie man Probleme löst und sich dadurch verbessert.

Um ein Problem zu lösen, muss zunächst ein Problem vorhanden sein, das gelöst werden muss. Wenn wir ein Problem identifiziert haben, steht als Nächstes die Überlegung an, wie eine Maschine lernen könnte, dieses Problem zu lösen.

Wenn wir über uns selbst nachdenken, wie wir lernen, so benötigen wir etwas, von oder aus dem wir lernen können, d.h. Erfahrung. Um Maschinen etwas Ähnliches zu geben, wurden in der Vergangenheit Daten verwendet, zum Beispiel Bilder von Katzen und Hunden, Mails oder Text aus Büchern.

Um Lernen zu simulieren, wurde versucht, Algorithmen (also mathematische Techniken) einzubinden, die gut darin sind, Daten zu verarbeiten sowie Muster zu erkennen und Vorhersagen auf Basis der vorhandenen/historischen Daten zu treffen.

Warum ist es wichtig, dass die Algorithmen Muster erkennen können? Stellen Sie sich vor, Sie müssten einen Test absolvieren über den Inhalt eines Buches, das Sie nie zuvor gelesen haben. Jetzt gebe ich Ihnen die Fähigkeit, sich an den Inhalt jeder Seite zu erinnern. Damit könnten Sie mir sagen, was auf einer bestimmten Seite geschrieben steht, ohne jemals hineingeschaut zu haben. Könnten Sie den Test jetzt lösen? Ja und nein. “Sag-mir-was-auf-Seite-x-steht”-Fragen wären kein Problem, aber was ist mit schwierigeren Fragen? Wären Sie in der Lage, diese zu beantworten? Wahrscheinlich nicht, da Sie die Verbindungen zwischen den Inhalten der Seiten benötigen würden. Sie müssten zuerst Muster aus den Daten ableiten. Basierend auf den Mustern könnten Sie Vorhersagen treffen, z.B. was “typische” gute Antworten für die schwierigen Fragen wären. Deshalb sind Muster wichtig für das Lernen und daher für die Algorithmen.

Zurück zu unseren Algorithmen. Wir haben nun die Algorithmen, die lernen können, aber wie können die Algorithmen behalten und wiederverwenden, was sie gelernt haben? Sie benötigen ein Modell, das in einer mathematischen Darstellung die in den Daten entdeckten Muster zusammenfasst. Modelle lassen sich auch so visualisieren: Stellen Sie sich ein Modell als eine Vereinfachung eines Phänomens vor, das ein Problem löst. Das Modell hilft uns, Dinge einfacher, kleiner oder leichter darzustellen und zu verstehen. Zum Beispiel ist ein Empfehlungssystem in einem Online-Shop ein Modell eines persönlichen Einkäufers. Das Empfehlungssystem kennt Ihre Vorlieben basierend auf Ihren früheren Käufen und schlägt Produkte vor, die auf bestimmte Art und Weise zu den bereits gekauften passen, sei es, weil andere diese Produkte ebenfalls in Kombination gekauft haben oder weil sich die Produkte gut ergänzen - dies löst das Problem, Produkte zu finden, die Ihnen gefallen könnten. Ein anderes Beispiel: ein Papierflugzeug ist ein Modell eines echten Flugzeugs. Es zeigt uns, wie ein echtes Flugzeug aussehen und fliegen könnte. Wenn wir beobachten, wie das Papierflugzeug fliegt und dann die Flügel ein wenig biegen, um es hoffentlich noch besser fliegen zu lassen, machen wir dasselbe wie die Algorithmen mit ihren Modellen. Man könnte dies sogar weiter spinnen und denken, dass echte Flugzeuge Modelle von fliegenden Tieren, z.B. Vögeln, sind. Nachdem wir von der Erfahrung der Natur gelernt haben, konnten wir eine “vereinfachte Version” von Vögeln bauen. Sie sehen, es gibt viele Modelle um uns herum.

Sie können sich die Algorithmen als eine Reihe von Anweisungen vorstellen. Wie ein Rezept stellen sie Schritt für Schritt dar, wie man das Papierflugzeug in die Luft wirft, es während seines Fluges beobachtet und die Beobachtung interpretiert. Ohne das Papierflugzeug wären die Anweisungen nur Anweisungen. Das bedeutet, der Algorithmus benötigt einen Ausgangspunkt und etwas, das er modifizieren und verbessern kann - das Modell. Dementsprechend wird der Algorithmus verwendet, um das Modell zu verbessern, aber das Modell erledigt die eigentliche Arbeit, das Problem zu lösen.

Mit dem Algorithmus, den Daten und dem Modell sollte die Maschine grundsätzlich alles haben, um lernen zu können, richtig? Noch nicht. Da Lernen auch beinhaltet, besser im Lösen von Problemen zu werden, mussten die Menschen der Vergangenheit herausfinden, wie die Algorithmen ihr jeweiliges Modell so anpassen können, dass es zu einer besseren Lösung führt. Dafür kombinierten sie die Algorithmen und ihre Modelle mit Optimierungstechniken wie folgt:

  1. Ein Mensch stellt einem Algorithmus ein anfängliches Modell mit einigen Parametern zur Verfügung, d.h. Aspekte des Modells, die angepasst werden können.
  2. Der Algorithmus verwendet das Modell, um Muster in den gegebenen Daten zu identifizieren.
  3. Dann überprüft er, wie gut sich die identifizierten Muster zur Problemlösung eignen.
  4. Basierend darauf passt der Algorithmus die Parameter des Modells unter Verwendung der Optimierungstechniken an und überprüft abermals.

Diese Schritte wiederholen sich, bis das Modell gut funktioniert. Was “wie gut” und “gut” bedeuten, wird ebenfalls von einem Menschen definiert. Um diesen Ansatz besser zu beschreiben und von anderen abzugrenzen, wurde dieser als maschinelles Lernen (ML) bezeichnet ( 5 , 6 , 7 , 8 ).

Deep Learning (DL)

Stellen Sie sich vor, Sie würden ein Modell der menschlichen Intelligenz erstellen wollen - worauf würden Sie Ihr Modell stützen? In Anbetracht der Wörter “menschlich” und “Intelligenz” kommt uns früher oder später unser Gehirn in den Sinn. Ebenso hatten die Forschenden in der Vergangenheit die gleiche Idee.

Bei genauerer Betrachtung besteht unser Gehirn auf einer grundlegenden Ebene aus einem Netzwerk von sogenannten Neuronen. Ein Neuron ist eine mikroskopische Zelle, die mit anderen Neuronen mittels elektrischer Signale kommunizieren kann. Eine prototypische Version von zwei miteinander verbundenen Neuronen könnte so aussehen:

Zwei prototypische Neuronen des menschlichen Gehirns
( Basierend auf einem Bild von Actam , Lizenz )

Das Gehirn kann das Netzwerk von Neuronen, kurz neuronales Netzwerk, nutzen, um Informationen durch unseren Körper zu senden, zu empfangen und zu interpretieren. Dies ermöglicht ihm beispielsweise, Gedanken zu formen oder auf die Außenwelt zu reagieren.

Erinnern Sie sich noch an unser Papierflugzeug? Ähnlich sollte es möglich sein, eine vereinfachte Version des neuronalen Netzwerks unseres Gehirns zu erstellen, oder? Ja, ein Modell, zur besseren Unterscheidung künstliches neuronales Netzwerk (KNN), kurz ebenfalls neuronales Netzwerk (NN) genannt, wurde im ML als Modell der Gehirnzellinteraktion eingeführt. Ein NN besteht ebenfalls aus einem Netzwerk von Neuronen. Visualisiert könnte ein NN so aussehen:

Beispiel eines neuronalen Netzwerks

Verglichen mit den Neuronen des Gehirns sehen Sie vielleicht die Ähnlichkeiten. Abstrakt betrachtet ist ein Neuron in einem NN eine mathematische Funktion, die Eingaben empfangen und eine Ausgabe produzieren kann. Genau wie bei den Neuronen des Gehirns kann der Ausgang eines Neurons mit dem Eingang eines anderen verknüpft sein, dargestellt durch die Kanten, die die Neuronen verbinden. Jede Kante könnte Parameter haben, genannt Gewichte, die die Ausgabe anpassen, bevor sie an das/die nächsten Neuron(en) weitergegeben wird. Diese Gewichte sind vergleichbar mit dem Zustand des Axons, das ebenfalls die Signale, die an die nächsten Neuron(en) gesendet werden, beeinflussen kann.

Vereinfacht stellt jedes Neuron eine kleine Entscheidungseinheit dar. Daten fließen durch diese Einheiten und bei jeder Einheit wird eine Entscheidung basierend auf der empfangenen Eingabe getroffen. Die Gewichte bestimmen, wie viel Einfluss der Ausgang eines Neurons auf die Entscheidung des nächsten oder des endgültigen Ausgangs hat. Genau wie wir Informationen bewerten, bevor wir eine Entscheidung treffen. Die Entscheidungen der Neuronen kommen nach und nach zusammen, um dem Netzwerk zu helfen, die Daten zu “verstehen” und ein oder mehrere Ergebnisse daraus abzuleiten.

Stellen Sie sich jetzt vor, wir fügen dem NN oben immer mehr Neuronen hinzu. Es könnte sehr komplex werden und daher schwierig, den Überblick zu behalten. Deshalb sind NNs meistens auf Grundlage von Schichten strukturiert. D.h. alle Neuronen, die parallel ausgeführt werden können, können in eine Schicht gelegt werden. Dabei wird die allererste Schicht oft als Eingabeschicht bezeichnet, die allerletzte als Ausgabeschicht und die Schichten dazwischen als versteckte Schichten. Die Schichten für das NN oben würden wie folgt aussehen:

Beispiel von Schichten in einem neuronalen Netzwerk

Also besteht eine Schicht in einem NN aus einer Gruppe von Neuronen, die gleichzeitig Berechnungen durchführen können. Beachten Sie jedoch, dass dies nicht unbedingt impliziert, dass sie alle dieselbe Funktion ausführen. Jedes Neuron könnte seine eigene einzigartige Funktion mit seinem eigenen Beitrag zum Gesamtnetzwerk ausführen. Zusammenfassend sind NNs aus miteinander verbundenen Neuronen zusammengesetzt, die oft in Schichten angeordnet sind, wobei jedes Neuron als mathematische Funktion betrachtet werden kann, die Eingaben nimmt und eine Ausgabe produziert.

Da es keine Grenze gibt, wie man Neuronen zusammenstapelt oder welche Funktionen man für sie wählt, sind NNs sehr anpassbar, was zu einer Vielzahl von Möglichkeiten führt, was wiederum bedeutet, dass erneut ein Begriff benötigt wurde, um dies zu beschreiben. So entstand der Begriff Deep Learning (DL), was ML mit NNs als Modelle bezeichnet. “Deep” bezieht sich dabei auf eine große Anzahl von Schichten und anpassbaren Parametern, die NNs haben können. Mit diesen Modellen haben wir leistungsfähige Werkzeuge, um KI zu erreichen ( 9 , 10 , 11 , 12 , 13 , 14 ).

Nachdem wir den Kontext behandelt haben, schauen wir uns als Nächstes die LLMs selbst an.

Vom Modell zum LM zum LLM

Mit dem Grundlagenwissen sind wir jetzt in der Welt der großen Sprachmodelle (LLMs) angekommen - was genau sind LLMs? Wenn wir den Begriff selbst genauer betrachten, kann er in drei Begriffe unterteilt werden:

  1. Modell
  2. Sprachmodell (LM)
  3. Großes Sprachmodell (LLM)

Fürs Erste haben wir nun den Kontext geklärt. Konkreter werden bezeichnet ein Sprachmodell (LM) ein Modell, das Probleme durch vereinfachte Versionen von (menschlicher) Sprache löst. Im Vergleich dazu ist ein großes Sprachmodell (LLM) einfach nur ein sehr großes LM. Da LLMs Teil des DL sind, gehören sie ebenfalls zu den NNs. Im Grunde sind LLMs LMs mit einer großen Anzahl von Neuronen und anpassbaren Parametern ( 5 , 9 , 11 ). Dies ist eine sehr abstrakte Sicht auf LLMs, wir werden im nächsten Jargonopolis-Artikel tiefer eintauchen.

Fazit

Wir haben bisher folgende Begriffe kennengelernt:

Künstliche Intelligenz (KI)
Verhalten von etwas Künstlichem, z.B. einer Maschine, das für uns intelligent erscheint.
Maschinelles Lernen (ML)
Ansatz zur Erreichung von KI, der sich auf das Lernen eines Modells konzentriert, das eine Maschine nutzen kann, um Probleme autonom zu lösen.
Modell
Vereinfachung eines Phänomens, das ein Problem löst. Z.B. ein Papierflugzeug, das ein Modell eines echten Flugzeugs ist.
Deep Learning (DL)
ML mit Modellen, die auf NNs basieren.
Neuronales Netzwerk (NN)
Modell der Gehirnzellinteraktion, das aus miteinander verbundenen Neuronen besteht.
Neuron
Mathematische Funktion, die Eingaben empfangen und eine Ausgabe erzeugen kann.
Sprachmodell (LM)
Modell der (menschlichen) Sprache.
Großes Sprachmodell (LLM)
LM, das auf NNs basiert.

und zur Vollständigkeit hinzugefügt:

Star Trek: Voyager
Eine Fernsehserie, die zeigt, wie LLMs sich durch die Figur des Doktors entwickeln könnten.

Letztendlich sind LLMs wie unsere kleinen Papierflugzeuge; beide sind Modelle von etwas, das wir Menschen beobachtet haben und verstehen bzw. nachbilden wollen. Die Schlüsselerkenntnis der Autorin aus dem Schreiben dieses Artikels: Genau wie Papierflugzeuge nicht für alles verwendet werden können (und sollten), haben auch LLMs begrenzte Fähigkeiten, die wir respektieren müssen. Was ist Ihre Erkenntnis?

Nächstes Mal in Jargonopolis: ein Überblick über Begriffe, aus den inneren Abläufen von LLMs.

Referenzen

  1. 2017 History of AI
  2. 1955 Dartmouth summer research project proposal
  3. 1995 Star Trek: Voyager episode “Eye of the Needle”
  4. 2021 Key definitions of AI
  5. 2023 Very gentle introduction to LLMs
  6. 2020 Introduction to ML
  7. 2021 Explanation of ML
  8. 2019 ML with R
  9. 2023 Dive into DL
  10. 2021 Anatomy of the brain
  11. 2023 Introduction to LLMs
  12. 2023 Generative AI future or present
  13. 2023 Introduction to NNs
  14. 2014 The Neuron

You May Also Like