Embeddings sind Zahlenfolgen (Vektoren), die ein Objekt – etwa ein Wort, einen Satz, ein Bild oder eine Audiodatei – als Punkt in einem mathematischen Raum darstellen. Der Trick dabei: Objekte mit ähnlicher Bedeutung liegen in diesem Raum nah beieinander, Objekte mit unterschiedlicher Bedeutung weit auseinander. So kann ein Computer mit Bedeutung rechnen, statt nur Zeichenketten zu vergleichen.
Ein Embedding ist also eine Art numerische Zusammenfassung: Es fasst die Eigenschaften eines Objekts in einer Liste von Zahlen zusammen. Diese Liste kann je nach Modell aus einigen Hundert bis mehreren Tausend Werten bestehen. Für Menschen sind diese Zahlen nicht direkt lesbar, für Maschinen aber gut zu verarbeiten.
Warum reicht der reine Text nicht aus?
Computer verstehen von sich aus keine Sprache. Sie verarbeiten Zahlen. Wenn man Wörter nur durchnummeriert (etwa „Hund" = 1, „Katze" = 2, „Auto" = 3), gehen alle inhaltlichen Beziehungen verloren. Aus den Zahlen ließe sich nicht ablesen, dass „Hund" und „Katze" thematisch näher beieinander liegen als „Hund" und „Auto".
Embeddings lösen dieses Problem. Statt einer einzelnen, willkürlichen Nummer bekommt jedes Objekt einen Vektor mit vielen Werten. Diese Werte werden so gewählt (genauer: trainiert), dass sie tatsächliche Eigenschaften und Zusammenhänge widerspiegeln. „Hund" und „Katze" erhalten dann ähnliche Vektoren, weil beide als Haustiere in ähnlichen Zusammenhängen vorkommen.
Wie entsteht ein Embedding?
Embeddings werden nicht von Hand erstellt, sondern von einem Embedding-Modell berechnet – einem Modell aus dem Bereich des maschinellen Lernens. Dieses Modell hat anhand großer Datenmengen gelernt, in welchen Zusammenhängen Wörter, Sätze oder Bilder typischerweise auftauchen.
Grob vereinfacht funktioniert das so: Das Modell beobachtet, welche Begriffe häufig gemeinsam oder im selben Kontext erscheinen. Daraus leitet es ab, welche Objekte sich ähneln. Bekannte Verfahren für Text sind etwa Word2Vec und GloVe; modernere Modelle bauen auf der sogenannten Transformer-Architektur auf, die auch hinter heutigen Sprachmodellen steht (siehe Was ist ein Large Language Model (LLM)?).
Wichtig ist: Das Ergebnis ist nicht zufällig. Wenn dasselbe Modell zweimal denselben Satz verarbeitet, kommt derselbe Vektor heraus. Das macht Embeddings für die maschinelle Verarbeitung zuverlässig.
Was bedeutet „Nähe" im Vektorraum?
Sobald Objekte als Vektoren vorliegen, lässt sich ihr Abstand berechnen. Liegen zwei Vektoren nah beieinander, sind sich die zugrunde liegenden Objekte inhaltlich ähnlich. Liegen sie weit auseinander, haben sie wenig miteinander zu tun.
Genau das ist der praktische Nutzen: Ein System kann eine Suchanfrage in ein Embedding umwandeln und anschließend diejenigen Dokumente heraussuchen, deren Embeddings der Anfrage am nächsten liegen. Anders als bei der klassischen Stichwortsuche muss dafür nicht dasselbe Wort vorkommen. Sucht jemand nach „Auto reparieren", findet die Suche auch Texte über „Werkstatt" oder „KFZ-Wartung", weil deren Bedeutung verwandt ist. Diese Form der Suche nennt man semantische Suche – Suche nach Bedeutung statt nach exakten Wörtern.
Wofür werden Embeddings eingesetzt?
Embeddings sind ein Grundbaustein vieler KI-gestützter Anwendungen:
- Semantische Suche: Inhalte nach Bedeutung finden, nicht nur nach Schlagwörtern.
- Empfehlungen: Ähnliche Produkte, Artikel oder Filme vorschlagen, weil deren Embeddings nah beieinander liegen.
- Klassifikation: Texte oder Bilder automatisch in Kategorien einsortieren.
- Retrieval-Augmented Generation (RAG): Hier sind Embeddings besonders wichtig. Bei diesem Verfahren bekommt ein Sprachmodell vor der Antwort passende Informationen aus einer Wissensbasis. Welche Informationen passen, wird über die Nähe von Embeddings ermittelt. Mehr dazu unter Was ist Retrieval-Augmented Generation (RAG)?.
Embeddings und AI-Mitarbeiter
Für unsere AI-Mitarbeiter sind Embeddings eine wichtige technische Grundlage. Wenn ein AI-Mitarbeiter auf das Wissen eines Unternehmens zugreifen soll – etwa auf Produktunterlagen, Richtlinien oder vergangene Vorgänge –, werden diese Inhalte in Embeddings überführt und in einer durchsuchbaren Form abgelegt.
Stellt ein Nutzer eine Frage, wird auch die Frage in ein Embedding umgewandelt. Das System sucht dann die inhaltlich passendsten Stellen aus der Wissensbasis heraus und stellt sie dem Sprachmodell als Grundlage zur Verfügung. So kann etwa ein Company Expert wie Hanna auf firmeninternes Wissen antworten, ohne dass das Modell dieses Wissen vorher „auswendig gelernt" haben muss. Das ist auch aus Datenschutzsicht relevant: Die Inhalte bleiben in der kontrollierten Wissensbasis und fließen nicht in ein Modelltraining ein.
Zusammengefasst
Ein Embedding ist eine Übersetzung von Bedeutung in Zahlen. Es nimmt ein Objekt – Text, Bild oder Audio – und stellt es als Vektor in einem Raum dar, in dem Nähe für Ähnlichkeit steht. Dadurch können Maschinen vergleichen, suchen und einordnen, ohne auf exakte Wortübereinstimmungen angewiesen zu sein.
Embeddings sind damit kein eigenständiges Produkt, sondern ein Werkzeug, das in vielen modernen KI-Anwendungen im Hintergrund arbeitet – von der semantischen Suche über Empfehlungssysteme bis hin zu RAG-Systemen und KI-Agenten. Wer verstehen will, wie KI mit Inhalten umgeht, kommt am Konzept der Embeddings kaum vorbei. Eine breitere Einordnung der Grundbegriffe bietet unser Beitrag KI-Grundlagen: Was jeder Entscheider wissen sollte.
Verwandte Einträge
Was ist Tool-Calling (Function Calling) bei LLMs?
Tool-Calling (Function Calling) erlaubt es einem Sprachmodell, gezielt externe Funktionen und Schnittstellen anzusteuern. Wir erklären die Funktionsweise und den praktischen Nutzen.
Weiterlesen →Was ist ein Large Language Model (LLM)?
Ein Large Language Model (LLM) ist ein KI-Modell, das menschliche Sprache verarbeitet und Text erzeugt. Dieser Artikel erklärt Definition, Funktionsweise und Grenzen.
Weiterlesen →Nächster Schritt
30 Minuten.
Ein echtes Gespräch.
Erzählen Sie uns, wo bei Ihnen die Zeit verloren geht. Wir sagen Ihnen, welcher AI-Mitarbeiter diese Aufgabe übernehmen würde und ob es für Sie überhaupt Sinn ergibt. Kein Pitch, keine Folien.