Warum die Metapher der Karteikarte in die Irre führt
Wenn Führungskräfte hören, dass ein Sprachmodell ihr Unternehmen „kennt“, entsteht fast zwangsläufig ein bequemes Bild: Irgendwo im Inneren des Systems liege gleichsam eine Karteikarte der Marke mit einem Namen, einer Kurzbeschreibung, einem Bündel von Eigenschaften und einigen Marktbeziehungen. Das Bild ist eingängig, aber falsch. Ein modernes KI-System speichert Informationen über eine Entität sehr viel weniger wie ein Nachschlagewerk und sehr viel stärker als ein verteiltes Netzwerk probabilistischer Verknüpfungen. Für eine Marke gibt es kein einzelnes sauber abgegrenztes Fach. Es gibt Spuren in den Modellparametern, aktivierbare Muster, verborgene Zustände der aktuellen Berechnung und – in Suchmodi – zusätzlich externe Dokumente, die im Moment der Antwort beigemischt werden.
Dieser Unterschied ist nicht nur für Forschende wichtig. Solange sich ein Unternehmen eine „Karteikarte der Marke“ vorstellt, neigt es dazu, nach einfachen Rezepten zu suchen: mehr Erwähnungen hinzufügen, eine Überschrift umschreiben, eine weitere Seite der Selbstdarstellung veröffentlichen. Wenn die Marke im Modell jedoch als komplexes System von Assoziationen organisiert ist, verändert sich die Aufgabe. Dann geht es nicht nur um die Zahl der Signale, sondern auch darum, wie sie organisiert sind: wie stabil der Name mit einer Kategorie verbunden ist, wie klar sich die Produkte unterscheiden, wie konsistent Eigenschaften bestätigt werden und wie leicht das Modell die betreffende Entität von benachbarten Entitäten trennt.
Was Studien zur Interpretierbarkeit zeigen
Die Arbeiten der letzten Jahre machen dieses innere Bild Schritt für Schritt weniger rätselhaft. Die Arbeit von Mor Geva und Koautoren zeigte, dass Feed-Forward-Blöcke der Transformer-Architektur häufig wie eine Art Schlüssel-Wert-Gedächtnis funktionieren: Bestimmte textuelle Eingabemuster aktivieren andere und lenken das Modell auf eine bestimmte Fortsetzung im Vokabular [1]. Die Arbeit von Kevin Meng und Kollegen zur Lokalisierung und Bearbeitung faktischer Assoziationen zeigte, dass sich ein Teil der Fakten in Modellen zur Textvervollständigung tatsächlich mit relativ gut lokalisierbaren Rechenknoten verbinden lässt, insbesondere in mittleren Schichten [2]. Eine spätere Arbeit von Masaki Sakata und Koautoren zeigte, dass Erwähnungen derselben Entität dazu tendieren, im internen Repräsentationsraum unterscheidbare Cluster zu bilden, und dass Informationen, die mit dieser Entität verbunden sind, in frühen Schichten häufig in einem kompakten linearen Unterraum konzentriert sind [3]. Schließlich betonen Übersichtsarbeiten zur Wissensmechanik in großen Sprachmodellen ein gemeinsames Ergebnis: Wissen existiert in solchen Systemen tatsächlich, ist aber verteilt, fragil und von der Art seines Abrufs abhängig [4][5].
Am einfachsten lässt sich das so vorstellen. Im Modell existiert eine Marke als probabilistisches Relief. In diesem Relief gibt es Zonen, in denen der Name des Unternehmens Begriffen wie „Analytik“, „Sicherheit“, „Plattform“, „Prognostik“, „Unternehmensmarkt“ oder etwa „Kundenerlebnismanagement“ nahe liegt. Es gibt Verbindungen zu bekannten Produkten. Es gibt Spuren alter Pressemitteilungen. Es gibt Nachbarschaften zu Wettbewerbern. Es gibt Spuren von Nutzerfragen, auf die in den Trainingsdaten häufig bestimmte Arten von Antworten folgten. Wenn das Modell eine neue Anfrage erhält, „zieht“ es nicht eine Karteikarte heraus, sondern bewegt sich über dieses Relief und setzt die wahrscheinlichste Interpretation zusammen.
Genau deshalb sollte die Frage „Was weiß KI über ein Unternehmen?“ besser durch eine andere ersetzt werden: „Welche Konfiguration von Beziehungen ist KI in der Lage, über ein Unternehmen in unterschiedlichen Kontexten stabil zu rekonstruieren?“ Das ist präziser und nützlicher. Denn für Unternehmen zählt nicht der abstrakte Wissensstand des Modells, sondern Stabilität. Wenn man das System auf zehn ähnliche Arten fragt, ordnet es die Marke dann immer wieder derselben Kategorie zu? Verbindet es sie mit denselben zentralen Eigenschaften? Unterscheidet es korrekt zwischen Produkt und Unternehmen, zwischen Unternehmen und Muttergesellschaft, zwischen juristischem Namen und Verbrauchermarke? Oder löst jede neue Anfrage eine leicht andere Entität aus?
Probabilistisches Relief, Vektoren und stabile Verbindungen
Diese Stabilität zeigt sich gut am Beispiel von Vektorrepräsentationen (embeddings), also numerischen Repräsentationen von Text, in die Wörter, Phrasen und Kontextfragmente übersetzt werden. Die Nähe zweier solcher Repräsentationen wird oft mit der Kosinusähnlichkeit gemessen:
cos(theta) = (x · y) / (||x|| ||y||)
Hier sind x und y zwei Vektoren. Der eine kann einer Menge von Erwähnungen der Marke entsprechen, der andere einem Merkmal wie „Unternehmensanalytik“ oder „günstiger Verbraucherservice“. Liegt der Kosinus nahe bei eins, ähneln sich die Richtungen der Vektoren, und das System neigt dazu, diese Objekte als eng verbunden zu behandeln. Ist der Wert gering oder ändert er sich von Kontext zu Kontext, erweist sich die Verbindung als schwach oder instabil. Ein Unternehmen hat in geschlossenen kommerziellen Modellen keinen direkten Zugriff auf solche Vektoren. Die zugrunde liegende Logik bleibt jedoch nützlich: Eine Marke gewinnt dann, wenn wichtige Verbindungen in ihrem maschinellen Bild nicht zufällig, sondern wiederholbar sind.
Daraus wird auch die Natur typischer Verzerrungen verständlich. Wenn der Markenname mehrdeutig ist, kann das Modell ihn zu stark an eine allgemeine Kategorie heranziehen und dabei Individualität verlieren. Wenn ein Unternehmen mehrere Produktlinien mit unterschiedlichen Beschreibungssprachen hat, fügen sie sich im Modell womöglich nicht zu einer einheitlichen Familie zusammen. Wenn die Außenwelt die ältere Version einer Marke besser kennt als die neue, wird das Modell „die Vergangenheit“ beharrlicher erinnern, als es dem Marketing lieb ist. Wenn Wettbewerber über eine klarere und besser bestätigte semantische Kontur verfügen, führt eine Anfrage nach einer Lösungsklasse nicht zum betreffenden Unternehmen, sondern zu ihnen. Und umgekehrt: Wenn eine Marke in der Sprache des Marktes, in unabhängigen Quellen und in ihren eigenen klaren Beschreibungen systematisch präsent ist, setzt das Modell mit höherer Wahrscheinlichkeit gerade sie zusammen – selbst dann, wenn das Unternehmen nicht das größte ist.
Drei Schichten der internen Repräsentation und eine neue Diagnose
Die interne Repräsentation einer Marke lässt sich sinnvoll in drei Schichten unterteilen. Die erste Schicht ist das parameterische Gedächtnis. Darin steckt, was das Modell während des Trainings und der nachfolgenden Anpassung aufgenommen hat: allgemeine Fakten, typische Assoziationen, gewohnte Verknüpfungen zwischen Name und Eigenschaften. Die zweite Schicht ist die kontextuelle Rekonstruktion. Sie beschreibt, wie die Marke unmittelbar im Moment der Antwort aus den verborgenen Zuständen des aktuellen Dialogs rekonstruiert wird: welche Wörter des Nutzers welche Teile des maschinellen Wissens aktivieren. Die dritte Schicht ist die externe Verstärkung. In Antwort- und Suchmodi kommen hier aktuelle Webseiten, Dokumente und Wissensbasen hinzu, die das Endergebnis beeinflussen [4][6][7]. In der Praxis bestimmt gerade das Zusammenspiel dieser drei Schichten, wie eine Marke in der Antwort erscheint.
Diese Struktur erklärt, warum viele Unternehmen bei der Diagnose irren. Wenn eine Marke in einer Antwort nicht genannt wird, nimmt man schnell an, „das Modell kennt uns nicht“. Manchmal stimmt das, oft aber nicht. Das Modell kann ein Unternehmen dem Namen nach kennen und es dennoch nicht für die beste Antwort auf eine Frage halten. Es kann sich an das Produkt erinnern, es aber nicht mit dem richtigen Nutzungsszenario verbinden. Es kann die Website korrekt zitieren, die Bedeutung einzelner Merkmale aber falsch gewichten. Es kann sich auf aktuelle Web-Quellen stützen und dadurch älteres internes Wissen übersteuern. Mit anderen Worten: Das Problem kann weniger im Vorhandensein von Wissen liegen als in seiner Konfiguration.
Das ist besonders wichtig für Marken, die sich lange auf die Stärke ihrer eigenen Kommunikation stützen konnten. Innerhalb eines KI-Systems gewinnt nicht nur, wer laut über sich spricht, sondern auch, über wen sich eine widerspruchsfreie Repräsentation aufbauen lässt. Eine widerspruchsfreie Repräsentation verlangt Disziplin. Der Name muss stabil sein. Die Kategorie muss klar sein. Die Produktstruktur muss unterscheidbar sein. Die Eigenschaften müssen direkt formuliert sein und dürfen nicht nur angedeutet werden. Externe Bestätigungen müssen vielfältig und belastbar sein. Dann hat das Modell die Chance, die Marke nicht nur zu erkennen, sondern sie als stabile Entität im Gedächtnis zu halten.
Hier ergibt sich eine weitere wichtige Schlussfolgerung. Die Arbeit an der internen Repräsentation einer Marke erschöpft sich nicht in „Textoptimierung“. Im Kern geht es um die epistemische Form des Unternehmens, also um die Form, in der das Unternehmen als Wissen existiert. Wenn eine Marke als Wissen schlecht zusammengesetzt ist, muss ein KI-System Lücken probabilistisch ergänzen. Wenn eine Marke als Wissen gut zusammengesetzt ist, sinkt die Wahrscheinlichkeit von Verzerrungen. In diesem Sinn ist der heutige Kampf um Sichtbarkeit nicht nur ein Kampf um Traffic, sondern auch um die Qualität maschinellen Verstehens.
Dieser Blickwinkel ist auch deshalb nützlich, weil er die Diskussion auf eine reifere Ebene zurückführt. Man sollte nicht fragen, „ob KI sich an uns erinnert“. Man sollte fragen, welche Eigenschaften einer Marke stabil extrahiert werden, welche Beziehungen verloren gehen, welche Attribute überbewertet werden und welche überhaupt nicht in der Antwort erscheinen. Mit diesen Fragen beginnen bereits Strategie, Diagnose und inhaltliche Arbeit. Genau sie unterscheiden eine ernsthafte Steuerung maschineller Sichtbarkeit von einem oberflächlichen Wettlauf um zufällige Erwähnungen.
Was wahrscheinlich bleibt oder von der Plattform abhängt
Weniger zuverlässig geklärt ist die genaue Geometrie dieses Wissens in geschlossenen kommerziellen Systemen. Wir erkennen die allgemeinen Mechanismen aus akademischen Arbeiten, haben aber keinen direkten Zugriff auf die internen Vektoren und die Regeln der Zusammensetzung auf den einzelnen Plattformen.
Mit hoher Sicherheit lässt sich sagen, dass Wissen in modernen Sprachmodellen verteilt ist und kontextabhängig abgerufen wird. Daraus folgt, dass sich die Stabilität einer Marke in Antworten nicht auf die bloße Präsenz ihres Namens im Trainingsmaterial reduzieren lässt.
Für Unternehmen bedeutet das den Übergang von der Sprache der „Textoptimierung“ zur Sprache der epistemischen Form: Entscheidend ist, welche Eigenschaften einer Marke stabil extrahiert werden und welche zerfallen oder verzerrt werden.