Por qué la metáfora de la ficha induce a error
Cuando los directivos oyen que un modelo de lenguaje «conoce» su empresa, la imaginación produce de forma casi inevitable una imagen cómoda: en algún lugar del interior del sistema parecería haber una ficha de marca con el nombre, una breve descripción, un conjunto de propiedades y varias relaciones con el mercado. La imagen es comprensible, pero es incorrecta. Un sistema de respuestas moderno almacena la información sobre una entidad de una forma mucho menos parecida a un directorio y mucho más parecida a una red distribuida de relaciones probabilísticas. La marca no tiene una sola casilla ordenada. Hay huellas en los parámetros del modelo, patrones activados, estados ocultos del cálculo actual y, en los modos de búsqueda, también documentos externos que se incorporan en el momento de la respuesta.
Esta diferencia importa no solo para los investigadores. Mientras una empresa imagine una «ficha de marca», tenderá a buscar recetas simples: añadir más menciones, reescribir un titular, publicar otra página de autopresentación. Pero si la marca dentro del modelo está organizada como un sistema complejo de asociaciones, la tarea cambia. Entonces hay que pensar no solo en la cantidad de señales, sino también en cómo están organizadas: hasta qué punto el nombre está vinculado de forma estable con una categoría, hasta qué punto los productos se distinguen con claridad, hasta qué punto las propiedades se confirman de manera consistente y hasta qué punto el modelo distingue con facilidad su entidad de las entidades vecinas.
Lo que muestran las investigaciones sobre interpretabilidad
Las investigaciones sobre interpretabilidad de los últimos años van haciendo gradualmente menos misteriosa esa imagen interna. El trabajo de Mor Geva y sus coautores mostró que los bloques feed-forward de la arquitectura Transformer a menudo se comportan como una especie de memoria de «clave-valor»: unas pautas de entrada textuales activan otras y empujan al modelo hacia una determinada continuación léxica [1]. El trabajo de Kevin Meng y sus colegas sobre la localización y edición de asociaciones fácticas mostró que una parte de los hechos en los modelos de autocompletado puede vincularse de verdad a nodos computacionales relativamente localizables, sobre todo en las capas intermedias [2]. Un trabajo posterior de Masaki Sakata y sus coautores encontró que las menciones de una misma entidad tienden a formar clústeres distinguibles en el espacio interno de representaciones, y que la información vinculada con la entidad suele concentrarse en un subespacio lineal compacto en las primeras capas del modelo [3]. Por último, las investigaciones de revisión sobre la mecánica del conocimiento en los modelos de lenguaje de gran escala subrayan una conclusión general: el conocimiento en estos sistemas existe realmente, pero está distribuido, es frágil y depende del modo en que se lo extraiga [4][5].
La manera más simple de imaginarlo es la siguiente. Dentro del modelo, la marca existe como un relieve probabilístico. En ese relieve hay zonas donde el nombre de la empresa está próximo a palabras como «analítica», «seguridad», «plataforma», «predicción», «mercado corporativo» o, por ejemplo, «gestión de la experiencia del cliente». Hay relaciones con productos conocidos. Hay huellas de antiguos comunicados de prensa. Hay proximidad con los competidores. Hay huellas de preguntas de usuarios a las que, en los datos de entrenamiento, solían seguir ciertos tipos de respuesta. Cuando el modelo recibe una nueva consulta, no «extrae una ficha», sino que recorre ese relieve y construye la interpretación más probable.
Precisamente por eso, la pregunta «qué sabe la IA sobre una empresa» conviene sustituirla por otra: «qué configuración de relaciones es capaz de reconstruir de manera estable la IA sobre una empresa en distintos contextos». Esto es más preciso y más útil. Porque para un negocio no importa la conciencia abstracta del modelo, sino la estabilidad. Si se pregunta al sistema de respuestas de diez maneras parecidas, ¿asignará una y otra vez la marca a la misma categoría? ¿La vinculará con las mismas propiedades básicas? ¿Distinguirá correctamente el producto de la empresa, la empresa de la estructura matriz, el nombre jurídico del nombre de consumo? ¿O cada nueva consulta activará una entidad ligeramente distinta?
Relieve probabilístico, vectores y relaciones estables
Esa estabilidad se ve bien en el ejemplo de las representaciones vectoriales (embeddings), es decir, de las representaciones numéricas del texto a las que se traducen las palabras, las frases y los fragmentos de contexto. La proximidad entre dos representaciones de este tipo suele medirse con la similitud coseno:
cos(theta) = (x · y) / (||x|| ||y||)
Aquí x e y son dos vectores. Uno puede corresponder a un conjunto de menciones de la marca; el otro, a un rasgo como «analítica corporativa» o «servicio de consumo de bajo costo». Si el coseno está próximo a uno, las direcciones de los vectores se parecen y el sistema tiende a considerar estos objetos como estrechamente relacionados. Si el valor es bajo o cambia de un contexto a otro, la relación resulta débil o inestable. La empresa no tiene acceso directo a esos vectores dentro de los modelos comerciales cerrados. Pero la lógica misma es útil: la marca gana cuando los vínculos importantes en su representación de máquina dejan de ser accidentales y se vuelven repetibles.
A partir de aquí también se entiende la naturaleza de las distorsiones típicas. Si el nombre de la marca es ambiguo, el modelo puede atraerlo con demasiada fuerza hacia la categoría general y perder su individualidad. Si la empresa tiene varias líneas de producto con distintos lenguajes de descripción, dentro del modelo pueden no llegar a formar una sola familia. Si el entorno externo conoce mejor la versión antigua de la marca que la nueva, el modelo «recordará el pasado» con más insistencia de la que querría el marketing. Si los competidores poseen un contorno semántico más nítido y mejor confirmado, una consulta sobre una clase de soluciones llevará a ellos y no a su empresa. Y a la inversa: si la marca está presente de forma sistemática en el lenguaje del mercado, en fuentes independientes y en sus propias descripciones claras, el modelo tendrá más probabilidades de reconstruir precisamente su marca, incluso aunque la empresa no sea la más grande.
Tres capas de la representación interna y un nuevo diagnóstico
Conviene dividir la representación interna de la marca en tres capas. La primera capa es la memoria paramétrica. Es lo que el modelo asimiló durante el entrenamiento y el ajuste posterior: hechos generales, asociaciones típicas, conexiones habituales entre el nombre y las propiedades. La segunda capa es la reconstrucción contextual. Es la forma en que la marca se reconstruye en el propio momento de la respuesta a partir de los estados ocultos del diálogo actual: qué palabras del usuario activaron unas u otras partes del conocimiento de máquina. La tercera capa es el refuerzo externo. En los modos de respuesta y de búsqueda, aquí se añaden páginas web recientes, documentos y bases de conocimiento, que influyen en la conclusión final [4][6][7]. En la práctica, es precisamente la interacción de las tres capas la que determina cómo se verá la marca en la respuesta.
Esta estructura explica por qué muchas empresas se equivocan al diagnosticar el problema. Cuando la marca no aparece en la respuesta, suele pensarse que «el modelo no nos conoce». A veces es verdad, pero no siempre. El modelo puede conocer la empresa por su nombre y, aun así, no considerarla la mejor respuesta a la pregunta. Puede recordar el producto, pero no vincularlo con el escenario de uso correcto. Puede citar correctamente el sitio, pero jerarquizar mal la importancia de los atributos. Puede apoyarse en fuentes web actuales y, con ello, redefinir el conocimiento interno antiguo. Dicho de otro modo, el problema puede no estar en la existencia del conocimiento, sino en su configuración.
Esto es especialmente importante para las marcas acostumbradas a apoyarse en la fuerza de su propia comunicación. Dentro de un sistema de respuestas no gana solo quien habla más alto de sí mismo, sino también aquel de quien puede construirse una representación no contradictoria. Y una representación no contradictoria requiere disciplina. El nombre debe ser estable. La categoría, clara. La estructura de productos, distinguible. Las propiedades, formuladas de manera directa y no solo insinuadas. Las confirmaciones externas, diversas y fiables. Entonces el modelo tiene la oportunidad no solo de reconocer la marca, sino de mantenerla en la memoria como una entidad estable.
Aquí aparece una conclusión más. El trabajo sobre la representación interna de la marca no se reduce a la «optimización del texto». En esencia, es un trabajo sobre la forma epistémica de la empresa, es decir, sobre la manera en que la empresa existe como conocimiento. Cuando la marca está mal ensamblada como conocimiento, el sistema de respuestas se ve obligado a completar los vacíos de forma probabilística. Cuando la marca está bien ensamblada, la probabilidad de distorsión disminuye. En este sentido, la lucha contemporánea por la visibilidad no es solo una lucha por el tráfico, sino también por la calidad de la comprensión por parte de la máquina.
Este enfoque resulta útil también porque devuelve la conversación a un plano maduro. No conviene preguntarse «si la IA nos recuerda». Conviene preguntarse qué propiedades de nuestra marca se extraen de manera estable, qué relaciones se pierden, qué atributos se sobrevaloran y cuáles ni siquiera llegan a la respuesta. A partir de esas preguntas empiezan ya la estrategia, el diagnóstico y el trabajo sustantivo. Son precisamente ellas las que distinguen una gestión seria de la visibilidad de máquina de una carrera superficial por menciones aleatorias.
Puede afirmarse con seguridad que el conocimiento en los modelos de lenguaje actuales está distribuido y se extrae de forma contextual. De ello se sigue que la estabilidad de la marca en las respuestas no puede reducirse a la simple presencia del nombre en el material de entrenamiento.
Está menos sólidamente establecida la geometría exacta de ese conocimiento en los sistemas comerciales cerrados. Vemos los mecanismos generales en los trabajos académicos, pero no tenemos acceso directo a los vectores internos ni a las reglas de reconstrucción de cada plataforma.
Para una empresa, esto significa pasar del lenguaje de la «optimización del texto» al lenguaje de la forma epistémica: hay que vigilar qué propiedades de la marca se extraen de forma estable y cuáles se descomponen o se distorsionan.