Le texte n’est plus le seul point d’entrée
Tout au long du corpus AI100, nous avons parlé de la visibilité dans le contexte des requêtes textuelles : l’utilisateur saisit une question, le modèle formule une réponse. Mais l’univers de la recherche ne se réduit plus depuis longtemps à une suite de mots tapés au clavier. L’utilisateur photographie un produit en magasin et demande : « combien cela coûte en ligne ? » Il dit à voix haute : « quel est ce modèle ? », en pointant la caméra vers des écouteurs. Il téléverse une capture d’écran Instagram et demande : « trouve quelque chose de similaire, mais moins cher ». Il filme une vidéo et ajoute une question textuelle : « de quel matériau est-ce fait ? »
Ce ne sont pas des scénarios exotiques. Google Lens traite plus de 20 milliards de requêtes visuelles par mois, et 20 % d’entre elles sont liées aux achats [1]. AI Mode est intégré à Google Lens : l’utilisateur peut prendre une photo ou téléverser une image, et le système, en s’appuyant sur les capacités multimodales de Gemini, analyse toute la scène — les objets, leur contexte, les matériaux, les couleurs, les formes — puis formule une réponse synthétique [2]. ChatGPT avec GPT-4o traite simultanément les images, la voix et le texte. 27 % des utilisateurs mobiles utilisent déjà la recherche vocale [3].
Pour une marque, cela signifie que l’optimisation textuelle est une condition nécessaire, mais déjà insuffisante, de la visibilité. Si votre produit ne peut pas être reconnu sur une photo, si vos vidéos sur YouTube n’ont pas de transcription, si un assistant vocal ne peut pas relier le nom prononcé de l’entreprise à la bonne entité, vous perdez l’audience qui cherche autrement qu’avec des mots.
Comment la recherche visuelle change les règles
La recherche visuelle fonctionne fondamentalement différemment de la recherche textuelle. L’utilisateur ne décrit pas ce qu’il cherche — il le montre. Les réseaux neuronaux convolutionnels (CNN) convertissent l’image en un vecteur numérique et le comparent à une base d’images indexées [4]. Cela signifie que la qualité, la cohérence et l’accessibilité technique des images sur le site influencent directement la probabilité que votre produit soit trouvé.
Dans le e-commerce, les conséquences sont les plus évidentes. Un acheteur voit une robe dans la rue, la photographie, et Google Lens lui montre en trois secondes des produits similaires avec leurs prix dans différents magasins en ligne. Si les images de vos produits sont de mauvaise qualité, sans textes alternatifs descriptifs, sans Product schema, sans style de prise de vue homogène, elles n’entreront pas dans cette sélection. Le concurrent qui dispose de photographies propres et balisées, lui, y figurera.
La cohérence visuelle entre les plateformes devient elle aussi un facteur. Google Lens reconnaît mieux les marques qui utilisent un style photographique homogène sur leur site, dans les places de marché et sur les réseaux sociaux. Un univers visuel hétérogène rend plus difficile le rattachement à l’entité [5].
La recherche vocale et les requêtes longues
Les requêtes vocales se distinguent des requêtes textuelles non seulement par la modalité, mais aussi par leur structure. Lorsqu’il parle à voix haute, l’utilisateur emploie des phrases naturelles : « Quel est le meilleur café près de chez moi qui soit ouvert en ce moment ? » au lieu de « café près ouvert ». Les requêtes dans AI Mode sont en moyenne trois fois plus longues que les requêtes de recherche ordinaires [6]. Cela signifie qu’un contenu optimisé pour de courtes expressions-clés peut ne pas correspondre à la manière dont les gens formulent leurs requêtes à l’oral.
Pour une marque, la conséquence pratique est claire : les sections FAQ rédigées au format « question — réponse directe » fonctionnent mieux pour la recherche vocale que de longs textes marketing. Les données structurées (FAQ schema, HowTo schema) aident les assistants vocaux à extraire une réponse précise. Le nom de la marque doit être prononçable et sans ambiguïté — un modèle incapable de relier « Exco-Data » prononcé à l’entité « ExcoData » perdra la marque dans une requête vocale.
Vidéo et transcriptions
Les systèmes d’IA utilisent de plus en plus les contenus vidéo. Les transcriptions des vidéos YouTube deviennent des sources de citation : si, dans votre vidéo, un expert explique en détail le fonctionnement du produit et que la transcription est disponible, le modèle peut en extraire un fragment pour formuler sa réponse. En l’absence de transcription, la vidéo reste invisible pour la partie textuelle du système de réponse.
Google indique explicitement que AI Mode utilise une analyse multimodale : le système travaille simultanément avec le texte, les images, la vidéo et le contexte [2]. Pour une marque qui publie des vidéos pédagogiques, des revues ou des démonstrations produit, une transcription propre et précise n’est pas une option, mais une condition pour être trouvée.
Que faire dès maintenant
L’optimisation multimodale n’exige pas de révolution. Elle exige d’étendre le travail habituel à de nouveaux formats.
Images : qualité élevée, noms de fichiers descriptifs et textes alternatifs, Product schema relié aux produits précis, style de prise de vue homogène sur toutes les plateformes.
Voix : sections FAQ au format question-réponse, HowTo schema pour les instructions, nom de marque prononçable et sans ambiguïté.
Vidéo : transcriptions pour chaque vidéo sur YouTube et sur le site, VideoObject schema, titres descriptifs et métadonnées.
Couche générale : le principe est le même que pour la visibilité textuelle — données structurées, lisibilité machine, confirmations externes. La multimodalité n’annule pas ces fondements ; elle y ajoute de nouveaux canaux d’entrée.
Ce qui est établi avec fiabilité : La recherche visuelle traite déjà des dizaines de milliards de requêtes par mois. AI Mode intègre une entrée multimodale (photo + texte + voix). Les transcriptions vidéo sont utilisées comme source de citation. Les requêtes vocales sont plus longues et plus conversationnelles que les requêtes textuelles.
Ce qui reste probable ou dépend de la plateforme : La part exacte des réponses d’IA déclenchées par une entrée visuelle ou vocale reste encore mal mesurée en dehors de Google Lens. L’effet de l’optimisation multimodale sur la citation d’une marque selon les plateformes n’a été étudié que de manière fragmentaire.
Signification pratique pour le travail avec la marque : Une marque doit optimiser non seulement le texte, mais aussi les images, la vidéo et sa capacité à être trouvée par la voix. Les actions de base (textes alternatifs, transcriptions, FAQ schema) sont simples et peuvent être engagées dès maintenant.
Sources : [1] Google / DemandSage. Google Lens: 20 billion visual searches per month, 20% shopping-related. 2025 [2] 9to5Google / Google I/O. Google AI Mode adding multimodal Google Lens search. 2025 [3] Google / Lumar. 27% of global mobile users use voice search. 2025 [4] Xictron / Pinecone. Visual search technology: CNN embeddings and vector matching. 2026 [5] SE Blog. Multimodal Search Optimization: visual consistency and entity recognition. 2026 [6] ALM Corp. Google AI Mode queries average nearly 3x longer than traditional search. 2026