Modèle Transformer : définition et révolution en IA

Le problème que les Transformers ont résolu

Avant 2017 (date de publication de l'article fondateur "Attention is All You Need"), les modèles de langage traitaient les phrases séquentiellement, mot après mot. Ils avaient du mal à capturer les relations entre des mots éloignés dans une phrase. Par exemple, dans "Le chat, qui était assis sur le tapis que ma grand-mère avait tricoté, s'est endormi", le lien entre "chat" et "s'est endormi" est perdu si on traite les mots un par un sans mémoire suffisante. Les Transformers ont changé cela grâce à un mécanisme appelé "attention".

Le mécanisme d'attention

L'idée est simple et puissante. Au lieu de traiter les mots dans l'ordre, le Transformer regarde tous les mots de la phrase en même temps (en parallèle). Pour chaque mot, il calcule un score d'attention envers tous les autres mots. Ainsi, pour comprendre le mot "chat", il va faire particulièrement attention aux mots qui lui sont liés : "assit", "tapis", "endormi". Il construit une représentation contextuelle de chaque mot, intégrant l'influence de tous les autres.

Ce mécanisme permet de capturer des relations complexes, même entre des mots très éloignés. Il permet aussi de traiter la phrase en parallèle, ce qui est beaucoup plus efficace que le traitement séquentiel. C'est ce qui a permis d'entraîner des modèles beaucoup plus grands, avec beaucoup plus de données.

L'architecture Transformer en bref

Un modèle Transformer, c'est une pile de couches. Chaque couche contient deux sous-couches principales : un mécanisme d'attention multi-têtes (qui regarde les relations entre les mots) et un petit réseau de neurones (qui traite chaque mot individuellement). Le tout est agrémenté de connexions résiduelles et de normalisation pour faciliter l'apprentissage.

Il y a deux variantes principales. L'encodeur, qui lit le texte et en construit une représentation (utilisé dans BERT pour la compréhension). Le décodeur, qui génère du texte mot après mot en regardant ce qu'il a déjà généré (utilisé dans GPT pour la génération). Les modèles comme ChatGPT combinent les deux ou utilisent des variantes.

Pourquoi c'est une rupture

Les Transformers ont permis de passer à l'échelle. On peut maintenant entraîner des modèles avec des centaines de milliards de paramètres sur des quantités de données gigantesques. Et plus on ajoute de données et de paramètres, plus le modèle devient performant. C'est ce qu'on appelle les lois d'échelle. Les Transformers ont rendu possible cette mise à l'échelle.

Ils ont aussi montré qu'un modèle entraîné sur une tâche (prédire le mot suivant) pouvait apprendre des capacités bien plus larges : raisonnement, traduction, résumé, codage. C'est l'émergence de compétences non explicitement programmées. C'est ce qui rend les LLM si fascinants.

Au-delà du texte

L'architecture Transformer n'est pas limitée au texte. On peut l'appliquer à des séquences d'images (Vision Transformers), de sons, de données de capteurs. Partout où il y a une séquence, les Transformers peuvent apprendre. C'est devenu l'architecture de base pour de nombreux domaines de l'IA.

Pour une entreprise, les Transformers sont l'infrastructure invisible derrière les outils d'IA qu'elle utilise. Quand vous utilisez un chatbot, un traducteur automatique, un outil de génération d'images, il y a très probablement des Transformers dedans. C'est la technologie qui a rendu l'IA générative possible.

Modèles Transformer

Sommaire

Le problème que les Transformers ont résolu

Le mécanisme d'attention

L'architecture Transformer en bref

Pourquoi c'est une rupture

Au-delà du texte

Termes associés

Machine learning (Apprentissage automatique)

Marketing automation

Marketing direct