Job board integrations
Connexions techniques entre un site carrière ou un ATS et les plateformes d'emploi pour automatis...
Unité de base utilisée par les modèles d'intelligence artificielle et de traitement du langage naturel pour analyser et générer du texte
Le jeton textuel, ou "token" en anglais, est un concept fondamental dans le monde de l'intelligence artificielle et du traitement automatique du langage (NLP). Pour faire simple, c'est la plus petite unité que les modèles de langage comme GPT, Gemini ou Claude utilisent pour comprendre et générer du texte. Mais attention, un jeton n'est pas forcément un mot. Ça peut être un mot entier, une partie de mot, un caractère, ou même un signe de ponctuation selon la façon dont le modèle découpe le texte.
Pour qu'un modèle d'IA puisse traiter du texte, il faut le transformer en quelque chose qu'il peut comprendre numériquement. Cette transformation passe par une étape qu'on appelle la tokenisation. Le texte brut est découpé en une séquence de jetons, et chaque jeton reçoit un identifiant numérique unique qui correspond à une entrée dans le vocabulaire du modèle.
Prenons un exemple concret. La phrase "Je suis développeur" pourrait être tokenisée de différentes façons selon la méthode utilisée. Un tokenizer simple pourrait en faire trois jetons : ["Je", "suis", "développeur"]. Un tokenizer plus sophistiqué (comme celui de GPT) pourrait découper "développeur" en deux jetons : ["dével", "oppeur"] si le mot complet n'est pas dans son vocabulaire mais que les sous-mots le sont.
Cette approche par sous-mots est très maligne. Elle permet au modèle de gérer des mots qu'il n'a jamais vus pendant son entraînement, en les décomposant en unités plus petites qu'il connaît. C'est particulièrement utile pour les langues comme l'allemand où les mots composés sont fréquents, ou pour traiter des mots techniques, des noms propres, ou des termes inventés.
Les jetons sont au cœur de tout ce que font les modèles de langage modernes. Quand vous utilisez ChatGPT, chaque mot que vous écrivez est tokenisé. Quand le modèle génère une réponse, il génère des jetons un par un. La longueur des contextes (ce dont le modèle "se souvient") est mesurée en jetons. La facturation des API comme celle d'OpenAI est basée sur le nombre de jetons traités.
En moyenne, on considère qu'un jeton correspond à environ 0.75 mot en anglais, et un peu moins dans d'autres langues. Pour le français, compte tenu des accents et des spécificités orthographiques, c'est plutôt entre 0.6 et 0.7 mot par jeton. Une page de texte standard représente environ 250 à 300 jetons.
Tous les tokenizers ne se valent pas. On distingue plusieurs approches :
La tokenisation par mots : c'est la plus intuitive. On découpe sur les espaces et la ponctuation. Simple, mais ça génère un vocabulaire énorme (des centaines de milliers de mots) et ça ne gère pas les mots inconnus.
La tokenisation par caractères : chaque caractère est un jeton. Vocabulaire très réduit (quelques dizaines de caractères), mais les séquences deviennent très longues, ce qui est coûteux en calcul.
La tokenisation par sous-mots (Byte Pair Encoding ou BPE) : c'est le standard actuel, utilisé par tous les grands modèles. On part des caractères et on fusionne itérativement les paires qui apparaissent le plus souvent pour créer un vocabulaire de taille intermédiaire (généralement entre 30 000 et 100 000 jetons). On obtient ainsi un bon compromis : vocabulaire raisonnable, bonne couverture des mots, et capacité à traiter les inconnus.
La tokenisation a ses petites subtilités. Par exemple, les espaces sont souvent inclus dans les jetons plutôt que traités à part. Ça veut dire que " chat" (avec un espace devant) et "chat" (sans espace) peuvent être des jetons différents. C'est important pour la génération de texte : le modèle apprend ainsi quand mettre des espaces.
Autre point : selon la langue, le nombre de jetons pour exprimer la même idée peut varier considérablement. C'est un sujet sensible, car si vous facturez au jeton, certaines langues reviennent plus cher que d'autres. Les langues comme le chinois ou le japonais, où chaque caractère porte beaucoup de sens, peuvent être tokenisées de façon très compacte, tandis que des langues agglutinantes comme le finnois ou le turc produisent des séquences très longues.
Pour les professionnels qui utilisent les API d'IA, bien comprendre la tokenisation aide à optimiser les coûts. Des prompts plus concis, une structure réfléchie, l'élimination du bruit inutile peuvent réduire significativement le nombre de jetons et donc la facture, sans perdre en qualité.
Avec l'arrivée des modèles capables de traiter images, audio et vidéo, le concept de jeton s'élargit. On parle maintenant de "jetons visuels" ou "jetons audio". Une image est découpée en patches, chacun devenant une sorte de jeton que le modèle traite comme il traiterait un jeton textuel. C'est cette unification de représentation qui permet aux modèles modernes d'être véritablement multimodaux.
Estimez le nombre de tokens de vos textes et optimisez vos coûts d'API avec notre outil gratuit.
Calculateur de tokensConnexions techniques entre un site carrière ou un ATS et les plateformes d'emploi pour automatis...
Comprendre ce qu'est le routage, ses différentes acceptions en marketing et en logistique, et com...
Comprendre ce qu'est le RGPD, ses principes clés, et pourquoi ce règlement est un enjeu stratégiq...