A/B test
Variante orthographique d'A/B testing désignant la même méthode de comparaison de deux versions p...
Méthode d'intelligence artificielle où un modèle apprend à partir de données étiquetées pour prédire une sortie à partir de nouvelles entrées
L'apprentissage supervisé est la forme la plus courante et la plus mature du machine learning. Pour un directeur marketing ou un responsable commercial, c'est probablement celle qui va avoir le plus d'impact concret dans vos équipes, et rapidement. Comprendre son principe, c'est savoir comment automatiser des prédictions, qualifier des leads, ou personnaliser des offres à grande échelle.
Imaginez un étudiant qui prépare un examen. Son professeur lui donne des exercices corrigés : voici un problème, voici la solution. L'étudiant étudie ces exemples, apprend à faire le lien entre le problème et la solution. Le jour de l'examen, on lui donne de nouveaux problèmes, jamais vus, et il applique ce qu'il a appris pour trouver les solutions. C'est exactement le principe de l'apprentissage supervisé.
Techniquement, on fournit à l'algorithme un ensemble de données d'entraînement, où chaque exemple est associé à une "étiquette" (la bonne réponse). Par exemple, pour un problème de détection de spam, on donne des milliers d'emails, chacun étiqueté "spam" ou "non spam". L'algorithme analyse ces exemples, apprend à distinguer les caractéristiques des spams, et construit un modèle. Ensuite, quand un nouvel email arrive, le modèle peut prédire s'il s'agit d'un spam ou non.
Pour un décideur, il est utile de connaître les deux grands types de problèmes que résout l'apprentissage supervisé. La classification, d'abord : il s'agit d'attribuer une catégorie à une observation. Est-ce que ce client va acheter ou non ? Est-ce que cette transaction est frauduleuse ? Est-ce que cet avis est positif ou négatif ? La sortie est discrète : oui/non, ou une catégorie parmi plusieurs. C'est ce qu'on utilise pour la qualification de leads, la détection de fraude, l'analyse de sentiment.
La régression, ensuite : il s'agit de prédire une valeur continue. Quel sera le montant de cette vente ? Quelle est la durée de vie probable de ce client ? Quel prix optimiser pour ce produit ? La sortie est un nombre. C'est ce qu'on utilise pour la prédiction de chiffre d'affaires, l'estimation de la valeur client, l'optimisation tarifaire. Ces deux familles couvrent une très large part des problèmes métier que vous pouvez rencontrer.
Les applications de l'apprentissage supervisé dans votre quotidien sont innombrables. En acquisition, vous pouvez entraîner un modèle à prédire quels prospects ont la plus forte probabilité de conversion, pour concentrer vos efforts commerciaux sur eux. Vous alimentez le modèle avec l'historique de vos leads passés : pour chacun, vous savez s'ils ont converti ou non, et vous avez des caractéristiques (source, secteur, comportement sur le site). Le modèle apprend quelles combinaisons de caractéristiques sont prédictives du succès.
En fidélisation, vous pouvez prédire quels clients risquent de se désabonner. Même principe : vous prenez l'historique des clients partis et restés, avec leurs comportements (fréquence d'achat, appels au service client, ouvertures d'emails...). Le modèle identifie les signaux d'alerte. Vous pouvez alors déclencher des actions de rétention avant que le client ne parte. En personnalisation, vous pouvez prédire quel produit chaque client est le plus susceptible d'acheter, pour adapter vos recommandations et vos offres.
Pour qu'un projet d'apprentissage supervisé aboutisse, trois ingrédients sont essentiels. D'abord, des données historiques de qualité, en quantité suffisante. Il vous faut des milliers d'exemples, avec des étiquettes fiables. La qualité des étiquettes est cruciale : si vos données d'entraînement sont mal étiquetées, le modèle apprendra des erreurs. Ensuite, des caractéristiques pertinentes (les "features"). Le modèle a besoin de variables qui ont un pouvoir prédictif. Plus vous lui donnez d'informations pertinentes, meilleure sera sa performance.
Enfin, une définition claire du problème et de la métrique de succès. Que cherchez-vous exactement à prédire ? Comment mesurerez-vous la performance du modèle ? Est-ce le taux de bonnes classifications, la précision, le rappel ? Selon votre objectif (éviter de rater des opportunités vs éviter de gaspiller des ressources), la métrique optimale n'est pas la même. Ces choix doivent être faits en amont, en collaboration entre métier et data scientists.
L'apprentissage supervisé a ses limites. La principale est qu'il ne peut prédire que ce qui ressemble à ce qu'il a vu en entraînement. Si votre environnement change radicalement (nouveau marché, nouveau produit, crise), le modèle peut devenir obsolète. C'est ce qu'on appelle le "concept drift". Il faut surveiller en permanence la performance des modèles et les ré-entraîner périodiquement.
Autre piège : les biais dans les données d'entraînement. Si vos données historiques reflètent des discriminations (par exemple, vous avez moins embauché de femmes dans le passé), un modèle entraîné sur ces données reproduira ces biais. C'est un enjeu éthique et juridique majeur. Enfin, attention au sur-apprentissage : un modèle trop complexe peut "apprendre par cœur" les données d'entraînement et être incapable de généraliser à de nouvelles données. D'où l'importance de tester le modèle sur des données qu'il n'a jamais vues.
Identifiez les problèmes métier où l'apprentissage supervisé peut avoir un impact rapide.
Demander un conseilVariante orthographique d'A/B testing désignant la même méthode de comparaison de deux versions p...
Méthode d'expérimentation qui compare deux versions d'un même élément pour déterminer laquelle pe...
Terme désignant les actions de communication publicitaire réalisées dans les médias de masse trad...