Amazon publie une méthode pour générer massivement des données produit synthétiques de qualité — sans annotation humaine coûteuse. Les données synthétiques atteignent la même précision que les vraies données réelles, et les configurations hybrides font encore mieux.
Un framework en 5 étapes qui utilise des LLMs pour modifier des produits existants de façon systématique — pas de génération from scratch, mais de la modification ciblée et contrôlée.
{couleur: "rouge", taille: "M", matière: "coton"}
Produit source : chaussure de running rouge. L'attribut couleur est ciblé, nouvelle valeur : "bleu".
Titre : Running ProX — Imperméable, Rouge
Description : "...coloris rouge vif pour une visibilité optimale..."
Features : "Disponible en rouge, adapté trail"
Attribut : couleur = rouge
Titre : Running ProX — Imperméable, Bleu
Description : "...coloris bleu marine pour une visibilité optimale..."
Features : "Disponible en bleu, adapté trail"
Attribut : couleur = bleu
Titre : Running ProX — Imperméable, Rouge
Description : "...coloris rouge vif..."
Features : "Disponible en rouge, adapté trail"
Attribut : couleur = rouge
Titre : Running ProX — Imperméable, Bleu
Description : "...coloris bleu marine..." ← correct
Features : "Disponible en rouge, adapté trail" ← incohérent !
Attribut : couleur = bleu
Titre : Running ProX — Imperméable, Rouge
Description : "...coloris rouge vif..."
Features : "Disponible en rouge, adapté trail"
Attribut : couleur = rouge
Titre : Running ProX — Imperméable, Rouge → Chaussure de Running Imperméable
Description : "...conçu pour les performances..."
Features : "Adapté trail" (mention couleur supprimée)
Attribut : couleur = unknown
Les approches précédentes (FPDG, back-translation) généraient du texte depuis zéro ou appliquaient des transformations rigides. Cette méthode part d'un produit réel et le modifie chirurgicalement — ce qui préserve le réalisme du contexte produit tout en offrant un contrôle précis sur ce qui change.
Résultat : les données synthétiques "sonnent" e-commerce, parce qu'elles sont e-commerce — juste modifiées.
Évaluation sur 2 000 produits par des annotateurs experts + benchmark sur le dataset public MAVE
| Configuration d'entraînement | Précision |
|---|---|
| Zero-shot (aucun entraînement) | 13.4% |
| 100% Données réelles | 60.8% |
| 100% Données synthétiques | 60.5% |
| 75% Réel + 25% Synthétique ⭐ | 68.8% |
| 50% Réel + 50% Synthétique | 66.1% |
| 25% Réel + 75% Synthétique | 64.4% |
100% synthétique ≈ 100% réel en précision (60.5% vs 60.8%). Le gap est statistiquement négligeable.
Mieux encore : la configuration hybride 75% réel + 25% synthétique dépasse les deux avec 68.8% — les données synthétiques apportent de la diversité complémentaire, pas du bruit.
Exemple : modifier l'origine d'une boisson de "vanille de Madagascar" à "chocolat" entraîne une mise à jour automatique de l'origine en "Suisse" — sans instruction explicite.
Le LLM génère souvent des valeurs plus précises que les originales (ex : "type=shoes" → "type=running shoes"). Inattendu mais positif.
Cosine similarity : 0.84 sur les titres, 0.85 sur les descriptions, 0.93 sur les features. Les modifications restent ciblées et ne dénaturent pas le produit.
Les implications pratiques pour les retailers, les marketplaces, et les outils d'optimisation de flux produit
Pas besoin de 12.9M$/an d'annotation manuelle — la génération synthétique automatise la création de datasets
Généralisable à n'importe quelle catégorie, n'importe quel marketplace, sans reconstruire le pipeline
Le framework supporte la génération multilingue et s'adapte aux contraintes locales (unités, formats)
Génération ciblée d'exemples difficiles (attributs manquants, incohérences) — les modèles entraînés sont plus robustes
Un modèle d'extraction d'attributs mieux entraîné = des filtres plus précis, des résultats de recherche plus pertinents, moins de produits "orphelins" dans les catalogues.
La même approche peut détecter des incohérences dans des fiches produit existantes — titre qui contredit la description, attributs contradictoires entre champs.
Pour des catalogues de taille moyenne (10K-100K produits), le manque de données étiquetées est le principal frein à l'IA. Cette approche permet de bootstrapper rapidement.
La génération synthétique produit des descriptions plus précises et complètes — potentiel direct pour améliorer la qualité des contenus publiés sur les flux shopping.
L'étude n'évalue que la configuration attribut unique par produit — la modification simultanée de plusieurs attributs reste à explorer.
La qualité des données synthétiques dépend de la qualité des données source : des attributs vagues ("type=shoes" pour une fiche de chaussures) posent problème en entrée comme en sortie.
Les métriques d'évaluation downstream ne testent que les exemples positifs — les apports des exemples négatifs et incomplets sur d'autres tâches restent à quantifier.
Negri, Martinez Gomez, Balanya, Rajaram — AAAI 2026 Workshop on Responsible Synthetic Data
Version complète avec méthodologie détaillée, exemples, et annexes
Dataset de référence utilisé pour l'évaluation : 2.2M produits, 1 257 catégories, 662 attributs uniques