🏷️ Amazon Research · AAAI 2026

Générer des fiches produit synthétiques avec des LLMs

Amazon publie une méthode pour générer massivement des données produit synthétiques de qualité — sans annotation humaine coûteuse. Les données synthétiques atteignent la même précision que les vraies données réelles, et les configurations hybrides font encore mieux.

⚡ Chiffres clés
99.6%

Naturel

Produits synthétiques jugés naturels par des experts humains

60.5%

Précision synthétique

vs 60.8% avec vraies données — quasi-parité

68.8%

Config hybride

75% réel + 25% synthétique — meilleur résultat

+5x

vs Zero-shot

13.4% baseline → 60.5% avec données synthétiques

2 000

Produits évalués

Évaluation humaine exhaustive par annotateurs experts

🔬

La méthode : génération contrôlée par attributs

Un framework en 5 étapes qui utilise des LLMs pour modifier des produits existants de façon systématique — pas de génération from scratch, mais de la modification ciblée et contrôlée.

🏢 Amazon Spain & Germany 🤖 Claude Haiku 📦 Dataset MAVE — 2.2M produits 🏆 AAAI 2026 Workshop
🔄 Pipeline de génération synthétique
1
📦
Produit source
Input : le produit réel existant
Chaque produit p du catalogue est défini par deux composantes :

Attributs structurés S(p) — paires clé/valeur contraintes à un vocabulaire fixe : {couleur: "rouge", taille: "M", matière: "coton"}

Champs texte T(p) — contenu libre : titre, description, bullet points. C'est là que les attributs s'expriment en langage naturel, avec des formulations variées.
Produit réel Attributs structurés Champs texte libres
2
🎯
Sélection de l'attribut cible
Choix guidé par la catégorie produit
On choisit un attribut s ∈ S(p) pertinent pour la catégorie du produit. Ce n'est pas un choix aléatoire : la catégorie guide la sélection pour garantir la cohérence sémantique.

Exemple : "heel_height" pour les chaussures, "sleeve_style" pour les vêtements, "sugar_content" pour les aliments. Un attribut non pertinent pour la catégorie ne sera pas ciblé.
Catégorie-aware 1 attribut par produit
3
🎲
Tirage de la stratégie
3 types d'exemples avec des probabilités définies
La stratégie détermine comment le produit sera modifié. Elle est tirée aléatoirement selon des probabilités calibrées pour refléter la distribution réelle des problèmes de qualité dans les catalogues e-commerce.
✅ Positif (correct)
50%
⚠️ Négatif (incorrect)
25%
❓ Incomplet (unknown)
25%
4
⚙️
Génération de la nouvelle valeur
Value Provider LLM + Similarity LLM (pour les négatifs)
Pour les positifs et incomplets : un LLM "Value Provider" génère une nouvelle valeur plausible pour l'attribut sélectionné. Il prend en compte les contraintes du marketplace (unités, formats), les valeurs déjà utilisées (pour la diversité), et les métadonnées de l'attribut si disponibles.

Pour les négatifs : processus en deux temps — d'abord générer un pool de valeurs valides (temp=1.0 pour la diversité), puis un Similarity LLM (sentence-transformers) sélectionne une valeur sémantiquement distincte de la valeur correcte. L'objectif : introduire une vraie contradiction, pas un synonyme.
Claude Haiku sentence-transformers Anti-synonymes pour les négatifs
5
✍️
Génération du produit synthétique
Generation LLM avec un prompt structuré en 4 blocs
Le LLM reçoit un prompt construit avec 4 composantes et modifie l'ensemble des champs texte du produit en une seule passe, en respectant toutes les contraintes simultanément.
ROLE
Tu es un expert en rédaction de fiches produit e-commerce pour [marketplace]. Tu connais les standards de qualité, les formats requis et les conventions de la catégorie. → Ancre le LLM dans le domaine
INSTRUCTION
Modifie ce produit pour que l'attribut [s] ait la valeur [v]. Remplace toutes les marques par des alternatives fictieuses plausibles. Préserve la structure originale. Mets à jour TOUS les champs qui mentionnent cet attribut de façon cohérente. → Contraintes de modification
CONTEXT
Produit original :
Titre: "Running Shoes ProX — Waterproof, Red"
Description: "Chaussure de running imperméable..."
Attribut cible: couleur → "Blue" → Le produit source et la modification souhaitée
FORMAT
Réponds en JSON avec les champs : title, description, features, structured_attributes. → Sortie standardisée pour le pipeline
Anonymisation marques auto Cohérence cross-champs Sortie JSON Contraintes marketplace

💡 Exemple concret : 3 versions du même produit

Produit source : chaussure de running rouge. L'attribut couleur est ciblé, nouvelle valeur : "bleu".

Exemple positif — cohérence totale
Toutes les références à "rouge" sont remplacées par "bleu" dans tous les champs
Original

Titre : Running ProX — Imperméable, Rouge

Description : "...coloris rouge vif pour une visibilité optimale..."

Features : "Disponible en rouge, adapté trail"

Attribut : couleur = rouge

Synthétique

Titre : Running ProX — Imperméable, Bleu

Description : "...coloris bleu marine pour une visibilité optimale..."

Features : "Disponible en bleu, adapté trail"

Attribut : couleur = bleu

⚠️
Exemple négatif — contradiction subtile
L'attribut structuré dit "bleu" mais un seul champ texte contient encore une mention de "rouge"
Avant

Titre : Running ProX — Imperméable, Rouge

Description : "...coloris rouge vif..."

Features : "Disponible en rouge, adapté trail"

Attribut : couleur = rouge

Synthétique (négatif)

Titre : Running ProX — Imperméable, Bleu

Description : "...coloris bleu marine..." ← correct

Features : "Disponible en rouge, adapté trail" ← incohérent !

Attribut : couleur = bleu

Exemple incomplet — attribut absent
Toutes les mentions de la couleur sont supprimées — l'attribut ne peut pas être inféré du texte
Avant

Titre : Running ProX — Imperméable, Rouge

Description : "...coloris rouge vif..."

Features : "Disponible en rouge, adapté trail"

Attribut : couleur = rouge

Synthétique (incomplet)

Titre : Running ProX — Imperméable, RougeChaussure de Running Imperméable

Description : "...conçu pour les performances..."

Features : "Adapté trail" (mention couleur supprimée)

Attribut : couleur = unknown

💡 L'innovation clé par rapport à l'état de l'art

Les approches précédentes (FPDG, back-translation) généraient du texte depuis zéro ou appliquaient des transformations rigides. Cette méthode part d'un produit réel et le modifie chirurgicalement — ce qui préserve le réalisme du contexte produit tout en offrant un contrôle précis sur ce qui change.

Résultat : les données synthétiques "sonnent" e-commerce, parce qu'elles sont e-commerce — juste modifiées.

📊

Résultats : quasi-parité avec les vraies données

Évaluation sur 2 000 produits par des annotateurs experts + benchmark sur le dataset public MAVE

📋 N=2 000 évaluations humaines 🧪 FLAN-T5-base extraction 📦 Dataset MAVE public

🧑‍⚖️ Évaluation humaine — qualité des produits synthétiques

99.6%
Langage naturel
Produits jugés naturels et lisibles
96.5%
Valeurs d'attributs valides
Cohérentes avec la catégorie produit
95.8%
Anonymisation réussie
Marques remplacées correctement
88.8%
Structure préservée
Aucune modification non souhaitée
🎯 Cohérence par type de génération
✅ Exemple positif
94.2%
⚠️ Exemple négatif
93.0%
❓ Exemple incomplet
88.3%

🏆 Précision extraction d'attributs — FLAN-T5 sur MAVE

Configuration d'entraînement Précision
Zero-shot (aucun entraînement) 13.4%
100% Données réelles 60.8%
100% Données synthétiques 60.5%
75% Réel + 25% Synthétique ⭐ 68.8%
50% Réel + 50% Synthétique 66.1%
25% Réel + 75% Synthétique 64.4%

✅ Le résultat clé

100% synthétique ≈ 100% réel en précision (60.5% vs 60.8%). Le gap est statistiquement négligeable.

Mieux encore : la configuration hybride 75% réel + 25% synthétique dépasse les deux avec 68.8% — les données synthétiques apportent de la diversité complémentaire, pas du bruit.

🔍 Observations notables

🧠

Le LLM comprend les relations entre attributs

Exemple : modifier l'origine d'une boisson de "vanille de Madagascar" à "chocolat" entraîne une mise à jour automatique de l'origine en "Suisse" — sans instruction explicite.

✂️

Amélioration spontanée de la qualité des données

Le LLM génère souvent des valeurs plus précises que les originales (ex : "type=shoes" → "type=running shoes"). Inattendu mais positif.

📐

Similarité sémantique élevée avec l'original

Cosine similarity : 0.84 sur les titres, 0.85 sur les descriptions, 0.93 sur les features. Les modifications restent ciblées et ne dénaturent pas le produit.

💡

Ce que ça change pour le e-commerce

Les implications pratiques pour les retailers, les marketplaces, et les outils d'optimisation de flux produit

✅ Les vrais avantages de l'approche

💰

Coût drastiquement réduit

Pas besoin de 12.9M$/an d'annotation manuelle — la génération synthétique automatise la création de datasets

Scalabilité immédiate

Généralisable à n'importe quelle catégorie, n'importe quel marketplace, sans reconstruire le pipeline

🌍

Multi-langue natif

Le framework supporte la génération multilingue et s'adapte aux contraintes locales (unités, formats)

🎯

Edge cases inclus

Génération ciblée d'exemples difficiles (attributs manquants, incohérences) — les modèles entraînés sont plus robustes

🏪 Applications concrètes pour les retailers

🔎

Amélioration de la recherche et des filtres produit

Un modèle d'extraction d'attributs mieux entraîné = des filtres plus précis, des résultats de recherche plus pertinents, moins de produits "orphelins" dans les catalogues.

🛒

Audit et nettoyage de flux produit

La même approche peut détecter des incohérences dans des fiches produit existantes — titre qui contredit la description, attributs contradictoires entre champs.

📈

Data augmentation pour les marchands en croissance

Pour des catalogues de taille moyenne (10K-100K produits), le manque de données étiquetées est le principal frein à l'IA. Cette approche permet de bootstrapper rapidement.

🔄

Optimisation des titres et descriptions produit

La génération synthétique produit des descriptions plus précises et complètes — potentiel direct pour améliorer la qualité des contenus publiés sur les flux shopping.

⚠️ Limites à garder en tête

L'étude n'évalue que la configuration attribut unique par produit — la modification simultanée de plusieurs attributs reste à explorer.

La qualité des données synthétiques dépend de la qualité des données source : des attributs vagues ("type=shoes" pour une fiche de chaussures) posent problème en entrée comme en sortie.

Les métriques d'évaluation downstream ne testent que les exemples positifs — les apports des exemples négatifs et incomplets sur d'autres tâches restent à quantifier.

📚 Sources

1
Amazon Science — Attribute-aware Controlled Product Generation with LLMs for E-commerce

Negri, Martinez Gomez, Balanya, Rajaram — AAAI 2026 Workshop on Responsible Synthetic Data

2
arXiv — Paper complet (preprint)

Version complète avec méthodologie détaillée, exemples, et annexes

3
MAVE Dataset — Yang et al. 2022 (WSDM)

Dataset de référence utilisé pour l'évaluation : 2.2M produits, 1 257 catégories, 662 attributs uniques