🏷️ Amazon Research · AAAI 2026

Générer des fiches produit synthétiques avec des LLMs

Amazon publie une méthode pour générer massivement des données produit synthétiques de qualité — sans annotation humaine coûteuse. Les données synthétiques atteignent la même précision que les vraies données réelles, et les configurations hybrides font encore mieux.

⚡ Chiffres clés

99.6%

Naturel

Produits synthétiques jugés naturels par des experts humains

60.5%

Précision synthétique

vs 60.8% avec vraies données — quasi-parité

68.8%

Config hybride

75% réel + 25% synthétique — meilleur résultat

+5x

vs Zero-shot

13.4% baseline → 60.5% avec données synthétiques

2 000

Produits évalués

Évaluation humaine exhaustive par annotateurs experts

🔬

La méthode : génération contrôlée par attributs

Un framework en 5 étapes qui utilise des LLMs pour modifier des produits existants de façon systématique — pas de génération from scratch, mais de la modification ciblée et contrôlée.

🏢 Amazon Spain & Germany 🤖 Claude Haiku 📦 Dataset MAVE — 2.2M produits 🏆 AAAI 2026 Workshop

🔄 Pipeline de génération synthétique

📦

Produit source

Input : le produit réel existant

Chaque produit p du catalogue est défini par deux composantes :

Attributs structurés S(p) — paires clé/valeur contraintes à un vocabulaire fixe : {couleur: "rouge", taille: "M", matière: "coton"}

Champs texte T(p) — contenu libre : titre, description, bullet points. C'est là que les attributs s'expriment en langage naturel, avec des formulations variées.

Produit réel Attributs structurés Champs texte libres

🎯

Sélection de l'attribut cible

Choix guidé par la catégorie produit

On choisit un attribut s ∈ S(p) pertinent pour la catégorie du produit. Ce n'est pas un choix aléatoire : la catégorie guide la sélection pour garantir la cohérence sémantique.

Exemple : "heel_height" pour les chaussures, "sleeve_style" pour les vêtements, "sugar_content" pour les aliments. Un attribut non pertinent pour la catégorie ne sera pas ciblé.

Catégorie-aware 1 attribut par produit

🎲

Tirage de la stratégie

3 types d'exemples avec des probabilités définies

La stratégie détermine comment le produit sera modifié. Elle est tirée aléatoirement selon des probabilités calibrées pour refléter la distribution réelle des problèmes de qualité dans les catalogues e-commerce.

✅ Positif (correct)

50%

⚠️ Négatif (incorrect)

25%

❓ Incomplet (unknown)

25%

⚙️

Génération de la nouvelle valeur

Value Provider LLM + Similarity LLM (pour les négatifs)

Pour les positifs et incomplets : un LLM "Value Provider" génère une nouvelle valeur plausible pour l'attribut sélectionné. Il prend en compte les contraintes du marketplace (unités, formats), les valeurs déjà utilisées (pour la diversité), et les métadonnées de l'attribut si disponibles.

Pour les négatifs : processus en deux temps — d'abord générer un pool de valeurs valides (temp=1.0 pour la diversité), puis un Similarity LLM (sentence-transformers) sélectionne une valeur sémantiquement distincte de la valeur correcte. L'objectif : introduire une vraie contradiction, pas un synonyme.

Claude Haiku sentence-transformers Anti-synonymes pour les négatifs

✍️

Génération du produit synthétique

Generation LLM avec un prompt structuré en 4 blocs

Le LLM reçoit un prompt construit avec 4 composantes et modifie l'ensemble des champs texte du produit en une seule passe, en respectant toutes les contraintes simultanément.

ROLE

Tu es un expert en rédaction de fiches produit e-commerce pour [marketplace]. Tu connais les standards de qualité, les formats requis et les conventions de la catégorie. → Ancre le LLM dans le domaine

INSTRUCTION

Modifie ce produit pour que l'attribut [s] ait la valeur [v]. Remplace toutes les marques par des alternatives fictieuses plausibles. Préserve la structure originale. Mets à jour TOUS les champs qui mentionnent cet attribut de façon cohérente. → Contraintes de modification

CONTEXT

Produit original :
Titre: "Running Shoes ProX — Waterproof, Red"
Description: "Chaussure de running imperméable..."
Attribut cible: couleur → "Blue" → Le produit source et la modification souhaitée

FORMAT

Réponds en JSON avec les champs : title, description, features, structured_attributes. → Sortie standardisée pour le pipeline

Anonymisation marques auto Cohérence cross-champs Sortie JSON Contraintes marketplace

💡 Exemple concret : 3 versions du même produit

Produit source : chaussure de running rouge. L'attribut couleur est ciblé, nouvelle valeur : "bleu".

✅

Exemple positif — cohérence totale

Toutes les références à "rouge" sont remplacées par "bleu" dans tous les champs

Original

Titre : Running ProX — Imperméable, Rouge

Description : "...coloris rouge vif pour une visibilité optimale..."

Features : "Disponible en rouge, adapté trail"

Attribut : couleur = rouge

Synthétique

Titre : Running ProX — Imperméable, Bleu

Description : "...coloris bleu marine pour une visibilité optimale..."

Features : "Disponible en bleu, adapté trail"

Attribut : couleur = bleu

⚠️

Exemple négatif — contradiction subtile

L'attribut structuré dit "bleu" mais un seul champ texte contient encore une mention de "rouge"

Avant

Titre : Running ProX — Imperméable, Rouge

Description : "...coloris rouge vif..."

Features : "Disponible en rouge, adapté trail"

Attribut : couleur = rouge

Synthétique (négatif)

Titre : Running ProX — Imperméable, Bleu

Description : "...coloris bleu marine..." ← correct

Features : "Disponible en rouge, adapté trail" ← incohérent !

Attribut : couleur = bleu

❓

Exemple incomplet — attribut absent

Toutes les mentions de la couleur sont supprimées — l'attribut ne peut pas être inféré du texte

Avant

Titre : Running ProX — Imperméable, Rouge

Description : "...coloris rouge vif..."

Features : "Disponible en rouge, adapté trail"

Attribut : couleur = rouge

Synthétique (incomplet)

Titre : Running ProX — Imperméable, Rouge → Chaussure de Running Imperméable

Description : "...conçu pour les performances..."

Features : "Adapté trail" (mention couleur supprimée)

Attribut : couleur = unknown

💡 L'innovation clé par rapport à l'état de l'art

Les approches précédentes (FPDG, back-translation) généraient du texte depuis zéro ou appliquaient des transformations rigides. Cette méthode part d'un produit réel et le modifie chirurgicalement — ce qui préserve le réalisme du contexte produit tout en offrant un contrôle précis sur ce qui change.

Résultat : les données synthétiques "sonnent" e-commerce, parce qu'elles sont e-commerce — juste modifiées.

📊

Résultats : quasi-parité avec les vraies données

Évaluation sur 2 000 produits par des annotateurs experts + benchmark sur le dataset public MAVE

📋 N=2 000 évaluations humaines 🧪 FLAN-T5-base extraction 📦 Dataset MAVE public

🧑‍⚖️ Évaluation humaine — qualité des produits synthétiques

99.6%

Langage naturel

Produits jugés naturels et lisibles

96.5%

Valeurs d'attributs valides

Cohérentes avec la catégorie produit

95.8%

Anonymisation réussie

Marques remplacées correctement

88.8%

Structure préservée

Aucune modification non souhaitée

🎯 Cohérence par type de génération

✅ Exemple positif

94.2%

⚠️ Exemple négatif

93.0%

❓ Exemple incomplet

88.3%

🏆 Précision extraction d'attributs — FLAN-T5 sur MAVE

Configuration d'entraînement	Précision
Zero-shot (aucun entraînement)	13.4%
100% Données réelles	60.8%
100% Données synthétiques	60.5%
75% Réel + 25% Synthétique ⭐	68.8%
50% Réel + 50% Synthétique	66.1%
25% Réel + 75% Synthétique	64.4%

✅ Le résultat clé

100% synthétique ≈ 100% réel en précision (60.5% vs 60.8%). Le gap est statistiquement négligeable.

Mieux encore : la configuration hybride 75% réel + 25% synthétique dépasse les deux avec 68.8% — les données synthétiques apportent de la diversité complémentaire, pas du bruit.

🔍 Observations notables

🧠

Le LLM comprend les relations entre attributs

Exemple : modifier l'origine d'une boisson de "vanille de Madagascar" à "chocolat" entraîne une mise à jour automatique de l'origine en "Suisse" — sans instruction explicite.

✂️

Amélioration spontanée de la qualité des données

Le LLM génère souvent des valeurs plus précises que les originales (ex : "type=shoes" → "type=running shoes"). Inattendu mais positif.

📐

Similarité sémantique élevée avec l'original

Cosine similarity : 0.84 sur les titres, 0.85 sur les descriptions, 0.93 sur les features. Les modifications restent ciblées et ne dénaturent pas le produit.

💡

Ce que ça change pour le e-commerce

Les implications pratiques pour les retailers, les marketplaces, et les outils d'optimisation de flux produit

✅ Les vrais avantages de l'approche

💰

Coût drastiquement réduit

Pas besoin de 12.9M$/an d'annotation manuelle — la génération synthétique automatise la création de datasets

⚡

Scalabilité immédiate

Généralisable à n'importe quelle catégorie, n'importe quel marketplace, sans reconstruire le pipeline

🌍

Multi-langue natif

Le framework supporte la génération multilingue et s'adapte aux contraintes locales (unités, formats)

🎯

Edge cases inclus

Génération ciblée d'exemples difficiles (attributs manquants, incohérences) — les modèles entraînés sont plus robustes

🏪 Applications concrètes pour les retailers

🔎

Amélioration de la recherche et des filtres produit

Un modèle d'extraction d'attributs mieux entraîné = des filtres plus précis, des résultats de recherche plus pertinents, moins de produits "orphelins" dans les catalogues.

🛒

Audit et nettoyage de flux produit

La même approche peut détecter des incohérences dans des fiches produit existantes — titre qui contredit la description, attributs contradictoires entre champs.

📈

Data augmentation pour les marchands en croissance

Pour des catalogues de taille moyenne (10K-100K produits), le manque de données étiquetées est le principal frein à l'IA. Cette approche permet de bootstrapper rapidement.

🔄

Optimisation des titres et descriptions produit

La génération synthétique produit des descriptions plus précises et complètes — potentiel direct pour améliorer la qualité des contenus publiés sur les flux shopping.

⚠️ Limites à garder en tête

L'étude n'évalue que la configuration attribut unique par produit — la modification simultanée de plusieurs attributs reste à explorer.

La qualité des données synthétiques dépend de la qualité des données source : des attributs vagues ("type=shoes" pour une fiche de chaussures) posent problème en entrée comme en sortie.

Les métriques d'évaluation downstream ne testent que les exemples positifs — les apports des exemples négatifs et incomplets sur d'autres tâches restent à quantifier.

📚 Sources

Amazon Science — Attribute-aware Controlled Product Generation with LLMs for E-commerce

Negri, Martinez Gomez, Balanya, Rajaram — AAAI 2026 Workshop on Responsible Synthetic Data

arXiv — Paper complet (preprint)

Version complète avec méthodologie détaillée, exemples, et annexes

MAVE Dataset — Yang et al. 2022 (WSDM)

Dataset de référence utilisé pour l'évaluation : 2.2M produits, 1 257 catégories, 662 attributs uniques

Générer des fiches produit synthétiques avec des LLMs

Naturel

Précision synthétique

Config hybride

vs Zero-shot

Produits évalués

La méthode : génération contrôlée par attributs

💡 Exemple concret : 3 versions du même produit

💡 L'innovation clé par rapport à l'état de l'art

Résultats : quasi-parité avec les vraies données

🧑‍⚖️ Évaluation humaine — qualité des produits synthétiques

🏆 Précision extraction d'attributs — FLAN-T5 sur MAVE

✅ Le résultat clé

🔍 Observations notables

Le LLM comprend les relations entre attributs

Amélioration spontanée de la qualité des données

Similarité sémantique élevée avec l'original

Ce que ça change pour le e-commerce

✅ Les vrais avantages de l'approche

Coût drastiquement réduit

Scalabilité immédiate

Multi-langue natif

Edge cases inclus

🏪 Applications concrètes pour les retailers

Amélioration de la recherche et des filtres produit

Audit et nettoyage de flux produit

Data augmentation pour les marchands en croissance

Optimisation des titres et descriptions produit

⚠️ Limites à garder en tête

📚 Sources

Optimiser vos flux produit avec l'IA ?