Systèmes multilingues de shopping Amazon

La formation d’un système de découverte de produits en plusieurs langues à la fois améliore les performances dans toutes ces langues.

L’expérience d’achat en ligne d’Amazon est disponible dans de nombreuses langues et dans de nombreux pays différents. Mais indépendamment de la langue ou du lieu, de nombreux clients recherchent les mêmes produits.

Des recherches récentes en IA ont montré que souvent, un modèle d’apprentissage machine formé sur plusieurs ensembles de données pour effectuer plusieurs tâches donnera, pour n’importe laquelle de ces tâches, de meilleurs résultats qu’un modèle à ensemble de données unique dédié à cette seule tâche. Dans un modèle multitâche, les fonctions qui se chevauchent entre les tâches tendent à se renforcer mutuellement, sans sembler nuire à la performance des fonctions spécialisées dans les tâches individuelles.

Nikhil Rao (senior Machine Learning scientist) et ses collègues ont émis l’hypothèse qu’un modèle d’achat multitâche, formé à partir de données provenant de plusieurs langues différentes à la fois, serait en mesure de fournir de meilleurs résultats aux clients utilisant l’une de ces langues. Il pourrait, par exemple, réduire la probabilité que la requête italienne « scarpe ragazzo » – chaussures pour garçons – renvoie une liste de sandales à talons pour femmes.

Ils ont soupçonné qu’un ensemble de données dans une langue pourrait combler des lacunes ou dissiper des ambiguïtés dans un ensemble de données dans une autre langue. Par exemple, des phrases qui sont facilement confondues dans une langue pourraient ne rien dire dans une autre, de sorte qu’une formation multilingue pourrait aider à affiner les distinctions entre les requêtes. De même, alors qu’un modèle monolingue pourrait avoir des difficultés avec les requêtes qui sont rares dans ses données de formation, un modèle multilingue pourrait bénéficier de requêtes connexes dans d’autres langues.

Dans un document qu’ils présenteront en février à la conférence de l’ACM sur la recherche sur le web et l’extraction de données (WSDM), ils ont étudié l’application de la formation multitâche au problème de la recherche multilingue de produits. Ils ont constaté que les modèles multilingues étaient systématiquement plus performants que les modèles monolingues et que plus ils intégraient de langues, plus leur marge d’amélioration était importante.

Par exemple, selon le score F1, une mesure standard de performance dans l’apprentissage machine qui tient compte des taux de faux positifs et de faux négatifs, un modèle multilingue formé à la fois sur le français et l’allemand a surpassé un modèle monolingue français de 11% et un modèle monolingue allemand de 5%. Mais un modèle formé sur cinq langues (dont le français et l’allemand) a dépassé le modèle français de 24 % et le modèle allemand de 19 %.

Partager l’espace

Une caractéristique essentielle de leur modèle est qu’il permet de faire correspondre les requêtes relatives à un même produit dans la même région d’un espace de représentation, quelle que soit la langue d’origine, et il fait de même pour les descriptions de produits. Ainsi, par exemple, les requêtes « chaussures d’école pour garçons » et « scarpe ragazzo » se retrouvent près l’une de l’autre dans une région de l’espace, et les noms de produits « Kickers Kick Lo Vel Kids’ School Shoes – Black » et « Kickers Kick Lo Infants Bambino Scarpe Nero » se retrouvent près l’un de l’autre dans une région différente. L’utilisation d’un seul espace de représentation, quelle que soit la langue, permet au modèle de généraliser ce qu’il apprend dans une langue à d’autres langues.

Ces images représentent des encastrements – des représentations dans un espace géométrique – de requêtes et de descriptions de produits en italien et en anglais. À gauche, les encastrements qui résultent de l’entraînement séparé de quatre modèles monolingues ; les requêtes (orange) et les descriptions de produits (bleu) en italien et en anglais (vert et jaune) se regroupent dans quatre régions distinctes de l’espace. A droite, les encastrements qui résultent de l’entraînement simultané de leur modèle multitâche sur des données en anglais et en italien. Les requêtes sont regroupées par thème, indépendamment de la langue d’origine, tout comme les descriptions de produits.

Leur modèle prend deux entrées, une requête et un titre de produit, et produit un seul bit, indiquant si le produit correspond ou non à la requête. Les entrées sont codées, ou transformées en une représentation vectorielle de longueur fixe, qui sert d’entrée à un module de classification séparé. Le classificateur produit une décision sur la correspondance entre la requête et le produit. Dans leur cas, ils ont deux encodeurs pour chaque langue d’entrée, un pour les produits et un pour les requêtes, mais un seul classificateur partagé.

Chaque codeur utilise l’architecture transformateur-réseau neuronal, qui est plus évolutive que les autres architectures, comme les architectures à mémoire longue et courte durée (LSTM). La première couche du classificateur utilise le produit Hadamard pour combiner les codages des requêtes et des produits, et le codage commun est transmis à un réseau neuronal à action directe standard, dont le résultat est l’évaluation de la correspondance.

Ils commencent à entraîner leur modèle en choisissant au hasard l’un de ses langages d’entrée et en l’entraînant à classer les paires requête-produit dans ce seul langage. Cela permet d’initialiser les paramètres du classificateur à des valeurs qui devraient être utiles pour l’appariement des produits de la requête.

Un double objectif

La formation se déroule à travers une série d’époques. À chaque époque, ils forment le modèle de bout en bout – les codeurs et le classificateur – sur des exemples de requêtes annotées dans chacune de ses langues d’entrée. Mais chaque époque comprend également une phase d’alignement des sorties, pour s’assurer que les sorties des codeurs adaptés aux différentes langues partagent un espace de représentation.

Pour cette phase, ils construisent deux ensembles de mappages interlinguistiques pour chaque paire de langues dans leurs données de formation. L’une des correspondances concerne les produits, l’autre les requêtes. Les mappages de produits mettent simplement en corrélation les titres des produits répertoriés dans les deux langues. Les mappages de requêtes alignent les requêtes dans différentes langues qui ont abouti à l’achat du même produit de la liste croisée.

Pendant la phase d’alignement des résultats, ils forment les codeurs à minimiser la distance dans l’espace de représentation entre leurs codages respectifs des titres et des requêtes.

Un exemple bilingue de notre architecture. Pendant la formation, les phases d’alignement des requêtes et d’alignement des produits alternent avec une formation de bout en bout sur la tâche de classification.

L’alternance entre la formation de bout en bout et l’alignement des encodeurs garantit que le réseau ne privilégie pas un objectif au détriment de l’autre. En fait, leur hypothèse était que les objectifs devraient se renforcer mutuellement, car ils permettent au réseau de mieux généraliser ses résultats de formation dans les différentes langues.

En principe, la formation pourrait se poursuivre pendant un certain nombre d’époques, mais ils ont constaté qu’ils ont obtenu de bons résultats après seulement 15 ou 20 époques. Dans leurs expériences, ils ont formé 10 modèles bilingues différents (cinq langues, chacune étant associée aux quatre autres), 10 modèles trilingues différents et un modèle pentalingue.

Il y a eu quelques exceptions, mais dans la plupart des cas, l’ajout de langues au modèle a amélioré ses performances sur n’importe quelle langue, et le modèle pentalingue a surpassé tous les modèles monolingues, parfois de façon spectaculaire. Leurs résultats suggèrent que les modèles multilingues devraient donner des résultats d’achat plus satisfaisants et plus réguliers à leurs clients. Dans le cadre de leurs travaux en cours, ils continuent d’explorer la puissance de l’apprentissage multitâche pour améliorer l’expérience d’achat sur la plateforme.

Via Amazon Science

Publicités

Laisser un commentaire

Ce site utilise Akismet pour réduire les indésirables. En savoir plus sur comment les données de vos commentaires sont utilisées.