Dans le cadre de notre série « Expert Talks », voici un épisode spécial sur le pouvoir de l'intelligence artificielle, présenté par le cofondateur et directeur de la technologie de Fittingbox, Ariel Choukroun.
L'intelligence artificielle devient de plus en plus un sujet d'actualité, c'est pourquoi nous avons voulu mettre en lumière ce concept et donner un bref aperçu de la portée de l'IA aujourd'hui.
*Vidéo en anglais
A propos d'Ariel Choukroun, Directeur de la Technologie et cofondateur de Fittingbox
Passionné par la technologie derrière l'essayage virtuel de lunettes, Ariel en a fait son sujet de doctorat en 2007, alors qu'il cofondait Fittingbox avec Benjamin Hakoun. Il est titulaire d'un doctorat en Computer Vision de l'Institut National Polytechnique de Toulouse, après avoir été diplômé de l'INSA en Computer Science.
Qu'est-il possible de faire avec l'intelligence artificielle ?
J'irai droit au but : il existe différents types d'IA. Sur la droite de l'écran, vous pouvez voir un grand nombre d'entreprises spécialisées dans l'IA qui apparaissent de plus en plus aujourd'hui. Comme vous le savez, l'IA peut traiter les images, les textes, les vidéos et la reconnaissance vocale.
Vous connaissez tous Google Translate lorsque vous allez à l'étranger, Google Lens ou Amazon Rekognition. Dernièrement, on parle même d'IA générative : vous avez tous déjà entendu parler de ChatGPT pour la génération de texte ou de MidJourney pour créer des images, ou encore Sora pour créer des vidéos. Ce sont là quelques types d'IA. La question intéressante est la suivante : quels sont les objectifs de l'IA ? Il y a trois objectifs de l'IA qui sont intéressants et importants. Il y a les capacités d'analyse et de synthèse de l'IA qui conduisent à des déductions. Certains parlent de capacités de raisonnement, mais ce n'est pas encore au point.
Je vais vous présenter un premier exemple d'IA : le moteur Qwen2-VL. L'objectif de ce modèle est de pouvoir décrire une vidéo : vous donnez une vidéo en entrée, et il crée automatiquement un résumé de la vidéo. Ici, le modèle comprend qu'il s'agit d'une vidéo sur l'ISS. Il y a des astronautes dans la vidéo et ils parlent avec la Terre et échangent ensemble. C'est donc un résultat tout à fait étonnant que d'être capable d'analyser et de synthétiser cet énorme contenu.
Un autre élément intéressant concernant le traitement de contenu volumineux est la possibilité de disposer d'un très grand nombre de fichiers d'entrée. Ici, on parle de "tokens" : il pourrait s'agir de mots. L'objectif du moteur Claude 2 est de pouvoir résumer des articles, des documents et des livres. Ici, nous lui donnons deux articles et lui demandons de donner les éléments importants de ces articles. Comme vous pouvez le voir, vous obtenez tous les résumés des articles et les principales idées intéressantes en quelques secondes. Je dirais qu'aujourd'hui, vous avez tellement d'informations à votre disposition que vous avez besoin de ce type d'outil et d'assistance pour avoir une vision globale de quelque chose avant de vous y plonger.
L'IA a également un autre objectif : la génération de contenu. Voici un exemple de MidJourney qui crée une image à partir d'une requête. La requête porte sur une peinture impressionniste d'une femme chinoise portant un vêtement : vous obtenez ainsi une image très belle et très cohérente. Ce modèle est à des fins créatives, mais cela peut aider à gagner du temps, pour le travail par exemple.
Comment l'intelligence artificielle est-elle utilisée chez Fittingbox ?
Maintenant, je vais parler de la façon dont Fittingbox et l'IA vont ensemble.
C'est une longue histoire car notre premier brevet sur le Machine Learning [un sous domaine de l'IA] date de 2010, et concernait la détection très précise des points du visage et des yeux. Ensuite, nous avons créé une équipe dédiée à l'IA chez Fittingbox. Depuis, nous n'avons jamais cessé de déposer des brevets. Par exemple, nous avons lancé le Frame Removal, qui est un mélange de plusieurs algorithmes d'IA. Les algorithmes suppriment la monture que vous portez sur votre visage : ils effacent la monture digitalement. Pour ce faire, nous détectons la monture que vous portez, puis nous appliquons la suppression, et nous le faisons en direct.
Si je prends le fichier d'entrée à gauche de l'écran, vous avez une image et la tâche de l'IA est d'enlever la monture. Fittingbox analyse donc en 3D ce qui se passe, et comme vous pouvez le voir ici, vous n'avez aucune idée de la couleur des branches parce que vous ne la voyez pas sur l'image. Avec notre algorithme d'IA, nous pouvons supprimer les lunettes, mais aussi donner la bonne couleur à certains éléments non visibles, pour ensuite obtenir l'image finale. Ce n'est qu'une petite partie de la technologie de Frame Removal que je montre ici, mais c'est pour illustrer la façon dont la génération d'IA est utilisée dans un contexte en temps réel.
Maintenant, laissez-moi vous expliquer comment nous allons utiliser l'IA dans les futurs produits de Fittingbox. Actuellement, la R&D de Fittingbox travaille sur l'IA générée pour numériser les lunettes en 3D. Nous travaillons également sur l'amélioration de l'analyse du visage et des lunettes, sur une qualité visuelle très élevée et sur le nouveau moteur de rendu afin d'obtenir les meilleurs résultats en termes d'essayage.
Comment les solutions basées sur l'IA sont-elles créées ?
La meilleure façon pour nous, chez Fittingbox, de faire fonctionner ensemble l'IA et la technologie est la suivante : tout d'abord, nous avons des algorithmes propriétaires dédiés aux lunettes et des solutions brevetées. Nous avons ajouté une Intelligence Artificielle spécialisée d'une grande précision et qui a un objectif spécifique. Nous avons conçu nos données de manière à obtenir les meilleurs résultats pour une tâche spécifique. Nous pouvons maintenant utiliser des modèles de base pour donner une vue d'ensemble et faire partie de la base de nos algorithmes.
Par exemple, il y a ici un modèle de base visuel de Meta qui vous donne une analyse de l'image d'un utilisateur. Chez Fittingbox, nous cherchons à analyser très précisément un grand nombre d'éléments : les visages, les lunettes, etc. C'est le genre de résultats que nous attendons et que nous obtenons actuellement de notre côté.
Regardez les autres épisodes de nos Expert Talks