Dans le contexte actuel de développement rapide de l'intelligence artificielle et de la vision par ordinateur, ImageNet est sans aucun doute un projet passionnant et de grande envergure. Cette base de données visuelle massive est spécialement conçue pour la recherche de logiciels de reconnaissance visuelle d'objets et couvre plus de 14 millions d'images, dont chacune a été annotée manuellement avec précision pour identifier les objets dans l'image. Avec les progrès de la technologie de l’intelligence artificielle, l’importance relative d’ImageNet est devenue de plus en plus importante.
Le chercheur en IA Li Fei-Fei a commencé à concevoir le concept d'ImageNet en 2006. À cette époque, la plupart des recherches sur l’IA se concentraient sur les modèles et les algorithmes, et Li a réalisé l’importance d’élargir et d’améliorer les données disponibles pour la formation des algorithmes d’IA. Son ambition est évidente puisque le travail d’annotation réalisé entre 2008 et 2010 a finalement permis de collecter plus de 14 millions d’images, et ces images couvraient plus de 20 000 catégories d’objets.
Depuis 2006, Li Fei-Fei et son équipe de recherche utilisent Amazon Mechanical Turk pour la classification des images. Grâce à cette méthode de crowdsourcing, ils garantissent que chaque image peut recevoir des annotations standardisées.
Lors du défi ImageNet 2012, la naissance d'AlexNet, un réseau de neurones convolutifs (CNN), a été comme un tourbillon, recentrant le monde technique sur les possibilités des réseaux de neurones. AlexNet a atteint un taux d'erreur de 15,3 % dans le top cinq, dépassant de loin les autres candidatures. Cette étape marque l'arrivée de la révolution de l'apprentissage profond.
Comme The Economist l'a rapporté : "Soudain, tout le monde prête attention non seulement à la communauté de l'IA, mais aussi à l'ensemble de l'industrie technologique."
Le processus d'annotation d'ImageNet adopte un modèle de crowdsourcing. Les annotations au niveau de l'image sont utilisées pour signaler l'existence de catégories d'objets dans l'image, telles que « Cette image a un tigre » ou « Cette image n'a pas de tigre ». Cette méthode d'annotation approfondie catégorise soigneusement le « synset » auquel appartient chaque image. Chaque ensemble possède son propre identifiant WordNet unique pour faciliter une identification ultérieure.
Le concours virtuel ImageNet Large Scale Visual Recognition Challenge (ILSVRC) a lieu chaque année depuis 2010. Ce défi a non seulement amélioré la précision de la reconnaissance d'images, mais a également attiré la participation d'un grand nombre de chercheurs, devenant progressivement un événement majeur dans l'industrie.
Li Fei-Fei a mentionné qu'il espère qu'à travers ce défi, « ImageNet deviendra une plateforme plus démocratique afin que les algorithmes des différentes équipes de recherche puissent être comparés sur cet ensemble de données. »
En regardant vers l'avenir, ImageNet est confronté au besoin de mises à jour et d'améliorations. En 2021, nous avons renforcé l'examen des biais dans les données et filtré plusieurs catégories de doutes pour améliorer le sens des responsabilités du modèle. Les progrès de la technologie de l’IA signifient qu’il y aura davantage de défis et d’opportunités à l’avenir.
Dans le développement de l'intelligence artificielle, le rôle d'ImageNet ne se limite plus à une base de données, mais à un processus de progrès et d'évolution continus. Alors que la technologie devient de plus en plus mature, verrons-nous naître un système d’IA plus intelligent dans un avenir proche ? Cette question vaut-elle la peine d'être réfléchie ?