Philosophie de l'ingénierie : Fei-Fei Li, les données sont le socle

Fei-Fei Li, créatrice d'ImageNet et pionnière de l'IA centrée sur l'humain

L’essentiel à retenir

La percée, c’était le jeu de données, pas le modèle. Pendant une décennie, le domaine a peaufiné les algorithmes en supposant que de meilleurs modèles étaient le goulet d’étranglement. Fei-Fei Li a fait le pari inverse : l’ingrédient manquant, c’étaient les données à grande échelle. Elle a conçu et dirigé ImageNet — environ 14 millions d’images étiquetées à la main réparties dans plus de 20 000 catégories, organisées selon la hiérarchie WordNet et annotées par des dizaines de milliers de travailleurs d’Amazon Mechanical Turk.³⁴
AlexNet a gagné grâce à ses données. Lorsqu’un réseau de neurones convolutif profond a écrasé le défi ImageNet 2012 — 15,3 % d’erreur top-5, soit plus de dix points d’avance sur le deuxième — il a validé la thèse centrée sur les données. L’algorithme existait depuis des années ; ce qui a changé, c’est qu’il disposait enfin de suffisamment des bonnes données pour apprendre.⁴⁵
L’IA doit être centrée sur l’humain. Le second principe de Fei-Fei Li est qu’il n’y a « rien d’artificiel » dans l’IA : elle est construite par des humains, se comporte à l’égard des humains et a un impact sur des vies humaines. Elle a cofondé Stanford HAI (2019) et AI4ALL (2017) pour ancrer cette conviction dans des institutions.⁶⁷⁸
De l’immigrée à la fondatrice. Née à Pékin en 1976, elle est arrivée dans le New Jersey à seize ans, a tenu le pressing familial pendant ses études à Princeton, a obtenu une licence de physique puis un doctorat à Caltech, et dirige aujourd’hui World Labs, une startup d’intelligence spatiale qui construit des modèles capables de comprendre le monde en 3D.¹²¹⁰

Le principe

« Notre hypothèse sur l’I.A. doit être guidée par les données, et l’approche centrée sur les données était la bonne hypothèse. » — Fei-Fei Li, à propos du pari derrière ImageNet⁹

Pendant la majeure partie des années 2000, l’instinct dominant en apprentissage automatique consistait à améliorer le modèle : une architecture plus astucieuse, un meilleur optimiseur, un extracteur de caractéristiques plus fin. Les données étaient traitées comme une toile de fond fixe et modeste sur laquelle les algorithmes s’affrontaient. Le geste central de Fei-Fei Li a été d’inverser cette hiérarchie. Elle soutenait que le véritable goulet d’étranglement n’était pas les algorithmes — c’étaient les données. La voie pour faire progresser la perception machine n’était pas de continuer à polir le modèle sur quelques milliers d’exemples, mais de lui en donner des ordres de grandeur supplémentaires, choisis avec soin, et de le laisser apprendre le monde comme le fait un enfant : en en rencontrant assez.⁹

L’analogie n’était pas décorative ; elle était l’argument même. Personne n’apprend à voir à un enfant en lui énumérant des règles. Un enfant apprend en s’immergeant dans un torrent d’expérience visuelle — des millions d’aperçus d’objets, de scènes, de visages — jusqu’à ce que la structure du monde visuel se mette en place. Le pari de Fei-Fei Li était qu’un algorithme d’apprentissage avait besoin de la même chose : non pas d’un meilleur professeur, mais d’un flux d’exemples bien plus vaste et bien plus riche. Elle a donc accompli la chose ingrate et colossale que le domaine avait évitée. Elle a construit le flux.³

Voilà le principe en une phrase : les données sont le socle, et l’IA doit être centrée sur l’humain. La première moitié est une affirmation d’ingénierie — l’intelligence émerge d’un apprentissage sur suffisamment des bonnes données, et quiconque fournit ces données façonne ce que le domaine peut accomplir. La seconde moitié est une affirmation sur la finalité. Fei-Fei Li insiste sur le fait que l’IA n’est pas une force étrangère ; c’est un artefact humain, et sa seule justification est qu’elle profite aux gens. « Il n’y a rien d’artificiel dans l’IA », aime-t-elle dire à ses étudiants ; « elle est faite par des humains, destinée à se comporter [au service] des humains, et elle a un impact sur les vies humaines et la société humaine ».⁶ Elle a donné des yeux au domaine en construisant un jeu de données, et non un modèle — puis a passé la décennie suivante à exiger que ces yeux restent tournés vers le bien humain.

Contexte

Fei-Fei Li est née à Pékin en 1976.¹ Son père a émigré à Parsippany, dans le New Jersey, alors qu’elle avait douze ans ; elle et sa mère l’ont rejoint quand elle en avait seize, arrivant pratiquement sans un mot d’anglais.¹² Le point d’ancrage américain de la famille était un pressing, et Fei-Fei Li y travaillait — les week-ends pendant le lycée, et la plupart des week-ends où elle rentrait de l’université, aidant à faire tourner l’affaire et à tenir les comptes tout en étudiant.¹² C’est un détail qu’il vaut la peine de retenir : celle qui orchestrerait plus tard l’une des plus vastes opérations d’étiquetage de l’histoire de l’informatique a appris la discipline opérationnelle derrière un comptoir, en traitant le linge des autres.

Elle est entrée à Princeton grâce à une bourse et y a obtenu une licence de physique en 1999, tout en gérant à distance l’affaire familiale pendant une partie de cette période.¹² La physique, et non l’informatique — une formation à chercher la loi simple sous des phénomènes désordonnés, ce qui est précisément l’instinct qu’elle appliquerait plus tard à la vision. Elle est partie à Caltech pour ses études supérieures, où elle a décroché un master en génie électrique en 2001 et un doctorat en 2005, en travaillant à l’intersection des neurosciences et de la vision par ordinateur.¹

Au moment où elle a rejoint le corps enseignant de Princeton, puis celui de Stanford (2009), elle avait absorbé une conviction qui allait à contre-courant de son domaine : la voie à suivre n’était pas un meilleur modèle sur un petit jeu de données, mais un jeu de données radicalement plus vaste que personne n’avait été disposé à construire.¹⁴ Tout ce qui suit — ImageNet, le défi, le tournant centré sur l’humain, la startup — n’est que le déploiement de ce seul pari à contre-courant.

Le travail

ImageNet : donner des yeux au domaine (2009)

La manière la plus nette de ressentir le pari de Fei-Fei Li est d’observer ce qui se passe lorsqu’on garde un modèle fixe et qu’on fait croître ses données d’entraînement. Le classifieur ne devient pas plus astucieux — l’algorithme reste inchangé — mais sa représentation du monde s’affine avec chaque exemple étiqueté qu’on lui fournit. Le composant ci-dessous rend cela tangible : commencez avec une poignée de points et le même modèle devine une frontière grossière et fausse ; ajoutez de plus en plus de données étiquetées et il trace la forme réelle, sa précision grimpant vers le plafond. C’est la thèse d’ImageNet en miniature.

Démonstration interactive de mise à l'échelle des données (nécessite JavaScript). Le pari de Fei-Fei Li, rendu tangible : gardez le modèle fixe et faites croître les données d'entraînement étiquetées. Avec seulement une poignée d'exemples, le classifieur devine une frontière grossière et fausse ; alimentez-le avec de plus en plus de points étiquetés et le même algorithme — inchangé — trace la forme réelle et sa précision grimpe vers le plafond. La leçon derrière ImageNet : pendant une décennie, le domaine a réglé les modèles alors que l'ingrédient manquant était une quantité suffisante des bonnes données. L'algorithme attendait le jeu de données.

L’histoire est concrète, et l’attribution compte. Fei-Fei Li a conçu le projet et commencé à travailler sur l’idée vers 2006-2007, alors qu’elle était à Princeton, en collaboration avec Christiane Fellbaum, co-créatrice de WordNet, afin d’utiliser la hiérarchie de concepts de WordNet comme ossature organisatrice du jeu de données.⁴ ImageNet a résolument été un travail d’équipe qu’elle a dirigé : l’article de référence, « ImageNet: A Large-Scale Hierarchical Image Database », présenté à CVPR 2009, était signé par Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li et Fei-Fei Li (citée en dernier, en tant qu’autrice principale).³ La version du jeu de données qui a remodelé le domaine a atteint environ 14 millions d’images annotées à la main réparties dans plus de 20 000 catégories — la version complète ImageNet-21K comprend 14 197 122 images dans 21 841 classes.⁴

Le problème d’ingénierie n’était pas le modèle ; c’était l’étiquetage. Annoter à la main quatorze millions d’images dépassait les capacités de tout groupe de recherche ; l’équipe de Fei-Fei Li s’est donc tournée vers Amazon Mechanical Turk, répartissant le travail entre environ 49 000 travailleurs dans 167 pays entre juillet 2008 et avril 2010, filtrant plus de 160 millions d’images candidates et étiquetant chaque image retenue plusieurs fois pour en garantir la qualité.⁴ Cette prouesse logistique — externaliser la perception à l’échelle planétaire — était la contribution. N’importe qui aurait pu proposer « utilisez plus de données ». Fei-Fei Li a construit l’appareil qui l’a rendu réel.

Fei-Fei Li lors d'une intervention

L’ILSVRC et la validation par AlexNet en 2012

Un jeu de données seul ne prouve rien ; il faut amener le domaine à l’utiliser. Ainsi, de 2010 à 2017, le groupe de Fei-Fei Li a organisé l’ImageNet Large Scale Visual Recognition Challenge (ILSVRC) — une compétition annuelle sur un sous-ensemble normalisé de 1 000 catégories, avec environ 1,28 million d’images d’entraînement, 50 000 images de validation et 100 000 images de test.⁴ Le défi a transformé ImageNet en référence partagée et en classement, le centre de gravité de la recherche en vision par ordinateur pendant presque toute une décennie.

La validation est arrivée le 30 septembre 2012. Un réseau de neurones convolutif profond — AlexNet, issu du laboratoire de Geoffrey Hinton à Toronto — a remporté le défi avec un taux d’erreur top-5 de 15,3 %, soit plus de 10,8 points de pourcentage d’avance sur le deuxième.⁴⁵ Cette marge est la charnière de l’ère moderne de l’IA. Mais le point que l’on manque souvent, c’est pourquoi elle était possible : l’architecture convolutive n’était pas nouvelle, et l’entraînement par descente de gradient ne l’était pas non plus. Ce qui était nouveau, c’est que, pour la première fois, il existait un jeu de données assez vaste et assez riche pour qu’un réseau profond apprenne sans se contenter de mémoriser. Fei-Fei Li avait fourni l’ingrédient manquant. Comme son propre étudiant le quantifierait plus tard, même la précision humaine sur ImageNet se mérite difficilement — Andrej Karpathy, qui a fait son doctorat sous sa direction et a mené les expériences de référence humaine du défi, a estimé une erreur humaine top-5 d’environ 5,1 % seulement au prix d’un effort soutenu.⁵ Les machines se rapprochaient désormais d’un seuil qui met les gens à l’épreuve.

C’est l’illustration la plus nette de la thèse centrée sur les données dans toute la série. L’algorithme vainqueur appartenait à la lignée de Geoffrey Hinton, et l’architecture convolutive descend du LeNet de Yann LeCun. Mais ni l’un ni l’autre n’auraient gagné en 2012 sans les données de Fei-Fei Li. Le modèle et les données sont les deux moitiés d’une même percée — et pendant une décennie, le domaine avait gardé fixe la mauvaise moitié.

L’IA centrée sur l’humain et Stanford HAI

Après avoir doté le domaine d’un œil plus puissant, Fei-Fei Li a consacré la phase suivante de sa carrière à se soucier de l’endroit où il était pointé. Sa formulation est trompeusement simple : l’IA n’est pas une force extérieure qui s’abat sur l’humanité ; c’est une création humaine dont la finalité est le bénéfice humain. « Je dis souvent à mes étudiants de ne pas se laisser tromper par le nom “intelligence artificielle” — il n’y a rien d’artificiel là-dedans », a-t-elle écrit. « L’I.A. est faite par des humains, destinée à se comporter sous l’impulsion d’humains et, en fin de compte, à avoir un impact sur les vies humaines et la société humaine. »⁶

En mars 2019, elle a ancré cette conviction dans une institution en cofondant le Stanford Institute for Human-Centered Artificial Intelligence (HAI) avec le philosophe et ancien prévôt de Stanford John Etchemendy, dont elle a été codirectrice fondatrice.⁷ La mission de HAI — faire progresser la recherche, l’enseignement, les politiques et les pratiques en IA afin d’améliorer la condition humaine — est le contrepoids délibéré à un domaine qui optimise souvent la capacité de façon isolée. C’est le même instinct qui me pousse à traiter le goût comme un système technique plutôt que comme une simple intuition : la question de ce à quoi sert le travail n’a rien de mou, et elle ne vient pas après l’ingénierie. Elle fait partie de l’ingénierie.

Fei-Fei Li

AI4ALL, Google Cloud, The Worlds I See et World Labs

La carrière de Fei-Fei Li est d’une ampleur inhabituelle pour une chercheuse de sa stature, et chaque chapitre exprime les deux mêmes principes. En 2017, elle a cofondé AI4ALL, une organisation à but non lucratif œuvrant à accroître la diversité dans l’IA — une application directe du « centré sur l’humain » à la question de qui construit les systèmes.⁸ En congé sabbatique de Stanford entre janvier 2017 et l’automne 2018, elle a été scientifique en chef de l’IA/ML et vice-présidente chez Google Cloud, portant dans l’industrie la traduction de la recherche en produit.¹

En 2023, elle a publié un mémoire, « The Worlds I See », que Barack Obama a inscrit sur sa liste de lectures et que le Financial Times a classé parmi ses meilleurs livres de l’année — « moitié mémoire, moitié science », l’histoire de la scientifique immigrée et du pari centré sur les données réunie en un seul volume.⁹ Et en septembre 2024, elle a cofondé World Labs, une startup d’intelligence spatiale — avec Justin Johnson, Christoph Lassner et Ben Mildenhall — qui construit des « modèles du monde » fondateurs capables de percevoir, de générer et de raisonner sur le monde en 3D, soutenue par environ 1 milliard de dollars de financement.¹⁰ Le fil conducteur est exact : ImageNet a donné aux machines une vision statique ; World Labs est son pari sur le don d’une compréhension spatiale — la prochaine forme, plus difficile, de la vision.

La méthode

La méthode de Fei-Fei Li est constante, du comptoir du pressing au laboratoire d’intelligence spatiale : trouver la contrainte que tout le monde ignore, construire la chose ingrate qui la lève, et garder le travail tourné vers les gens.

Attaquez les données, pas seulement le modèle. Quand un domaine est bloqué, demandez-vous si le goulet d’étranglement est réellement l’algorithme ou bien les données dont l’algorithme doit apprendre. Le geste déterminant de Fei-Fei Li a été de soupçonner les données — puis de construire, au prix d’un effort logistique énorme, le jeu de données qui l’a prouvé.³⁴

Empruntez une structure à un domaine qui l’a déjà résolue. ImageNet n’a pas inventé sa propre taxonomie ; il s’est appuyé sur la hiérarchie des concepts humains de WordNet. Quand une structure connue convient au problème, encodez-la plutôt que de la réinventer — c’est le même instinct qui a conduit LeCun à intégrer l’invariance par translation dans la convolution.³⁴

Faites en sorte que le domaine utilise votre travail. Un jeu de données rangé dans un tiroir ne change rien. Le défi ILSVRC a transformé ImageNet en référence partagée dotée d’un classement, et c’est ce qui a réellement fait avancer la communauté de recherche.⁴

Externalisez à l’échelle qu’exige le problème. Étiqueter quatorze millions d’images était impossible pour un seul laboratoire ; Fei-Fei Li a donc construit un pipeline d’annotation réparti entre des dizaines de milliers de travailleurs. La solution opérationnelle était la contribution scientifique.⁴

Continuez à demander à quoi cela sert. La capacité dépourvue de finalité humaine est, aux yeux de Fei-Fei Li, une ingénierie incomplète. HAI et AI4ALL ne sont pas de la philanthropie greffée sur la recherche ; ils sont la méthode prolongée — le test de Steve, qui demande si le travail mérite d’exister, appliqué à un domaine tout entier.⁶⁷⁸

Chaîne d’influence

Qui l’a façonnée

Christiane Fellbaum et WordNet. L’ossature organisatrice d’ImageNet est la hiérarchie des concepts de WordNet, et Fei-Fei Li a construit le jeu de données en collaboration directe avec Christiane Fellbaum, co-créatrice de WordNet. La taxonomie du langage humain est devenue le squelette de la vision machine. (Influence directe)

La vision de l’apprentissage issue des sciences cognitives. L’analogie centrale de Fei-Fei Li — l’idée qu’un modèle devrait apprendre la vision comme le fait un enfant, par exposition à une quantité suffisante du monde — provient de sa formation à la jonction des neurosciences et de la vision par ordinateur à Caltech. Le pari sur les données plutôt que sur les règles est un pari sur la manière dont la perception biologique se développe réellement. (Influence formatrice)

L’instinct d’une physicienne. Sa formation de premier cycle était en physique, et non en informatique — une discipline qui consiste à trouver la structure simple sous des phénomènes désordonnés. La volonté de croire que « plus de bonnes données » était une loi du domaine, et non un bricolage par force brute, relève d’un type de confiance propre aux physiciens. (Influence formatrice)

Qui elle a façonné

La vision par ordinateur moderne. Tout système de vision entraîné ou pré-entraîné sur ImageNet — c’est-à-dire, dans les faits, la totalité d’entre eux pendant une décennie — hérite des données de Fei-Fei Li. Elle n’a pas seulement contribué au domaine ; elle a fourni le substrat sur lequel il a appris.

L’ère de l’apprentissage profond elle-même. La victoire d’AlexNet en 2012, l’événement le plus souvent cité comme le point de départ de l’essor moderne de l’IA, s’est appuyée sur son jeu de données et s’est déroulée à l’intérieur de son défi. La moitié de cette percée, celle qui tient aux données, lui revient.

Une génération de chercheurs. À travers son laboratoire de Stanford, elle a encadré des étudiants devenus eux-mêmes des figures centrales, dont Andrej Karpathy, et à travers AI4ALL, elle a œuvré à élargir le cercle de ceux qui peuvent contribuer à bâtir le domaine.

Le fil conducteur

Fei-Fei Li est la racine données de la branche apprentissage profond de cette série, et le lien avec ses voisins est d’une littéralité inhabituelle. Le laboratoire de Geoffrey Hinton a construit l’algorithme qui a remporté ImageNet en 2012, et Yann LeCun a conçu l’architecture convolutive dont cet algorithme descend — mais AlexNet tournait sur les données de Fei-Fei Li. Le modèle et le jeu de données sont les deux moitiés d’un même événement, et pendant des années le domaine avait poli le modèle alors que le jeu de données était précisément ce qui n’existait pas encore. La ligne vers l’avant mène à Andrej Karpathy, son propre doctorant, qui a mené la référence de précision humaine de l’ILSVRC et a plus tard forgé l’expression « Software 2.0 » — l’idée d’un réseau comme un programme compilé à partir des données, qui est la généralisation naturelle du pari de Fei-Fei Li selon lequel ce sont les données, et non le code, qui sont la source de l’intelligence. LeCun dit : apprenez le monde ; Hinton dit : la machine apprenante fonctionne ; Fei-Fei Li dit : voici le monde dont apprendre, maintenant allez-y. (Pont de série)

Ce que j’en retiens

La leçon que je garde de Fei-Fei Li, c’est que le socle ingrat est souvent la véritable percée. Le domaine a passé une décennie à se disputer sur les modèles parce que c’est là que l’astuce semble résider — et la personne qui a fait le plus avancer le domaine l’a fait en construisant un jeu de données, un acte d’endurance opérationnelle plus que de génie algorithmique. Cela réordonne mes instincts. Quand quelque chose est bloqué, je me demande désormais d’abord si le goulet d’étranglement est la partie astucieuse sur laquelle j’ai envie de travailler ou la partie ennuyeuse que j’évite — les données, l’étiquetage, le socle que personne ne veut construire. C’est la même discipline que la barrière des preuves : non pas « quelle est la chose la plus intéressante à optimiser », mais « quelle est réellement la contrainte ».

La seconde leçon est plus difficile et plus discrète. Fei-Fei Li a doté le domaine d’une capacité véritablement plus puissante, puis a passé la décennie suivante à exiger qu’elle reste responsable envers les gens — en fondant HAI, en fondant AI4ALL, en répétant qu’il n’y a rien d’artificiel dans une chose que des humains fabriquent pour des humains. Ce n’est pas une coda à l’ingénierie ; c’est la raison d’être de l’ingénierie, et c’est précisément pourquoi je soutiens que la qualité est la seule variable et que le test de Steve — cela mérite-t-il d’exister ? — est une question que l’on pose à la capacité elle-même, et pas seulement au vernis. Fei-Fei Li a construit les yeux, puis s’est assurée qu’ils restent tournés vers le bien humain. Le socle, et ce à quoi le socle sert.

FAQ

Quelle est la philosophie de l’ingénierie de Fei-Fei Li ?

Les données sont le socle, et l’IA doit être centrée sur l’humain. Le pari déterminant de Fei-Fei Li était que le goulet d’étranglement de la perception machine n’était pas le modèle mais les données — que l’intelligence émerge d’un apprentissage sur suffisamment des bons exemples, comme un enfant apprend à voir par l’expérience. Elle a agi en conséquence en concevant et en dirigeant ImageNet, un jeu de données étiqueté d’environ 14 millions d’images.³⁴ Son second principe est que l’IA est un artefact humain au service du bénéfice humain — « il n’y a rien d’artificiel là-dedans » — qu’elle a institutionnalisé à travers Stanford HAI et AI4ALL.⁶⁷⁸

Qu’est-ce qu’ImageNet, et Fei-Fei Li l’a-t-elle construit seule ?

ImageNet est une base de données d’images étiquetées à grande échelle qui est devenue le jeu d’entraînement fondateur de la vision par ordinateur moderne — environ 14 millions d’images annotées à la main réparties dans plus de 20 000 catégories, organisées selon la hiérarchie de concepts WordNet et étiquetées via Amazon Mechanical Turk.⁴ Fei-Fei Li a conçu et dirigé le projet, mais ce fut un travail d’équipe : l’article CVPR 2009 « ImageNet: A Large-Scale Hierarchical Image Database » était signé par Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li et Fei-Fei Li (en tant qu’autrice principale), et l’ossature WordNet est issue d’une collaboration avec Christiane Fellbaum, co-créatrice de WordNet.³⁴

Comment ImageNet a-t-il mené à l’essor de l’apprentissage profond ?

De 2010 à 2017, le groupe de Fei-Fei Li a organisé l’ImageNet Large Scale Visual Recognition Challenge (ILSVRC), une compétition annuelle sur un sous-ensemble de 1 000 catégories.⁴ Le 30 septembre 2012, le réseau convolutif profond AlexNet l’a remportée avec un taux d’erreur top-5 de 15,3 % — plus de 10,8 points d’avance sur le deuxième — un événement largement considéré comme le point de départ de l’ère moderne de l’IA.⁴⁵ Le point décisif, c’est que l’algorithme convolutif existait déjà ; ce qui était nouveau, c’était un jeu de données assez vaste pour qu’il en apprenne. Les données, et non le modèle, étaient l’ingrédient manquant.⁴

Que fait Fei-Fei Li aujourd’hui ?

Après avoir cofondé Stanford HAI (2019) et AI4ALL (2017), exercé comme scientifique en chef de l’IA/ML chez Google Cloud (2017-2018) et publié son mémoire « The Worlds I See » en 2023, Fei-Fei Li a cofondé World Labs en septembre 2024.¹⁷⁸⁹ World Labs est une startup d’intelligence spatiale qui construit des « modèles du monde » fondateurs capables de percevoir, de générer et de raisonner sur le monde en 3D — son pari sur la prochaine frontière de la perception machine, soutenu par environ 1 milliard de dollars de financement.¹⁰

Sources

« Fei-Fei Li », Wikipedia. Née le 3 juillet 1976 à Pékin, en Chine ; son père a immigré à Parsippany, dans le New Jersey, alors qu’elle avait 12 ans, elle l’a rejoint à 16 ans ; la famille tenait un pressing ; licence de physique à Princeton (1999) ; master en génie électrique à Caltech (2001) et doctorat (2005) ; professeure à Stanford à partir de 2009 ; directrice du Stanford AI Lab (2013-2018) ; scientifique en chef de l’IA/ML et vice-présidente chez Google Cloud en congé sabbatique de janvier 2017 à l’automne 2018 ; codirectrice fondatrice de Stanford HAI ; cofondatrice d’AI4ALL (2017) ; fondatrice de World Labs (2024). ↩↩↩↩↩↩↩↩↩
Jane Thier, « She ran her parents’ dry-cleaning business at 18. Today, the ‘godmother of AI’ is advising world leaders and running a billion-dollar startup », Fortune, 24 novembre 2025. Détaille l’immigration de Fei-Fei Li dans le New Jersey, son travail dans le pressing familial pendant le lycée et l’université, et sa trajectoire de Princeton à World Labs. ↩↩↩↩
Jia Deng, Wei Dong, Richard Socher, Li-Jia Li, Kai Li et Li Fei-Fei, « ImageNet: A Large-Scale Hierarchical Image Database », 2009 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), Miami, 20-25 juin 2009, doi:10.1109/CVPR.2009.5206848. L’article qui présente ImageNet, construit sur la hiérarchie WordNet et alimenté à l’aide d’Amazon Mechanical Turk ; Fei-Fei Li est l’autrice principale (en dernière position). La liste des auteurs et les détails de publication sont également documentés sur Scientific Research Publishing. ↩↩↩↩↩↩↩
« ImageNet », Wikipedia. ImageNet contient plus de 14 millions d’images annotées à la main réparties dans plus de 20 000 catégories ; la version complète ImageNet-21K comprend 14 197 122 images dans 21 841 classes. Fei-Fei Li a entamé l’idée en 2006 et, en 2007, a collaboré avec Christiane Fellbaum, co-créatrice de WordNet. L’étiquetage s’est déroulé de juillet 2008 à avril 2010 via Amazon Mechanical Turk, avec environ 49 000 travailleurs dans 167 pays filtrant plus de 160 millions d’images candidates. L’ILSVRC s’est tenu chaque année de 2010 à 2017 sur un sous-ensemble de 1 000 catégories (1 281 167 images d’entraînement, 50 000 de validation, 100 000 de test). Le 30 septembre 2012, AlexNet l’a remporté avec une erreur top-5 de 15,3 %, soit plus de 10,8 points d’avance sur le deuxième. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
« AlexNet », Wikipedia, sur la victoire d’AlexNet à l’ILSVRC 2012 et la convergence de données étiquetées à grande échelle, du calcul GPU et de méthodes d’entraînement améliorées. Sur la référence humaine, voir le rôle d’Andrej Karpathy en tant que doctorant à Stanford sous la direction de Fei-Fei Li, menant les expériences de précision humaine de l’ILSVRC (estimant une erreur humaine top-5 d’environ 5,1 % au prix d’un effort soutenu), documenté sur « Andrej Karpathy », AI Wiki, et sur sa page Stanford, cs.stanford.edu/people/karpathy. ↩↩↩↩
Fei-Fei Li, publication sur X, février 2018 : « Je dis souvent à mes étudiants de ne pas se laisser tromper par le nom “intelligence artificielle” — il n’y a rien d’artificiel là-dedans. L’I.A. est faite par des humains, destinée à se comporter sous l’impulsion d’humains et, en fin de compte, à avoir un impact sur les vies humaines et la société humaine. » (X exige une authentification pour la récupération automatisée ; la citation est largement reproduite, notamment dans les articles consacrés à son plaidoyer pour une IA centrée sur l’humain. Voir aussi ses propos lors de l’Axios AI+ Summit, « AI pioneer Fei-Fei Li: Give scientists more access to advanced AI models », Axios, 9 novembre 2023, selon lesquels il n’y a « rien d’artificiel » dans l’IA.) ↩↩↩↩↩
« Stanford University launches the Institute for Human-Centered Artificial Intelligence », Stanford Report, 18 mars 2019. Stanford HAI a été lancé en mars 2019, codirigé par Fei-Fei Li (professeure d’informatique, ancienne directrice du Stanford AI Lab) et John Etchemendy (philosophe et ancien prévôt), avec pour mission de faire progresser la recherche, l’enseignement, les politiques et les pratiques en IA afin d’améliorer la condition humaine. ↩↩↩↩↩
Sur AI4ALL : « Fei-Fei Li », Wikipedia. En 2017, Fei-Fei Li a cofondé AI4ALL, une organisation à but non lucratif œuvrant à accroître la diversité et l’inclusion dans le domaine de l’intelligence artificielle. ↩↩↩↩↩
Fei-Fei Li, The Worlds I See: Curiosity, Exploration, and Discovery at the Dawn of AI (Flatiron Books, 2023). Sur la thèse centrée sur les données, voir aussi « ‘Godmother of A.I.’ Fei-Fei Li on technology development », CBS News, et l’article de NPR, « Fei-Fei Li’s memoir ponders artificial intelligence ethics », NPR, 10 novembre 2023. La formulation de Fei-Fei Li : « Notre hypothèse sur l’I.A. doit être guidée par les données, et l’approche centrée sur les données était la bonne hypothèse. » Le livre a été inscrit sur la liste de lectures de Barack Obama et désigné meilleur livre 2023 par le Financial Times. ↩↩↩↩
« About », World Labs. World Labs, fondée en 2024 par Fei-Fei Li avec Justin Johnson, Christoph Lassner et Ben Mildenhall, est une entreprise d’intelligence spatiale qui construit des modèles du monde fondateurs capables de percevoir, de générer, de raisonner et d’interagir avec le monde en 3D. Sur son financement d’environ 1 milliard de dollars, voir « Fei-Fei Li’s World Labs raises \$1bn to advance spatial intelligence », Silicon Republic. ↩↩↩