Philosophie de l'ingénierie : Kyunghyun Cho

Kyunghyun Cho, chercheur en deep learning

Points essentiels

Il a doté les réseaux récurrents d’une porte de mémoire apprise. En tant que premier auteur de l’article de 2014 « Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation », Kyunghyun Cho a introduit le Gated Recurrent Unit (GRU) — une cellule à portes simplifiée qui permet à un réseau d’apprendre quelle part de son passé conserver ou écraser à chaque étape, avec moins de paramètres que le LSTM auquel il se mesure.¹³
Il a contribué à introduire l’attention dans la traduction automatique. Avec Dzmitry Bahdanau (premier auteur) et Yoshua Bengio, Cho a coécrit « Neural Machine Translation by Jointly Learning to Align and Translate » (2014), qui permet à un décodeur de s’aligner en souplesse sur n’importe quelle partie de la source au lieu de comprimer la phrase entière dans un vecteur de longueur fixe. Ce mécanisme est l’ancêtre direct du Transformer et de tous les grands modèles de langage modernes.²⁴
Il est une voix de premier plan en faveur d’une science ouverte et reproductible. Cho défend activement la relecture ouverte et un empirisme rigoureux — des points de comparaison honnêtes, un scepticisme envers ses propres résultats et une recherche publiée au grand jour — comme en témoignent ses travaux sur l’évaluation par les pairs et son usage de plateformes ouvertes telles qu’OpenReview.⁵⁶
D’Aalto à NYU jusqu’à la conception de médicaments. Né en Corée du Sud en 1985, il obtient son doctorat à l’université Aalto, effectue un postdoctorat auprès de Yoshua Bengio à l’Université de Montréal, rejoint NYU en 2015 et cofonde Prescient Design — aujourd’hui rattachée à Genentech — pour appliquer l’apprentissage automatique à la conception d’anticorps.¹⁷

Le principe

« Un RNN encode une séquence de symboles dans une représentation vectorielle de longueur fixe, et l’autre décode cette représentation en une autre séquence de symboles. » — Kyunghyun Cho et al., décrivant le RNN Encoder-Decoder que ses travaux ultérieurs apprendraient à dépasser¹

Le plus ancien réflexe de l’ingénierie consiste à concevoir soi-même la structure de contrôle. Vous décidez quelles entrées comptent, combien de temps le système doit retenir une valeur, où regarder dans un tampon. Vous inscrivez ces décisions dans l’architecture, et le système hérite de vos suppositions. L’œuvre de Cho prend la direction inverse. Ses contributions majeures — les portes du GRU et l’alignement souple de l’attention — partagent un même geste : cesser de coder en dur la structure de contrôle, et laisser le modèle l’apprendre. Quel état passé conserver, quelle entrée privilégier — voilà ce qui devient des paramètres que le réseau ajuste à partir des données, plutôt que des règles fixées à la main par le concepteur.¹²

Le GRU en est l’illustration la plus nette. Un réseau récurrent ordinaire transporte un état caché et, à chaque étape, mêle l’ancien état à la nouvelle entrée selon une proportion fixe. Ce mélange figé est une supposition du concepteur, et elle est généralement fausse : des signaux importants présents au début d’une séquence se diluent dans le bruit en quelques étapes. La cellule à portes de Cho remplace la supposition par une porte apprise — un petit contrôle à valeur sigmoïde qui décide, étape par étape et dimension par dimension, quelle part de l’ancienne mémoire conserver et quelle part écraser avec la nouvelle entrée.³ Le réseau apprend quand s’accrocher et quand lâcher prise. Personne ne code à la main la politique de mémoire ; ce sont les données qui l’écrivent.

L’attention applique la même idée au regard plutôt qu’à la mémoire. Et le principe de Cho comporte une seconde moitié qui maintient la première dans l’honnêteté — une discipline de scientifique. Ce qui révèle si un mécanisme appris aide réellement, ce n’est pas l’enthousiasme ; c’est une confrontation loyale avec un point de comparaison solide, des résultats dont on se méfie tant qu’ils ne tiennent pas, et des méthodes publiées ouvertement pour que d’autres puissent les reproduire.⁵⁶ Laissez le modèle apprendre sa propre structure de contrôle — puis vérifiez, honnêtement et au grand jour, qu’elle a vraiment fonctionné. La première moitié est la source de la puissance. La seconde est ce qui rend cette puissance digne de confiance.

Contexte

Kyunghyun Cho est né en Corée du Sud en 1985.¹ Il décroche sa licence d’informatique au KAIST en 2009, puis part en Finlande poursuivre ses études supérieures à l’université Aalto, où il obtient un master en apprentissage automatique et fouille de données en 2011, puis son doctorat ès sciences en 2014, sous la direction du professeur Juha Karhunen (avec Tapani Raiko et Alexander Ilin).¹⁷ La Finlande est un berceau improbable pour l’une des années charnières du deep learning, mais c’est précisément le moment qui compte : il achève son doctorat juste au moment où le domaine s’apprête à basculer.

D’Aalto, il rejoint Montréal pour un postdoctorat auprès de Yoshua Bengio à l’Université de Montréal — le laboratoire qui allait devenir le MILA, alors la plus forte concentration de talents en deep learning au monde.¹ Les deux articles qui ancrent cet essai — le GRU et le modèle de NMT fondé sur l’attention — sont tous deux issus de cette fenêtre de 2014, avec Bengio comme coauteur de chacun.¹² Il vaut la peine de mesurer la vitesse de l’enchaînement : un chercheur arrive comme postdoctorant et, en l’espace d’un an environ, signe en premier auteur l’article qui introduit le GRU et figure parmi les auteurs de celui qui introduit l’attention dans la traduction. Ces deux idées sous-tendent aujourd’hui une large part de l’IA en activité.

En 2015, il rejoint l’université de New York, où il est aujourd’hui professeur d’informatique et de science des données au Courant Institute et au Center for Data Science, titulaire de la chaire Glen de Vries en statistiques de santé, et codirecteur du Global AI Frontier Lab de NYU aux côtés de Yann LeCun.⁷ Il passe la période 2017-2020 comme chercheur chez Facebook AI Research et — c’est le chapitre qui montre son principe dépasser le seul langage — début 2021, il cofonde Prescient Design, une startup de conception d’anticorps « lab-in-the-loop » rachetée par Genentech la même année, où il dirige des recherches de pointe appliquant l’apprentissage automatique génératif à la conception de médicaments.⁷⁸ Tout au long de ce parcours, il s’est fait l’ardent défenseur d’une science ouverte et reproductible.⁵⁶

Les travaux

Le GRU : une mémoire que le réseau apprend à doser

Pour saisir pourquoi le dosage par portes compte, observez un réseau récurrent tenter de transporter une valeur importante à travers une séquence longue et bruitée. Le réseau lit une étape à la fois, en conservant une unique « mémoire » cachée qu’il met à jour à chaque pas. Tôt dans la séquence, une valeur digne d’être conservée apparaît ; tout ce qui suit n’est que bruit. Un RNN ordinaire mêle l’ancien et le nouveau dans une proportion fixe, si bien que la valeur initiale s’efface en quelques étapes — à la fin, elle a disparu. Tout le problème tient à ce que la décision conserver ou écraser était codée en dur. Le composant ci-dessous rend la chose tangible : une seule porte décide, à chaque étape, quelle part de l’ancienne mémoire survit. Faites-la glisser vers « conserver » et la valeur initiale parvient intacte jusqu’au bout ; faites-la glisser vers « écraser » et elle s’évapore presque aussitôt.

Démonstration interactive de mémoire à portes (nécessite JavaScript). Un réseau récurrent lit une séquence étape par étape, en transportant une « mémoire » cachée. Tôt dans la séquence, une valeur importante apparaît ; tout ce qui suit n'est que bruit. Une porte — l'idée centrale du Gated Recurrent Unit introduit par Kyunghyun Cho — décide à chaque étape quelle part de l'ancienne mémoire conserver et quelle part écraser avec la nouvelle entrée. Tournez la porte vers « conserver » et la valeur initiale survit jusqu'au bout ; tournez-la vers « écraser » et elle s'évapore en quelques étapes. Le réseau apprend ces portes, de sorte qu'il décide lui-même de ce qui vaut la peine d'être retenu.

C’est exactement le levier qu’ajoute le GRU de Cho, à ceci près que le réseau apprend la porte au lieu que vous la régliez. Introduit dans son article de 2014 sur le RNN Encoder-Decoder, le GRU utilise deux portes apprises : une porte de mise à jour qui contrôle quelle part de l’état caché précédent reporter plutôt que remplacer par de nouvelles informations, et une porte de réinitialisation qui détermine quelle part du passé doit influencer le nouvel état candidat.³ Toutes deux sont à valeur sigmoïde — des molettes continues entre 0 et 1 — ce qui rend l’ensemble différentiable et entraînable par descente de gradient. Le réseau découvre, à partir des données, quand retenir une valeur longtemps et quand l’évacuer.³

La conception est délibérément économe. Elle apparaît en même temps que le LSTM, plus ancien, de Hochreiter et Schmidhuber, qui résout le même problème de gradient évanescent avec davantage de rouages — un état de cellule distinct et une porte de sortie supplémentaire. Le GRU « ne possède ni vecteur de contexte ni porte de sortie, d’où un nombre de paramètres inférieur à celui du LSTM », tout en offrant des performances comparables en reconnaissance vocale, en modélisation musicale et sur des tâches de langage.³ C’est là le goût en ingénierie qui mérite d’être nommé : l’unité la plus simple qui capture l’idée essentielle — le dosage appris — sans les pièces dont vous ne pouvez prouver le besoin. Pendant des années, le GRU et le LSTM ont été les deux cellules récurrentes par défaut de toute boîte à outils de modélisation de séquences.

L’attention : l’alignement souple et la fin du goulet du vecteur fixe

Le RNN Encoder-Decoder présentait un défaut structurel, que l’article même de Cho a nommé : l’encodeur écrase une phrase d’entrée entière dans « une représentation vectorielle de longueur fixe », et le décodeur doit reconstruire toute la traduction à partir de ce seul vecteur.¹ Pour une phrase courte, cela passe. Pour une phrase longue, c’est une catastrophe — vous forcez un paragraphe à passer par le trou d’une serrure, et les réseaux récurrents tendent à surpondérer les mots les plus proches de la fin tandis que le début s’estompe.⁴ Le goulet d’étranglement, c’est le vecteur de longueur fixe lui-même.

Le correctif, dans « Neural Machine Translation by Jointly Learning to Align and Translate » (2014/2015) — Dzmitry Bahdanau en premier auteur, avec Cho et Bengio — a consisté à supprimer entièrement le goulet.² Au lieu de comprimer la source en un seul vecteur, le modèle conserve une représentation de chaque mot source et laisse le décodeur, à chaque étape de sortie, calculer un ensemble de pondérations sur l’ensemble de ces mots — un alignement souple appris qui dit : « pour produire ce mot, regarde surtout ici, un peu là ».⁴ Le décodeur accède directement à n’importe quelle partie de l’entrée, au lieu de ne l’atteindre qu’à travers un unique état comprimé.⁴ Point décisif : l’alignement n’est pas spécifié à la main par un linguiste ; il est appris conjointement avec la traduction, de bout en bout. Le modèle décide lui-même où regarder — le même principe que la porte du GRU, désormais appliqué à l’attention plutôt qu’à la mémoire.

La ligne qui mène de là jusqu’à aujourd’hui est courte et porteuse. L’alignement souple s’est généralisé en auto-attention et, en 2017, le Transformer de « Attention Is All You Need » a formalisé l’attention par produit scalaire mis à l’échelle et a abandonné entièrement la récurrence — une conception devenue le fondement de BERT, T5, GPT et de toute la génération des grands modèles de langage.⁴ Les LLMs modernes sont, en un sens bien réel, de l’attention mise à l’échelle et débarrassée du RNN qui l’entourait. Le mécanisme que Cho a contribué à introduire dans la traduction en 2014 est celui qui fait tourner votre agent conversationnel. (L’attribution importe : Cho est premier auteur de l’article sur le GRU et coauteur, avec Bahdanau et Bengio, de l’article sur l’attention — il n’a pas introduit l’attention seul.)¹²

Kyunghyun Cho

Une science ouverte et reproductible

Le second principe est plus discret et, dans un domaine sujet au battage, plus difficile à tenir. Cho défend avec constance une science ouverte et reproductible — une recherche menée et évaluée au grand jour, avec des points de comparaison honnêtes et un scepticisme actif envers ses propres résultats.⁵⁶ Il a utilisé et soutenu des plateformes ouvertes comme OpenReview, et a mené des recherches sur l’évaluation par les pairs elle-même, étudiant par exemple si l’auto-évaluation des auteurs sur leurs propres articles peut éclairer le processus de relecture.⁵⁶ Le fil conducteur : un résultat n’est pas un résultat tant qu’il n’a pas survécu à un examen que l’auteur ne contrôlait pas.

Kyunghyun Cho à NeurIPS 2025

Pourquoi cela compte techniquement : en deep learning, il est singulièrement facile de se duper soi-même. Une nouvelle architecture surpassera presque toujours un point de comparaison faible, une graine chanceuse ou un concurrent mal réglé — et la littérature est jonchée d’« améliorations » qui s’évaporent dès qu’on accorde une chance loyale à l’ancienne méthode. La discipline que Cho incarne consiste à présumer que votre propre gain est un artefact jusqu’à preuve du contraire, à régler le point de comparaison aussi finement que votre propre méthode, et à publier assez ouvertement pour que quelqu’un puisse vous démentir. C’est la conscience empirique qui empêche le réflexe « laissons le modèle l’apprendre » de tourner au « le modèle l’a appris parce que je le voulais ».

L’apprentissage automatique au service des sciences : Prescient Design

Le signe le plus clair que le principe de Cho est général, et non propre au langage, c’est la direction qu’il lui a fait prendre ensuite : la conception de médicaments. Début 2021, il cofonde Prescient Design, racheté par Genentech la même année, pour bâtir une plateforme « lab-in-the-loop » de conception d’anticorps thérapeutiques.⁷⁸ La boucle couple des modèles d’apprentissage automatique génératifs, des prédicteurs de propriétés multitâches et une sélection par apprentissage actif avec de véritables expériences en laboratoire, selon un cycle itératif — les modèles proposent des variants d’anticorps, le laboratoire les teste, et les résultats réentraînent les modèles.⁸ Appliqué à des cibles cliniquement pertinentes, le système a conçu et testé plus d’un millier de variants et a permis d’élaborer des anticorps à l’affinité de liaison nettement plus forte que les molécules de départ.⁸ La structure est la même que celle qui traverse tout ce qu’il a construit : ne concevez pas la réponse à la main, bâtissez un système qui l’apprend à partir des preuves — et bouclez la boucle avec de vraies mesures pour que l’apprentissage reste honnête.

La méthode

Lisez en parallèle le GRU, l’attention, le plaidoyer pour la science ouverte et les travaux sur les anticorps, et les mêmes engagements reviennent. La méthode de Cho tient moins d’un slogan que d’un ensemble d’habitudes constantes.

Rendre la structure de contrôle apprenable. Le geste fondateur consiste à prendre une décision que vous coderiez normalement en dur — combien de temps mémoriser, où regarder — et à la transformer en paramètres que le modèle ajuste à partir des données. La porte du GRU et l’alignement de l’attention sont le même réflexe dans deux domaines. La leçon dépasse de loin les modèles de séquences : lorsque vous vous surprenez à deviner un seuil, une pondération ou une règle d’aiguillage, demandez-vous si le système ne pourrait pas l’apprendre mieux que vous ne pouvez le deviner.¹²

Préférer le mécanisme le plus simple qui capture l’idée essentielle. Le GRU conserve le dosage appris et abandonne l’état de cellule et la porte de sortie du LSTM, égalant ses performances avec moins de paramètres.³ C’est le produit minimum digne à l’échelle d’une cellule neuronale — la plus petite unité qui porte encore l’idée porteuse, la même économie de moyens qui traverse l’ARM de Sophie Wilson.

Nommer le goulet d’étranglement avant de le supprimer. L’article de Cho sur l’encodeur-décodeur a nommé la limitation du vecteur de longueur fixe ; l’article sur l’attention l’a supprimée.¹⁴ La discipline consiste à énoncer d’abord précisément le défaut structurel — le paragraphe par le trou de serrure — car un goulet nettement nommé est à moitié résolu. C’est le même réflexe que la décision de Fei-Fei Li de s’attaquer aux données, et non au modèle : trouver la véritable contrainte, et non la contrainte commode.

Accorder au point de comparaison une chance loyale. L’empirisme honnête, c’est régler la méthode que vous cherchez à battre aussi finement que celle que vous proposez, et traiter votre propre gain comme suspect tant qu’il n’a pas survécu à cette épreuve. C’est le seuil de la preuve érigé en pratique de recherche — « ça s’est amélioré » n’est pas une preuve ; « ça s’est amélioré face à un point de comparaison solide et reproductible au grand jour » en est une.⁵⁶

Travailler au grand jour. Relecture ouverte, plateformes ouvertes, résultats reproductibles. La valeur d’une méthode ne tient pas à ce que son auteur prétend, mais à ce qui survit à un examen indépendant — c’est pourquoi publier assez ouvertement pour être vérifié fait partie de l’ingénierie, et n’est pas une politesse qui s’y ajoute après coup. C’est la qualité est la seule variable appliquée à la science elle-même : la seule chose qui compte, c’est de savoir si le résultat est réel.⁵⁶

Chaîne d’influence

Ceux qui l’ont façonné

Yoshua Bengio et le groupe du MILA. L’année charnière de Cho s’est jouée pendant son postdoctorat dans le laboratoire montréalais de Bengio, et Bengio a coécrit aussi bien l’article sur le GRU que celui sur l’attention.¹² Le MILA était l’environnement où les idées sur les réseaux récurrents et la traduction automatique du début des années 2010 étaient poussées le plus loin, et le travail de Cho en est indissociable. (Influence directe)

Juha Karhunen et l’école d’Aalto. Sa formation doctorale à Aalto, sous la direction de Juha Karhunen, avec Tapani Raiko et Alexander Ilin, l’a ancré dans la tradition de l’apprentissage non supervisé et des réseaux de neurones, avant que les années montréalaises ne lui donnent une cible de traduction.¹⁷ (Influence formatrice)

La lignée du deep learning. Le problème du gradient évanescent que le GRU traite, et les architectures récurrentes et convolutives parmi lesquelles il s’inscrit, descendent des décennies de travaux de Geoffrey Hinton et de Yann LeCun, qui ont établi qu’il était même possible d’entraîner des réseaux profonds. Cho codirige aujourd’hui un laboratoire de NYU avec LeCun.⁷ (Influence formatrice)

Ceux qu’il a façonnés

La modélisation moderne des séquences. Pendant des années, le GRU a été l’une des deux cellules récurrentes par défaut — la moitié la plus simple du choix GRU/LSTM que tout praticien du NLP, de la parole et des séries temporelles faisait par réflexe.³

Le Transformer et l’ère des LLM. L’attention, introduite dans la traduction par l’article que Cho a coécrit, s’est généralisée en l’auto-attention dont le Transformer est bâti — et le Transformer est ce qui fait tourner tous les grands modèles de langage modernes.⁴ Le mécanisme est l’un des plus lourds de conséquences dans l’histoire du domaine.

L’apprentissage automatique au service des sciences. À travers Prescient Design et Genentech, Cho a contribué à faire entrer l’apprentissage automatique génératif dans la conception d’anticorps thérapeutiques, plaidant que le schéma « apprends-le à partir des preuves, boucle la boucle par la mesure » a sa place en biologie autant que dans le langage.⁸

Le fil conducteur

Cho est la charnière du mécanisme dans la branche deep learning de cette série — le pont entre les fondations et l’ère des LLM. Geoffrey Hinton et Yann LeCun ont établi que les réseaux profonds peuvent apprendre ; Fei-Fei Li a fourni les données sur lesquelles ils ont appris. Le dosage et l’attention de Cho sont le pas architectural qui a transformé ces fondations en quelque chose capable de traiter le langage à grande échelle — et ses travaux sur l’attention se déversent directement dans le Transformer qu’Andrej Karpathy apprendrait plus tard à une génération à construire et qui alimente les LLM modernes. Là où Hinton dit la machine à apprendre fonctionne et Li dit voici le monde dont apprendre, Cho dit : laissez le modèle apprendre sa propre structure de contrôle — quoi retenir, quoi regarder — puis prouvez, au grand jour, qu’il l’a réellement fait. La première proposition est la ligne qui mène au Transformer ; la seconde est la conscience empirique qui le maintient honnête — la même rigueur que Fei-Fei Li a apportée aux jeux de référence. (Pont de la série)

Ce que j’en retiens

La leçon que je garde de Cho, c’est de cesser de coder en dur les décisions qu’un système pourrait apprendre. Mon réflexe, comme celui de la plupart des ingénieurs, est d’inscrire mon propre jugement — ce seuil, cette pondération, cette règle d’aiguillage — parce que mon jugement me semble être la part digne de confiance. Le GRU et l’attention sont l’un et l’autre des arguments en faveur de l’idée inverse, qui vieillit souvent mieux : le modèle, doté du bon mécanisme et de suffisamment de données, apprendra une politique de mémoire ou un alignement bien mieux que je ne saurais en deviner un. Aussi, quand je me surprends à régler une constante magique ou à écrire à la main une branche qui décide de ce qui compte, je me demande désormais si je ne suis pas en train de coder une décision que le système devrait plutôt apprendre. Le savoir-faire n’est pas de faire le choix ; c’est de bâtir la structure qui permet au choix d’être appris.

La seconde leçon est la discipline qui empêche la première de me mentir. Laisser un système apprendre son propre comportement est enivrant précisément parce qu’il semble si facilement avoir fonctionné — la démo passe, la métrique grimpe, et je veux y croire. L’éthique de science ouverte de Cho est l’antidote : présumez que votre propre résultat est un artefact tant qu’il n’a pas survécu à une confrontation loyale avec un point de comparaison solide, et publiez-le assez ouvertement pour que quelqu’un puisse vous démentir. C’est exactement pourquoi je tiens le seuil de la preuve pour non négociable — « ça s’est amélioré » est un ressenti, « ça s’est amélioré face à un point de comparaison réglé, de façon reproductible » est une preuve. Bâtissez des systèmes qui apprennent leur propre structure de contrôle, puis soumettez-les à un niveau d’exigence de preuve que vous n’avez pas eu le loisir de fixer. La puissance et l’honnêteté sont les deux moitiés d’une même pratique.

FAQ

Qu’est-ce que le GRU (Gated Recurrent Unit) ?

Le GRU est un type de cellule de réseau de neurones récurrent que Kyunghyun Cho a introduit en tant que premier auteur dans l’article de 2014 « Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation ».¹ Il utilise des portes apprises — une porte de mise à jour et une porte de réinitialisation, toutes deux à valeur sigmoïde entre 0 et 1 — pour contrôler quelle part de l’état caché précédent conserver et quelle part écraser avec la nouvelle entrée à chaque étape. Cela permet au réseau d’apprendre ce qu’il faut retenir sur de longues séquences, résolvant le problème du gradient évanescent. Il offre des performances comparables au LSTM tout en utilisant moins de paramètres, car il omet l’état de cellule distinct et la porte de sortie du LSTM.³

Qu’a apporté Kyunghyun Cho à l’attention et à la traduction automatique neuronale ?

Cho est coauteur — avec Dzmitry Bahdanau (premier auteur) et Yoshua Bengio — de « Neural Machine Translation by Jointly Learning to Align and Translate » (2014), l’article qui a introduit le mécanisme d’attention dans la traduction automatique neuronale.² Au lieu de comprimer une phrase source en un seul vecteur de longueur fixe, le modèle conserve une représentation de chaque mot source et laisse le décodeur apprendre un alignement souple sur l’ensemble de ces mots à chaque étape de sortie. Ce mécanisme s’est généralisé en l’auto-attention du Transformer en 2017, qui est le fondement des grands modèles de langage modernes.⁴ Par ailleurs, Cho a été premier auteur de l’article de 2014 qui a introduit le GRU.¹

Quel goulet d’étranglement de l’encodeur-décodeur l’attention a-t-elle résolu ?

Le RNN Encoder-Decoder original, décrit dans l’article de Cho de 2014, encode une phrase d’entrée entière dans « une représentation vectorielle de longueur fixe », à partir de laquelle le décodeur doit reconstruire toute la sortie.¹ Pour les phrases longues, ce vecteur unique constitue un goulet d’étranglement — un paragraphe forcé par le trou d’une serrure — et les réseaux récurrents tendent à perdre l’information du début de la séquence.⁴ L’attention a supprimé ce goulet en conservant une représentation de chaque position source et en laissant le décodeur porter son attention directement sur n’importe laquelle d’entre elles, avec des pondérations apprises, plutôt que de s’appuyer sur un seul état comprimé.⁴

Que fait Kyunghyun Cho aujourd’hui ?

Cho est professeur d’informatique et de science des données au Courant Institute et au Center for Data Science de NYU, titulaire de la chaire Glen de Vries en statistiques de santé, et codirecteur du Global AI Frontier Lab de NYU avec Yann LeCun.⁷ Il a cofondé Prescient Design en 2021 — racheté par Genentech la même année —, où il a dirigé des recherches de pointe appliquant l’apprentissage automatique génératif à la conception d’anticorps thérapeutiques « lab-in-the-loop », couplant des modèles d’apprentissage automatique à des expériences en laboratoire dans une boucle d’optimisation itérative.⁷⁸ Il demeure un défenseur actif d’une science ouverte et reproductible.⁵⁶

Sources

Kyunghyun Cho, Bart van Merrienboer, Caglar Gulcehre, Dzmitry Bahdanau, Fethi Bougares, Holger Schwenk, and Yoshua Bengio, “Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation,” arXiv:1406.1078 (2014), présenté à EMNLP 2014. Source primaire pour le GRU. Kyunghyun Cho en est le premier auteur. Le résumé décrit le RNN Encoder-Decoder : « One RNN encodes a sequence of symbols into a fixed-length vector representation, and the other decodes the representation into another sequence of symbols. » L’article introduit une nouvelle unité cachée à portes (le Gated Recurrent Unit) et rapporte que le modèle améliore un système de traduction automatique statistique. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
Dzmitry Bahdanau, Kyunghyun Cho, and Yoshua Bengio, “Neural Machine Translation by Jointly Learning to Align and Translate,” arXiv:1409.0473 (2014 ; publié à ICLR 2015). Source primaire pour l’attention en NMT. Dzmitry Bahdanau en est le premier auteur ; Cho et Bengio sont coauteurs. L’article propose de laisser le modèle « automatically (soft-)search for parts of a source sentence that are relevant to predicting a target word », plutôt que d’encoder la source entière dans un unique vecteur de longueur fixe. ↩↩↩↩↩↩↩↩
“Gated recurrent unit,” Wikipedia. Le GRU a été introduit en 2014 par Kyunghyun Cho et ses collègues dans « Learning Phrase Representations using RNN Encoder-Decoder for Statistical Machine Translation » (EMNLP 2014). Il utilise une porte de mise à jour (z_t), qui contrôle quelle part de l’état caché précédent conserver plutôt qu’incorporer de nouvelles informations, et une porte de réinitialisation (r_t), qui détermine quelles portions de l’état caché précédent influencent l’activation candidate ; toutes deux utilisent une activation sigmoïde produisant des valeurs entre 0 et 1. Le GRU « lacks a context vector or output gate, resulting in fewer parameters than LSTM », et offre des performances comparables au LSTM en reconnaissance vocale, en modélisation musicale et sur des tâches de NLP. ↩↩↩↩↩↩↩↩
“Attention (machine learning),” Wikipedia. Dzmitry Bahdanau, Kyunghyun Cho et Yoshua Bengio ont introduit l’attention dans la traduction automatique neuronale en 2014, dans « Neural Machine Translation by Jointly Learning to Align and Translate ». L’attention a répondu à la limitation selon laquelle les modèles encodeur-décodeur comprimaient des séquences d’entrée entières dans des vecteurs de taille fixe, causant une perte d’information pour les phrases plus longues ; les réseaux récurrents « favor information contained in words at the end of a sentence » et « attenuate the significance » du contenu antérieur. L’attention a permis « a token equal access to any part of a sentence directly, rather than only through the previous state ». Dès 2017, le Transformer (« Attention Is All You Need ») a formalisé l’auto-attention par produit scalaire mis à l’échelle et est devenu fondateur pour BERT, T5 et GPT. ↩↩↩↩↩↩↩↩↩↩
“Kyunghyun Cho,” profil OpenReview, corroboré par “Kyunghyun Cho,” DBLP. Atteste de l’usage actif par Cho des plateformes ouvertes d’évaluation par les pairs et de ses recherches publiées sur le processus d’évaluation par les pairs en apprentissage automatique — y compris des travaux examinant si l’auto-évaluation des auteurs sur leurs propres articles peut assister ou prédire les résultats de la relecture — preuve de son engagement en faveur d’une pratique scientifique ouverte et reproductible. ↩↩↩↩↩↩↩↩
“Kyunghyun Cho,” site personnel (NYU / Center for Data Science), et son “profil Google Scholar.” Le site et le bilan de publications de Cho reflètent son plaidoyer en faveur d’une science ouverte et reproductible — recherche publiée au grand jour, empirisme rigoureux, et attention à une évaluation et à des points de comparaison honnêtes dans l’ensemble de ses travaux en apprentissage automatique. ↩↩↩↩↩↩↩↩
“Kyunghyun Cho,” Wikipedia, corroboré par son “profil de la faculté NYU Courant” et son “site personnel.” Né en Corée du Sud en 1985 ; licence d’informatique du KAIST (2009) ; master (2011) et doctorat ès sciences (2014) de l’université Aalto, Finlande, sous la direction du professeur Juha Karhunen (avec Tapani Raiko et Alexander Ilin) ; postdoctorant auprès de Yoshua Bengio à l’Université de Montréal (2014-2015) ; rejoint le Courant Institute de NYU en 2015 (titularisé en 2019) ; chercheur chez Facebook AI Research (2017-2020) ; professeur d’informatique et de science des données au Courant et au Center for Data Science, titulaire de la chaire Glen de Vries en statistiques de santé, et codirecteur du Global AI Frontier Lab de NYU avec Yann LeCun. Samsung AI Researcher of the Year (2020) ; prix Ho-Am en ingénierie (2021). ↩↩↩↩↩↩↩↩↩
“Lab-in-the-loop therapeutic antibody design with deep learning,” bioRxiv (2025), Prescient Design / Genentech, et “Genentech: Prescient Design.” Cho a cofondé Prescient Design début 2021 ; la société a été rachetée par Genentech la même année. Le paradigme « lab-in-the-loop » orchestre des modèles d’apprentissage automatique génératifs, des prédicteurs de propriétés multitâches, un classement et une sélection par apprentissage actif, et une expérimentation in vitro dans une boucle d’optimisation itérative semi-autonome ; appliquée à des cibles antigéniques cliniquement pertinentes, l’équipe a conçu et testé plus de 1 800 variants d’anticorps et a élaboré des anticorps à l’affinité de liaison nettement plus forte (rapportée comme environ 3 à 100 fois) que les molécules de tête initiales. ↩↩↩↩↩↩