Filosofia de engenharia: Yann LeCun

Q: O que Yann LeCun inventou e como isso foi usado comercialmente?

Ele é o principal inventor da rede neural convolucional moderna. No Bell Labs em 1989, ele esteve entre os primeiros a aplicar a retropropagação a uma tarefa prática – reconhecer códigos postais manuscritos – produzindo o protótipo LeNet, e o artigo de 1998 “Gradient-Based Learning Applied to Document Recognition” (com Bottou, Bengio e Haffner) descreveu a LeNet-5.23 Comercialmente, a NCR implantou leitores de cheques baseados na LeNet a partir de 1996, e em 2001 estimava-se que o sistema lia cerca de 20 milhões de cheques por dia – aproximadamente 10% de todos os cheques nos Estados Unidos.2

Yann LeCun, pioneiro do aprendizado profundo e cientista-chefe de IA da Meta

Principais conclusões

Aprender o mundo, em grande parte por conta própria. A aposta central de LeCun é que a inteligência surge de uma máquina que aprende como o mundo funciona pela observação – aprendizado autossupervisionado – com os rótulos humanos como um fino enfeite por cima. A célebre analogia do “bolo” torna as proporções literais: o grosso é autossupervisionado, a cobertura é supervisionada e a cereja é o aprendizado por reforço.
A convolução tornou a visão aprendível. No Bell Labs ele aplicou a retropropagação a dígitos manuscritos (1989) e construiu a família LeNet de redes neurais convolucionais; a LeNet-5 (1998) tornou-se a arquitetura que, implantada comercialmente, já lia cerca de 10% de todos os cheques nos Estados Unidos em 2001.
A pesquisa aberta é um método, não um slogan. Como diretor fundador do FAIR do Facebook/Meta (2013) e cientista-chefe de IA, ele tornou a publicação e a abertura do código a prática padrão – o código e os pontos de verificação do I-JEPA saíram junto com o artigo – convicto de que a ciência aberta se acumula mais rápido do que o sigilo.
O otimista que é cético quanto aos LLMs. Colaureado do Prêmio Turing de 2018 ao lado de Hinton e Bengio, LeCun argumenta que os modelos de linguagem autorregressivos são “uma saída da estrada” no caminho para uma IA de nível humano; o caminho, diz ele, passa por modelos do mundo como o JEPA. Em novembro de 2025 ele deixou a Meta para construir exatamente isso.

O princípio

“Não vamos chegar a uma IA de nível humano apenas escalando os LLMs” – eles “simplesmente preveem texto em vez de realmente entender o mundo”. – Yann LeCun, sobre sua saída da Meta, 2025¹⁰

O princípio que sustenta essa frase é mais antigo do que a era dos LLMs, e LeCun o defende com coerência há quarenta anos: uma máquina deveria aprender como o mundo funciona em grande parte por conta própria, prevendo o que observa, em vez de ser alimentada na boca com rótulos humanos – e a ciência de como fazer isso deveria ser feita às claras. A maior parte do que qualquer animal sabe, ele aprende sem professor. Um bebê aprende que objetos sem apoio caem, que coisas ocultas continuam existindo, que o mundo tem uma estrutura estável, muito antes de alguém nomear uma única coisa para ele. A aposta de LeCun é que esse tipo de aprendizado – absorver a estrutura do mundo a partir de entradas sensoriais cruas, sem rótulos e de alta largura de banda – é o grosso da inteligência, e que o aprendizado supervisionado e o aprendizado por reforço são camadas comparativamente finas por cima dele.

Esse é o conteúdo de sua frase mais citada, a do bolo: “Se a inteligência é um bolo, o grosso do bolo é o aprendizado autossupervisionado, a cobertura do bolo é o aprendizado supervisionado e a cereja do bolo é o aprendizado por reforço.”⁵ Ele originalmente disse não supervisionado em 2016 e deliberadamente corrigiu para autossupervisionado em 2019 – uma precisão que importa, porque nomeia o mecanismo: os dados fornecem seus próprios rótulos. Mascara-se parte da entrada, prevê-se a partir do resto; o mundo é seu próprio professor.⁵ As proporções da analogia são o argumento inteiro. Se o bolo é majoritariamente autossupervisionado, então um campo que despeja seu esforço em sistemas cada vez maiores, treinados para prever o próximo token escrito por um humano, está, na visão dele, otimizando a cobertura.

A segunda metade do princípio é a abertura. LeCun construiu sua carreira e seu laboratório sobre a convicção de que a pesquisa em IA avança mais rápido quando é publicada, reprodutível e de código aberto – uma convicção que vai contra o instinto da indústria de acumular o trabalho de fronteira. As duas metades estão conectadas: se o caminho para a inteligência real é longo e incerto, nenhum laboratório isolado vai percorrê-lo sozinho, e a única maneira de descobrir quais arquiteturas de fato aprendem o mundo é colocá-las às claras e deixar que todos as ponham à prova. Aprender o mundo, abertamente – a previsão como motor, a abertura como método.

Contexto

Yann André Le Cun nasceu em 8 de julho de 1960, em Soisy-sous-Montmorency, perto de Paris.¹ Obteve seu doutorado na Universidade Pierre e Marie Curie (hoje parte da Universidade Sorbonne) em 1987, e sua tese já continha uma forma inicial de retropropagação – a ideia que viria a definir o campo.¹ Era conexionista antes de o conexionismo ser respeitável, trabalhando em redes de aprendizado inspiradas no cérebro durante o mesmo período em que o resto da IA as havia descartado.

Em 1988 ele ingressou nos AT&T Bell Laboratories, a instituição onde aconteceu seu trabalho de engenharia mais consequente.¹ O Bell Labs lhe deu dados reais e um motivo para fazer as redes funcionarem, não apenas teorizar sobre elas: dígitos manuscritos do serviço postal dos Estados Unidos e, em seguida, os valores escritos em cheques bancários. A restrição era implacável – um leitor de cheques que alucina um dígito custa dinheiro – e o empurrou para uma arquitetura que levava a sério a estrutura das imagens, em vez de tratar uma imagem como um saco indiferenciado de pixels.

Depois do Bell Labs, ele se mudou para a NYU em 2003 como professor de ciência da computação.¹ Então, em dezembro de 2013, Mark Zuckerberg o contratou para construir e liderar a Facebook AI Research (FAIR), e ele se tornou o cientista-chefe de IA da empresa – um cargo que ocupou por mais de uma década enquanto permanecia professor em tempo parcial na NYU.¹¹⁰ O FAIR tornou-se um dos laboratórios de pesquisa industrial abertos mais prolíficos da época, expressão direta de sua crença de que a ciência deve ser compartilhada. Esse período terminou em novembro de 2025, quando ele saiu para fundar sua própria startup de modelos do mundo – a declaração mais clara possível de qual lado da aposta sobre os LLMs ele defende.¹⁰

O trabalho

Redes convolucionais e a LeNet: lendo os cheques do mundo (1989-1998)

A ideia técnica central da carreira de LeCun é a rede neural convolucional, e a forma mais nítida de sentir por que ela importa é vê-la funcionar. Uma rede ingênua que conecta cada pixel a cada neurônio é ao mesmo tempo enorme e cega à estrutura: ela não tem noção de que um traço no canto superior esquerdo de uma imagem é o mesmo tipo de coisa que o traço idêntico no canto inferior direito. O insight de LeCun – apoiando-se no Neocognitron de Kunihiko Fukushima e ancorado no córtex visual do cérebro – foi deslizar um pequeno filtro (um núcleo) pela imagem, calculando o mesmo punhado de pesos em cada posição, de modo que a rede aprende uma característica uma única vez e a detecta em toda parte. O widget abaixo é exatamente essa operação: escolha um núcleo detector de bordas, observe-o varrer um dígito e veja o “mapa de características” se acender onde quer que apareça o padrão que ele reconhece.

Demonstração interativa de convolução (requer JavaScript). A ideia central sobre a qual LeCun construiu a visão profunda: em vez de ligar cada pixel a cada neurônio, um pequeno filtro (núcleo) desliza pela imagem, calculando os mesmos poucos pesos em cada posição. Escolha um núcleo detector de bordas e observe-o varrer um dígito, acendendo-se exatamente onde aparece o padrão que ele reconhece -- produzindo um "mapa de características". Uma rede convolucional simplesmente aprende esses filtros a partir dos dados em vez de projetá-los à mão, e os empilha para enxergar bordas, depois traços, depois formas.

A história é concreta. Em 1989, no Bell Labs, LeCun e colegas foram os primeiros a aplicar o algoritmo de retropropagação a um problema prático – reconhecer códigos postais manuscritos da correspondência do serviço postal dos Estados Unidos – produzindo o protótipo que se tornou a LeNet-1.² Quase uma década de refinamento levou ao artigo marcante de 1998, “Gradient-Based Learning Applied to Document Recognition”, de LeCun, Léon Bottou, Yoshua Bengio e Patrick Haffner, que descreveu a LeNet-5 e defendeu que o aprendizado baseado em gradiente poderia substituir os extratores de características projetados à mão no reconhecimento de documentos.³

Isso não foi uma curiosidade de referência. A NCR implantou comercialmente leitores de cheques baseados na LeNet a partir de junho de 1996, e em 2001 estimava-se que o sistema lia cerca de 20 milhões de cheques por dia – aproximadamente 10% de todos os cheques nos Estados Unidos.² Num momento em que as redes neurais ainda eram desprezadas por boa parte do campo, LeCun tinha uma que lia discretamente um décimo dos cheques de uma nação. A arquitetura que ele projetou para esse problema – convolução, agrupamento (pooling), características aprendidas empilhadas numa hierarquia – é, estruturalmente, a mesma ideia que move a visão computacional moderna.

Yann LeCun discursando

A pesquisa aberta e o FAIR

Quando LeCun construiu o FAIR em 2013, ele fez uma escolha que não era óbvia para um laboratório corporativo: o trabalho seria aberto. Publicar os artigos, liberar o código, compartilhar os modelos.¹¹⁰ A aposta era que um laboratório aberto atrai os melhores pesquisadores (que querem que seu trabalho seja visto e citado), faz todo o campo avançar mais rápido e – não por acaso – permite que o mundo audite e melhore o que você constrói.

Esse é o primo filosófico de por que o código aberto não é uma fronteira de segurança: a abertura não é uma garantia de correção, mas é o mecanismo pelo qual a correção é encontrada. A versão de LeCun aplica isso à ciência. Você não tem como saber quais arquiteturas de fato aprendem a estrutura do mundo raciocinando sobre elas em segredo; você as publica, outros as reproduzem ou as refutam, e a verdade sobrevive ao escrutínio. O lançamento do I-JEPA pela Meta em 2023 é esse padrão em miniatura – o código de treinamento e os pontos de verificação do modelo saíram junto com o artigo, não meses depois, não nunca.⁸ Numa época em que os laboratórios de fronteira tratam cada vez mais seu melhor trabalho como segredo comercial, a postura aberta de LeCun é uma posição deliberada e na contramão sobre como o conhecimento se acumula.

O aprendizado autossupervisionado: o bolo

A mais profunda das ideias de LeCun é também a de embalagem mais cativante. Há anos ele argumenta que o campo tem as proporções da inteligência invertidas, e ele defendeu esse ponto com comida. Em sua palestra “Future of AI” na NYU no início de 2016 e em sua palestra principal na NeurIPS naquele ano, ele exibiu um bolo: “Se a inteligência é um bolo, o grosso do bolo é o aprendizado não supervisionado, a cobertura do bolo é o aprendizado supervisionado e a cereja do bolo é o aprendizado por reforço.”⁵ Em 2019 ele havia deliberadamente revisado “não supervisionado” para “autossupervisionado” – uma variante em que os dados fornecem sua própria supervisão, escondendo parte da entrada e treinando o modelo para prevê-la a partir do resto.⁵

A revisão não é cosmética; ela nomeia o motor. “Não supervisionado” descreve a ausência de rótulos. “Autossupervisionado” descreve um mecanismo positivo: o mundo, uma vez observado, torna-se seu próprio sinal de treinamento. É assim, ele argumenta, que humanos e animais adquirem a esmagadora maioria do que sabem – a física de senso comum e a estrutura que ninguém rotula para nós. Sua expressão para isso é a “matéria escura da inteligência”: a vasta massa de aprendizado sem rótulos que os métodos supervisionados e por reforço apenas decoram.⁵ Se ele estiver certo quanto às proporções, então o problema de pesquisa mais importante em IA não são conjuntos de dados rotulados maiores nem mais sinais de recompensa, mas melhores objetivos autossupervisionados – aprender o mundo observando-o.

Yann LeCun

Modelos do mundo e o JEPA: a postura cética quanto aos LLMs

A posição mais pública e mais contestada de LeCun decorre diretamente do bolo. Se a inteligência real é majoritariamente aprendizado autossupervisionado da estrutura do mundo, então um sistema treinado puramente para prever o próximo token escrito por um humano está aprendendo um modelo de palavras, não um modelo de mundo – e herdará os limites desse substrato. Ele disse isso sem rodeios: os LLMs autorregressivos são “uma saída da estrada” no caminho para uma IA de nível humano, úteis, mas não o caminho; “não vamos chegar a uma IA de nível humano apenas escalando os LLMs”.⁹¹⁰

A alternativa que ele propõe é a arquitetura preditiva de incorporação conjunta (JEPA), apresentada em seu artigo de posição de 2022 “A Path Towards Autonomous Machine Intelligence”.⁶ O movimento-chave é onde a previsão acontece. Um modelo generativo tenta reconstruir a entrada faltante pixel por pixel e, por isso, desperdiça capacidade modelando detalhes imprevisíveis – razão pela qual os modelos generativos notoriamente têm dificuldade com coisas como o número exato de dedos numa mão.⁸ Uma JEPA prevê, em vez disso, num espaço de representação abstrato, livre para ignorar os detalhes que não são previsíveis e concentrar-se nas regularidades estruturais e de baixa entropia de uma cena.⁶⁸ O I-JEPA da Meta (2023) foi o primeiro modelo de imagem concreto construído sobre essa visão, e saiu aberto.⁸

O contraste com seu colega “padrinho” é o mais nítido de toda a série. Geoffrey Hinton compartilhou o mesmo Prêmio Turing e as mesmas décadas solitárias de convicção, e então, em 2023, virou-se para alertar que a tecnologia pode ser perigosa. LeCun é o otimista do trio – cético não quanto à segurança da IA, mas quanto ao teto da arquitetura atual – e em novembro de 2025 ele respaldou essa convicção com a própria carreira, deixando a Meta para fundar a Advanced Machine Intelligence (AMI) Labs em Paris, uma startup construída expressamente em torno de modelos do mundo, em vez de modelos de linguagem maiores.¹⁰ Dois padrinhos, um prêmio, mensagens opostas: Hinton diz para desacelerar porque pode funcionar bem demais; LeCun diz que essa estrada em particular não leva aonde todos pensam, e aponta para outra.

O método

O método é coerente desde os leitores de cheques até a startup de modelos do mundo: construir a arquitetura que a estrutura do problema exige, aprender o máximo possível sem rótulos e fazê-lo às claras.

Codifique a estrutura na arquitetura. A convolução funciona porque assa um fato verdadeiro sobre imagens – a invariância à translação – diretamente na fiação da rede, em vez de forçar o modelo a aprendê-lo do zero. A lição se generaliza: quando você sabe algo sobre o problema, construa isso na arquitetura em vez de torcer para que os dados ensinem.²³

Faça dos dados seu próprio professor. Os rótulos são escassos e caros; a observação crua é abundante. A postura autossupervisionada – mascarar parte da entrada, prevê-la a partir do resto – é como LeCun propõe aprender o grosso do que um sistema precisa saber. Recorra à supervisão humana por último, não primeiro.⁵

Preveja no espaço de representação, não no espaço de pixels. Não gaste capacidade modelando detalhes que você não consegue prever. A escolha de engenharia central da JEPA é prever representações abstratas e descartar deliberadamente o imprevisível – uma disciplina sobre o que vale a pena modelar afinal.⁶⁸

Publique. Artigos abertos, código aberto, modelos abertos. A convicção de LeCun é que a ciência se acumula às claras e estagna no sigilo, e ele dirigiu um dos maiores laboratórios da indústria segundo esse princípio por uma década.¹⁸¹⁰

Sustente a posição fora de moda quando as evidências a apoiam. Ele acreditou nas redes neurais durante os invernos, e agora sustenta que os LLMs são um desvio enquanto a indústria inteira despeja capital neles. A disposição de ser o cético barulhento no auge de um ciclo de empolgação é o mesmo músculo que o manteve na convolução quando ninguém se importava.⁹¹⁰

Cadeia de influência

Quem o moldou

Kunihiko Fukushima. O Neocognitron de Fukushima (1980) – uma rede visual em camadas, tolerante a deslocamentos e inspirada no córtex – foi o ancestral direto da rede convolucional. LeCun acrescentou o aprendizado de ponta a ponta por retropropagação, transformando uma arquitetura ajustada à mão em uma que aprende seus próprios filtros. (Influência direta)

David Hubel e Torsten Wiesel. A neurociência do córtex visual deles, premiada com o Nobel – células simples detectando características locais, células complexas agrupando ao longo da posição – é o projeto biológico que a convolução e o agrupamento formalizam. LeCun, como Hinton, raciocinou a partir de como os cérebros de fato enxergam. (Influência formativa)

A linhagem conexionista da retropropagação. LeCun desenvolveu uma forma inicial de retropropagação em sua tese de 1987, convergindo para o mesmo motor que o trabalho de Rumelhart-Hinton-Williams tornou famoso em 1986. Ele herdou e ampliou o programa conexionista quando ele estava profundamente fora de moda. (Influência direta)

Quem ele moldou

A visão computacional moderna. Todo sistema de visão convolucional – os que leem exames médicos, alimentam as pilhas de percepção para direção e movem as câmeras dos celulares – descende estruturalmente da LeNet. Ele não apenas contribuiu para o campo; forneceu sua arquitetura fundacional.

A virada autossupervisionada. A guinada de toda a indústria em direção ao aprendizado a partir de dados sem rótulos – pré-treinamento mascarado, métodos contrastivos, objetivos de incorporação conjunta – corre direto pela formulação do “bolo” de LeCun e por sua década insistindo que é aí que mora o grosso da inteligência.

Uma geração de pesquisadores do FAIR. Ao dirigir um dos maiores laboratórios industriais abertos, LeCun moldou como uma geração publica e compartilha o trabalho, e semeou boa parte do ecossistema de modelos abertos que hoje existe fora dos laboratórios de fronteira mais sigilosos.

O fio condutor

LeCun é a raiz de visão computacional do ramo de aprendizado profundo desta série, e a linha mais nítida corre adiante até Andrej Karpathy, cujo trabalho vive plenamente no campo da visão aprendida que a convolução abriu – e cuja reformulação “Software 2.0” (uma rede como um programa compilado a partir de dados) é a generalização natural do passo de LeCun, dos leitores de cheques projetados à mão para os aprendidos. O contraste mais nítido é com seu colaureado do Turing Geoffrey Hinton: os dois “padrinhos” compartilham o prêmio, as décadas solitárias e a aposta no aprendizado inspirado no cérebro, mas divergem quanto ao momento presente. Hinton, o preocupado, deixou o Google em 2023 para alertar que a coisa pode ser poderosa demais; LeCun, o otimista, deixou a Meta em 2025 para argumentar que a arquitetura dominante não é poderosa o bastante e para construir outra. Onde Hinton teme o resultado, LeCun contesta a rota. Duas rotas, uma montanha: Hinton confia que o perigo é real; LeCun confia que o mundo, aprendido abertamente, é o caminho. (Ponte da série)

O que eu levo disto

A lição que guardo de LeCun é que a arquitetura deve carregar a parte do problema que você de fato entende. A convolução funciona porque constrói a invariância à translação dentro da rede em vez de torcer para que um bilhão de exemplos a ensinem – e esse é exatamente o movimento ao qual recorro quando projeto sistemas: quando sei que algo é verdadeiro sobre o domínio, eu o codifico na estrutura em vez de deixá-lo ao acaso. É o mesmo instinto de tratar o bom gosto como um sistema técnico que você pode defender, e não uma vibe que você espera que emerja – coloque a restrição conhecida no projeto, onde ela pode ser verificada, e não na prece de que a saída se comporte.

A lição mais difícil é o ceticismo quanto aos LLMs. LeCun está no auge absoluto de um ciclo de empolgação – a indústria inteira, o capital, a atenção todos apontados para escalar os modelos de linguagem – e diz, oficialmente, que isso é uma saída da estrada. Ele pode estar errado; o ponto é que ele se dispõe a ser a voz dissidente quando dissentir custa caro, ancorado num argumento técnico específico sobre previsão no espaço de representação, e não num instinto contestador. Isso é a barreira da evidência apontada para o próprio consenso: não “todos estão empolgados, então deve ser o caminho”, mas “o que esta arquitetura está de fato aprendendo, e é isso o que queremos?”. E a abertura é a parte que levo de forma mais direta – a convicção de que você descobre quem está certo publicando o trabalho e deixando que ele seja testado, razão pela qual trato a qualidade como a única variável e o teste de Steve – o de saber se o trabalho merece existir – como algo que você submete ao escrutínio, e não algo que você afirma. LeCun apostou toda a sua carreira, duas vezes, em aprender o mundo em vez de memorizar seus rótulos – e em fazê-lo onde todos possam ver.

Perguntas frequentes

Qual é a filosofia de engenharia de Yann LeCun?

Aprender o mundo, abertamente. LeCun argumenta que a inteligência é majoritariamente autossupervisionada – uma máquina que aprende a estrutura do mundo prevendo o que observa, com os rótulos humanos e os sinais de recompensa como camadas finas por cima, capturado em sua analogia do “bolo”, em que o aprendizado autossupervisionado é o grosso, o aprendizado supervisionado a cobertura e o aprendizado por reforço a cereja.⁵ Ele combina isso com um compromisso com a pesquisa aberta: publicar artigos, código e modelos para que a ciência possa ser reproduzida e testada.¹⁸ Sua assinatura de engenharia é codificar a estrutura conhecida diretamente na arquitetura – como a convolução assa a invariância à translação numa rede de visão.²³

O que Yann LeCun inventou e como isso foi usado comercialmente?

Ele é o principal inventor da rede neural convolucional moderna. No Bell Labs em 1989, ele esteve entre os primeiros a aplicar a retropropagação a uma tarefa prática – reconhecer códigos postais manuscritos – produzindo o protótipo LeNet, e o artigo de 1998 “Gradient-Based Learning Applied to Document Recognition” (com Bottou, Bengio e Haffner) descreveu a LeNet-5.²³ Comercialmente, a NCR implantou leitores de cheques baseados na LeNet a partir de 1996, e em 2001 estimava-se que o sistema lia cerca de 20 milhões de cheques por dia – aproximadamente 10% de todos os cheques nos Estados Unidos.²

Por que Yann LeCun é cético quanto aos grandes modelos de linguagem?

Porque, na visão dele, os LLMs autorregressivos aprendem um modelo de texto em vez de um modelo de mundo, e por isso não conseguem alcançar a inteligência de nível humano apenas escalando – ele os chama de “uma saída da estrada” no caminho para uma IA de nível humano.⁹¹⁰ A alternativa que ele propõe é a arquitetura preditiva de incorporação conjunta (JEPA), de seu artigo de 2022 “A Path Towards Autonomous Machine Intelligence”, que prevê num espaço de representação abstrato e ignora o detalhe imprevisível, em vez de gerar cada pixel ou token.⁶⁸ Em novembro de 2025 ele deixou a Meta para fundar a AMI Labs em Paris e perseguir diretamente os modelos do mundo.¹⁰

Yann LeCun ganhou o Prêmio Turing?

Sim. Ele compartilhou o Prêmio Turing ACM A.M. de 2018 com Geoffrey Hinton e Yoshua Bengio – os três “padrinhos do aprendizado profundo” – “por avanços conceituais e de engenharia que tornaram as redes neurais profundas um componente crítico da computação”.⁴ As contribuições reconhecidas de LeCun centram-se nas redes convolucionais e em seu trabalho mais amplo que tornou o aprendizado profundo prático. Ele diverge publicamente de Hinton quanto ao presente: onde Hinton (que deixou o Google em 2023) alerta para os perigos da IA, LeCun é o otimista que argumenta que a arquitetura LLM dominante de hoje não é a rota para a inteligência de nível humano.¹⁰

Fontes

“Yann LeCun,” Wikipedia. Yann André Le Cun, nascido em 8 de julho de 1960, em Soisy-sous-Montmorency, França; doutorado pela Universidade Pierre e Marie Curie (hoje Universidade Sorbonne), 1987; ingressou nos AT&T Bell Laboratories em 1988; professor na Universidade de Nova York a partir de 2003; ingressou no Facebook em dezembro de 2013 como diretor fundador da Facebook AI Research (FAIR) e cientista-chefe de IA; Prêmio Turing ACM de 2018 compartilhado com Geoffrey Hinton e Yoshua Bengio. ↩↩↩↩↩↩↩↩
“LeNet,” Wikipedia. A LeNet é uma série de arquiteturas de redes neurais convolucionais desenvolvidas nos AT&T Bell Laboratories (c. 1988-1998) em torno de Yann LeCun; em 1989, LeCun et al. foram os primeiros a aplicar a retropropagação a uma tarefa prática, o reconhecimento de códigos postais manuscritos do serviço postal dos Estados Unidos (o protótipo LeNet-1). A NCR implantou leitores de cheques bancários baseados na LeNet a partir de junho de 1996; em 2001 estimava-se que o sistema lia cerca de 20 milhões de cheques por dia, ou 10% de todos os cheques nos EUA. ↩↩↩↩↩↩
Yann LeCun, Léon Bottou, Yoshua Bengio e Patrick Haffner, “Gradient-Based Learning Applied to Document Recognition,” Proceedings of the IEEE 86, n.º 11 (1998): 2278-2324, doi:10.1109/5.726791. O artigo que descreve a LeNet-5 e argumenta que o aprendizado baseado em gradiente pode substituir os extratores de características projetados à mão no reconhecimento de documentos. Citação e relevância também documentadas em “LeNet,” Wikipedia. ↩↩↩↩
Menção do Prêmio Turing ACM A.M. de 2018 para Yoshua Bengio, Geoffrey Hinton e Yann LeCun: “por avanços conceituais e de engenharia que tornaram as redes neurais profundas um componente crítico da computação”. A página oficial da ACM (awards.acm.org) bloqueia solicitações automatizadas; o texto da menção está documentado palavra por palavra em “Turing Award,” Wikipedia, e “Yann LeCun,” Wikipedia. ↩
Sobre a analogia do “bolo” e a revisão de não supervisionado para autossupervisionado: “Yann LeCun Cake Analogy 2.0,” Synced, 22 de fevereiro de 2019. O bolo apareceu pela primeira vez na palestra “Future of AI Symposium” de LeCun na NYU no início de 2016 e em sua palestra principal na NIPS 2016, originalmente como “o grosso do bolo é o aprendizado não supervisionado, a cobertura do bolo é o aprendizado supervisionado e a cereja do bolo é o aprendizado por reforço”; LeCun revisou “não supervisionado” para “autossupervisionado” até a conferência ISSCC de 2019. Sobre o aprendizado autossupervisionado como a “matéria escura da inteligência”, veja também a discussão de LeCun em “Self-supervised learning: The plan to make deep learning data-efficient,” TechTalks, 23 de março de 2020. ↩↩↩↩↩↩↩
Yann LeCun, “A Path Towards Autonomous Machine Intelligence,” OpenReview, versão 0.9.2 (27 de junho de 2022). Artigo de posição que propõe um modelo preditivo do mundo configurável, comportamento guiado por motivação intrínseca e arquiteturas preditivas de incorporação conjunta (JEPA) hierárquicas treinadas com aprendizado autossupervisionado, prevendo no espaço de representação em vez de reconstruir as entradas. ↩↩↩↩
Sobre a convolução e suas raízes biológicas/arquiteturais (o Neocognitron de Fukushima; a neurociência do córtex visual de Hubel e Wiesel) e o agrupamento: “Convolutional neural network,” Wikipedia, e “LeNet,” Wikipedia. LeCun acrescentou o aprendizado de ponta a ponta por retropropagação a uma arquitetura no estilo Neocognitron, de modo que a rede aprende seus próprios filtros em vez de tê-los projetados à mão. ↩
“I-JEPA: The first AI model based on Yann LeCun’s vision for more human-like AI,” Meta AI, 13 de junho de 2023. O I-JEPA aprende prevendo representações abstratas de regiões de imagem não vistas em vez de reconstruir pixels; a Meta liberou o código de treinamento e os pontos de verificação do modelo com o anúncio. A publicação contrasta os métodos generativos, que “tentam preencher cada fragmento de informação faltante, ainda que o mundo seja inerentemente imprevisível”, com a previsão da JEPA “em um alto nível de abstração em vez de prever diretamente os valores dos pixels”. ↩↩↩↩↩↩↩↩
Yann LeCun, “LLMs are useful, but they are an off ramp on the road to human-level AI,” publicação no X, 1.º de junho de 2024: “Os LLMs são úteis, mas são uma saída da estrada no caminho para uma IA de nível humano. Se você é estudante de doutorado, não trabalhe em LLMs. Tente descobrir métodos que removam as limitações dos LLMs.” (O X exige autenticação para recuperação automatizada; a citação é amplamente reproduzida, inclusive na cobertura da saída de LeCun da Meta em 2025 citada abaixo.) ↩↩↩
Jeremy Kahn / Beatrice Nolan, “Yann LeCun is targeting a \$3.5 billion valuation for his new startup,” Fortune, 19 de dezembro de 2025. LeCun deixou a Meta em 18 de novembro de 2025, após 12 anos (cinco como diretor fundador do FAIR, sete como cientista-chefe de IA) para fundar a Advanced Machine Intelligence (AMI) Labs, com sede em Paris, voltada para “modelos do mundo” – sistemas que entendem física, mantêm memória persistente e planejam ações complexas. LeCun: “Não vamos chegar a uma IA de nível humano apenas escalando os LLMs”, que “simplesmente preveem texto em vez de realmente entender o mundo”. A saída e a startup também foram noticiadas por “Meta chief AI scientist Yann LeCun is leaving the company to create his own startup,” CNBC, 19 de novembro de 2025. ↩↩↩↩↩↩↩↩↩↩↩