Engineering Philosophy: Jim Keller, Transistoren sind kostenlos

Jim Keller, CPU-Architekt

Die wichtigsten Erkenntnisse

Transistoren sind billig; Engpässe sind teuer. Kellers charakteristischer Zug, über dreißig Jahre und ein Dutzend Chips hinweg wiederholt, besteht darin, Silizium einzusetzen, um das zu beseitigen, was dem Durchsatz im Weg steht – breitere Pipelines, mehr Ausführungseinheiten, schnellere Verbindungen –, denn ein Transistor, den Sie nicht genutzt haben, ist ein verschwendeter Transistor. Die Wette geht auf, wenn die zusätzliche Hardware die ausgelasteten Einheiten am Laufen hält, statt sie brachliegen zu lassen.¹⁷
Er hat die Chips hinter der Hälfte des Computings entworfen, das Sie täglich anfassen. DECs Alpha, AMDs Athlon (K7) und K8 – wo er den Befehlssatz x86-64 (AMD64) und HyperTransport mitverfasste –, dann die Apple A4 und A5 hinter dem iPhone 4 und dem ersten iPad, dann AMDs Zen-Comeback, dann Teslas Computer für autonomes Fahren, dann eine Phase als SVP bei Intel. Nur wenige Ingenieure haben so viele Produktlinien geprägt.¹²³
Das Mooresche Gesetz ist nicht tot – die Leute haben nur aufgehört, die Innovationen darunter zu zählen. Kellers öffentlich vertretene Position, in Vorträgen und für das Protokoll verfochten, lautet, dass die Transistorskalierung noch ein bis zwei Jahrzehnte vor sich hat, weil Dichte aus tausenden gestapelten Innovationen entsteht, nicht aus einem einzigen Trick. Die Finne eines modernen Transistors ist immer noch über hundert Atome breit; es ist noch ein weiter Weg nach unten.⁴⁷
Vom Elektrotechnik-Abschluss in Penn State zum RISC-V-Verfechter. Geboren um 1958, Elektrotechnik an der Pennsylvania State University, dann eine Laufbahn, die über DEC -> AMD -> Broadcom -> P.A. Semi -> Apple -> AMD -> Tesla -> Intel führte und ihn heute zum CEO von Tenstorrent macht, wo er offene KI-Beschleuniger auf dem offenen Befehlssatz RISC-V baut.¹⁵⁶

Das Prinzip

„Während die Welt denkt, das Mooresche Gesetz sei tot, denken die Fabs und die Technologen, es sei es nicht, und inzwischen hat jeder eine 10-Jahres-Roadmap für das Mooresche Gesetz angekündigt.” – Jim Keller⁴

Die meisten Ingenieure behandeln Hardware als festes Budget. Man bekommt eine Transistorzahl, ein Leistungsbudget, einen Fertigungsknoten in die Hand und optimiert innerhalb dieser Grenzen – hier einen Taktzyklus einsparen, dort eine Stufe zusammenfalten, das Silizium rationieren. Keller arbeitet umgekehrt. Er behandelt Transistoren als die billige Ressource und den Engpass als die teure. Wenn eine einzelne Einheit den Rest der Maschine aushungert, lautet die Antwort selten, diese Einheit raffinierter zu machen; sie lautet, mehr Silizium einzusetzen – sie zu duplizieren, sie zu pipelinen, den Pfad zu ihr zu verbreitern –, damit der Engpass verschwindet und alles Nachgelagerte ausgelastet bleibt.⁷

Der Ausdruck, den die Branche damit verbindet, lautet „Transistoren sind kostenlos”. Das stimmt nicht wörtlich, und Keller weiß das – Silizium kostet Geld und Strom. Der Punkt ist vergleichender Natur. Ingenieurszeit ist knapp, Designrisiko ist gefährlich, und eine untätige Ausführungseinheit ist reine Verschwendung. Gegen all das ist der zusätzliche Transistor das, wovon Sie am meisten haben, und das Mooresche Gesetz beschert Ihnen alle paar Jahre noch mehr davon. Der disziplinierte Zug besteht also darin, die reichlich vorhandene Ressource einzusetzen, um die knappen zu schonen. Diese eine Umdeutung – welche Ressource eigentlich billig ist – erklärt, warum seine Chips tendenziell breit, aggressiv und durchsatzhungrig sind statt raffiniert und schmal.¹⁷

Sie erklärt auch, warum er so lautstark darauf besteht, dass das Mooresche Gesetz nicht tot ist. Würden Transistoren bald aufhören, billiger zu werden, bräche die ganze Strategie zusammen. Also leistet Keller die unglamouröse Arbeit, mit Zahlen zu argumentieren, dass noch ein bis zwei Jahrzehnte Skalierung vor uns liegen – dass das „Mooresche Gesetz” nie eine einzige Innovation war, sondern eine Kaskade aus tausenden, jede mit ihrer eigenen Kurve abnehmender Erträge, die sich zu einer Exponentialfunktion summieren.⁷ Setzen Sie die billige Ressource ein, um den Engpass zu beseitigen, und beweisen Sie immer wieder, dass die billige Ressource noch immer billig ist. Alles andere ist Detail.

Kontext

James B. Keller wurde um 1958 geboren und erwarb einen B.S. in Elektrotechnik an der Pennsylvania State University, mit Abschluss 1980.¹ Was folgte, ist einer der unwahrscheinlichsten Lebensläufe der Branchengeschichte – nicht wegen eines einzelnen Chips, sondern wegen der schieren Zahl epochenprägender Chips, verteilt über Unternehmen, die üblicherweise Rivalen sind.

Er trat 1982 bei Digital Equipment Corporation ein und blieb bis 1998, arbeitete am VAX 8800 und dann an der Alpha-Linie – dem 21164 und dem Out-of-Order-21264 (EV6) –, den schnellsten Mikroprozessoren ihrer Zeit.¹ 1998 wechselte er zu AMD, wo er beim Start des Athlon (K7) mitwirkte und leitender Architekt der K8-Mikroarchitektur war. K8 war diejenige, die am meisten zählte: Keller verfasste den Befehlssatz x86-64 (AMD64) mit, der x86 auf 64 Bit erweiterte, sowie die HyperTransport-Verbindung, die mehrere Prozessoren zusammenband. AMD64 wurde zum 64-Bit-Standard, auf dem die gesamte PC- und Serverwelt läuft, Intel eingeschlossen.¹²

Dann begann das Wandern. SiByte 1999 (MIPS-Netzwerkchips), übernommen von Broadcom im Jahr 2000, wo er bis 2004 Chefarchitekt war; P.A. Semi ab 2004 als VP of Engineering, dort baute er stromsparende Mobilprozessoren. Apple übernahm P.A. Semi 2008, und Keller leitete das Design der A4- und A5-Systems-on-Chip – des Siliziums im iPhone 4, iPhone 4S, im ersten iPad und im iPad 2. Diese Chips legten den Keim für Apples hauseigenes Siliziumprogramm, die Linie, aus der schließlich Apple Silicon hervorging.¹³ Er kehrte 2012 zu AMD zurück, um Zen zu entwerfen, die Mikroarchitektur, die AMD aus der nahezu völligen Bedeutungslosigkeit zurück in echten Wettbewerb holte.¹ Dann Tesla ab 2016, als VP für Autopilot-Hardware, wo er und Pete Bannon den Full-Self-Driving-(FSD-)Computer leiteten; dann Intel von 2018 bis 2020 als Senior Vice President für Silicon Engineering.¹² Seit Ende 2020 ist er bei Tenstorrent – erst CTO, ab 2023 CEO – und baut KI-Beschleuniger auf RISC-V.⁵⁶

Der rote Faden ist nicht Loyalität gegenüber einem Unternehmen. Es ist Loyalität gegenüber einer Methode, die portabel genug ist, um der Reihe nach bei DEC, AMD, Apple, Tesla und Intel zu gewinnen.

Die Arbeit

Pipelining und „Transistoren sind kostenlos”

Beginnen wir mit der Idee, die allem anderen zugrunde liegt, denn hier wird Kellers Instinkt zur Rechenaufgabe. Ein Prozessor führt Befehle in Schritten aus – Befehl holen, dekodieren, Operanden lesen, die Arithmetik ausführen, das Ergebnis schreiben. Die naive Maschine lässt einen Befehl vollständig durch diese Schritte laufen, bevor sie den nächsten beginnt. Das Problem ist: Während die Recheneinheit arbeitet, liegt die Hol- und Dekodierhardware brach; während das Ergebnis geschrieben wird, tut fast alles andere nichts. Der Großteil Ihres teuren Siliziums liegt die meiste Zeit dunkel.

Interaktive CPU-Pipeline-Demo (erfordert JavaScript). Ein einfacher Prozessor führt einen Befehl bis zum Abschluss aus, bevor er den nächsten beginnt; ein Großteil seiner Hardware liegt in jedem Schritt brach. Setzen Sie mehr Transistoren ein, um die Arbeit in überlappende Pipeline-Stufen aufzuteilen, und alle Einheiten bleiben ausgelastet -- der Durchsatz steigt in Richtung eines fertiggestellten Befehls pro Taktzyklus, obwohl jeder Befehl noch immer dieselbe Anzahl Schritte braucht. Das ist die Wette „Transistoren sind kostenlos" im Herzen von Jim Kellers Architekturen: Silizium aufwenden, um den Engpass zu beseitigen.

Die Lösung ist Pipelining: die Arbeit in Stufen aufteilen und sie überlappen lassen, wie ein Fließband. Während Befehl eins in der Rechenstufe ist, wird Befehl zwei dekodiert und Befehl drei geholt. Jeder Befehl braucht noch immer dieselbe Anzahl Schritte, aber die Maschine stellt nun einen pro Taktzyklus fertig statt einen alle fünf, weil keine Stufe je untätig ist. Der Haken: Überlappende Arbeit kostet Hardware – Latches zwischen den Stufen, Logik zum Verfolgen von Abhängigkeiten, Maschinerie für die Fälle, in denen Befehl zwei ein Ergebnis braucht, das Befehl eins noch nicht erzeugt hat. Sie bezahlen mit Transistoren, um die Einheiten ausgelastet zu halten.¹

Kellers Chips treiben diese Wette hart voran. Superskalar zu werden – mehrere Ausführungseinheiten, sodass Sie mehr als einen Befehl pro Taktzyklus fertigstellen – und Out-of-Order zu arbeiten – Befehle umzuordnen, sodass ein blockierter die bereiten nicht aufhält –, beides kostet enorm viel Silizium für die Buchführung. Der Alpha 21264 war ein aggressives Out-of-Order-Design; AMDs K7 und K8 waren breite superskalare Maschinen; Zen verbreiterte den Pfad erneut.¹ In jedem Fall ist die Begründung dieselbe: Die Ausführungseinheiten sind der Sinn der Sache, untätige Einheiten sind Verschwendung, und die Transistoren, die nötig sind, um sie versorgt zu halten, sind das Billigste im ganzen Haus. Setzen Sie Silizium ein, um den Engpass zu beseitigen. Das ist das Prinzip, und die Pipeline ist seine einfachstmögliche Form.

Jim Keller spricht

AMDs Comeback und die AMD64-Linie

Die Arbeit, die die Branche am stärksten umgestaltete, war K8. In den frühen 2000er Jahren ging dem 32-Bit-Adressraum von x86 der Platz aus – 4 GB Speicher wurden zu einer realen Decke. Es gab zwei Wege nach vorn. Intels Wette, Itanium, bestand darin, x86 aufzugeben und eine saubere neue 64-Bit-Architektur zu bauen, womit man die Kompatibilität mit dem Berg an vorhandener Software brach. AMDs Wette, deren Architektur Keller leitete, war das Gegenteil: x86 auf 64 Bit zu erweitern und dabei die Fähigkeit zu erhalten, allen vorhandenen 32-Bit-Code mit voller Geschwindigkeit auszuführen. Das war x86-64, auch AMD64 genannt.¹²

Die pragmatische Wette gewann entscheidend. Software musste nicht neu geschrieben werden; der Umstiegspfad war schmerzlos; die Leistung bei Altcode litt nicht. AMD64 wurde zum Standard, und Intel übernahm schließlich AMDs Erweiterungen statt umgekehrt – die Architektur in praktisch jeder PC- und Server-CPU von heute ist die, die Kellers Team spezifizierte. Daneben gab HyperTransport AMDs Opteron-Servern eine schnelle Punkt-zu-Punkt-Möglichkeit, mehrere Prozessoren zu verdrahten, und griff damit genau den Speicher- und Verbindungsengpass an, auf den der Instinkt „Transistoren sind kostenlos” stets Jagd macht.¹² Als Keller 2012 zu AMD zurückkehrte, um Zen zu entwerfen, wiederholte er das Muster bei einem Unternehmen, das fast aus dem Hochleistungsrennen herausgefallen war: ein breiter, sauberer, modularer Kern, der den Abstand zu Intel schloss und AMD wieder eine glaubwürdige Produktlinie verschaffte.¹ Zweimal betrat er AMD und zweimal verließ er es mit der Architektur, die sein nächstes Jahrzehnt bestimmte.

Apple Silicon, von Grund auf neu

Das Kapitel mit dem längsten Schatten ist das leiseste. Als Apple 2008 P.A. Semi übernahm, leitete Keller das Team, das den A4 entwarf – Apples erstes hauseigenes System-on-Chip, ausgeliefert im iPhone 4 und im ersten iPad im Jahr 2010 – und seinen Nachfolger, den A5, im iPhone 4S und im iPad 2.¹³ Zuvor kaufte Apple seine Mobilprozessoren von der Stange. Der A4 war der Moment, in dem Apple beschloss, sein eigenes Silizium zu kontrollieren, und das Team und die Disziplin, die Keller mit aufbauen half, wurden zum Fundament des Programms, das heute die A-Serie- und M-Serie-Chips hervorbringt, die jedes iPhone, iPad und jeden Mac antreiben.

Die strategische Logik ist derselbe Durchsatz- und Kontrollinstinkt in einem neuen Feld. Die härteste Beschränkung eines Telefons ist Leistung pro Watt: Sie können sie nicht mit einem Desktop-Leistungsbudget erzwingen. Das Design von Anfang bis Ende selbst zu besitzen – statt das Allzweckteil eines Zulieferers hinzunehmen – erlaubt es Ihnen, Ihre Transistoren genau dort einzusetzen, wo die Arbeitslast sie braucht, und nirgendwo sonst. Das ist das Prinzip „Transistoren sind kostenlos”, umgekehrt für eine Batterie: nicht „fügen Sie frei Silizium hinzu”, sondern „platzieren Sie jeden Transistor bewusst, weil Ihnen das ganze Design gehört”. Die Linie vom A4 bis zum heutigen Apple Silicon, und bis zu der hardwarebewussten Performance-Arbeit, die John Carmack berühmt machte, verläuft schnurgerade durch jene Entscheidung von 2008.³

Jim Keller

Erste Prinzipien und Tenstorrents offene Hardware

Die Methode, die die Unternehmen miteinander verbindet, ist das Denken von ersten Prinzipien aus – die Bereitschaft, ererbte Annahmen über Bord zu werfen und zu fragen, was das Problem tatsächlich verlangt. Keller sagt unumwunden, dass Architekturen verrotten: Ungefähr alle fünf Jahre, so argumentiert er, sollte man ein Design von Grund auf neu machen, statt das alte zu flicken, denn die Neufassung fällt am Ende sowohl schneller als auch weniger kompliziert aus als die angehäufte Version, die sie ersetzt.⁷ Die Disziplin besteht darin, immer wieder zu fragen, was man eigentlich erreichen will, befreit von den Beschränkungen, die vor zwei Fertigungsknoten galten und heute nicht mehr gelten.⁷

Dieser Instinkt ist der Grund, warum er den Konsens „Das Mooresche Gesetz ist tot” zurückweist. Sein Argument ist mechanisch, nicht glaubensbasiert: Transistordichte ist die Summe aus tausenden unabhängigen Innovationen, jede auf ihrer eigenen Kurve abnehmender Erträge, und die Summe ist immer noch exponentiell. Die Finne eines FinFET ist heute über hundert Atome breit; man könnte sich einen Transistor von zehn Atomen Kantenlänge vorstellen, „eine Million Mal kleiner”, bevor man auf den Boden stößt. „Uns gehen also die Atome nicht aus”, wie er es formuliert.⁴⁷ Die Pessimisten, in seiner Darstellung, zählen eine Innovation und übersehen die Kaskade.

Bei Tenstorrent, wo er CEO ist, ist die Wette auf erste Prinzipien institutionell. Das Unternehmen baut KI-Beschleuniger für Training und Inferenz auf RISC-V – dem offenen Befehlssatz, frei von Lizenzgebühren und proprietärer Kontrolle – und beabsichtigt, seinen Software-Stack als Open Source freizugeben und seine CPU- und KI-Kern-IP zu lizenzieren, nicht nur Chips zu verkaufen.⁵⁶ Kellers öffentliche Überzeugung lautet, dass „RISC-V in den nächsten 5 bis 10 Jahren alle Rechenzentren übernehmen wird.”⁵ Der Einsatz ist, dass offene Hardware, wie offene Software zuvor, aus ersten Prinzipien gewinnt: Senken Sie die Hürden, lassen Sie viele Parteien bauen, und das offene Ökosystem ist innovativer als das geschlossene. Es ist derselbe Mann, der x86 zum Standard machte und nun darauf wettet, dass der Standard einer sein sollte, der niemandem gehört.

Die Methode

Liest man quer durch Alpha, AMD64, Zen, den A4 und Tenstorrent, kehren dieselben Züge wieder. Kellers Methode ist weniger ein Slogan als ein Bündel stehender Verpflichtungen.

Setzen Sie die billige Ressource ein, um den Engpass zu beseitigen. Die prägende Gewohnheit besteht darin, zu erkennen, welche Ressource tatsächlich reichlich vorhanden ist – meist Transistoren –, und sie freigebig einzusetzen, um zu entfernen, was den Durchsatz aushungert. Breitere Pipelines, mehr Einheiten, schnellere Verbindungen. Die allgemeine Lektion lässt sich übertragen: Finden Sie die Ressource, von der Sie am meisten haben, und tauschen Sie sie gegen die ein, von der Sie am wenigsten haben, statt alle gleichmäßig zu rationieren. Es ist Qualität ist die einzige Variable auf Siliziumebene – Korrektheit und Durchsatz sind das Ziel, und das Transistorbudget ist nicht die Beschränkung, für die Sie es halten.⁷

Bauen Sie nach Plan von Grund auf neu. Ungefähr alle fünf Jahre das Design neu machen statt es zu flicken, denn ererbte Annahmen verkalken, und die Neufassung fällt einfacher aus. Der Mut, funktionierende, aber veraltete Arbeit zu verwerfen, ist selten und tragend – derselbe Instinkt, der es Linus Torvalds erlaubt, ein Subsystem zu verwerfen, das nicht mehr passt.⁷

Fragen Sie, was das Problem tatsächlich verlangt, nicht was das letzte Design voraussetzte. Denken von ersten Prinzipien aus bedeutet, die Beschränkungen abzustreifen, die vor zwei Knoten galten und heute nicht mehr gelten. Die Disziplin besteht darin, weiter zu fragen „Was wollen wir eigentlich erreichen?”, bis der ererbte Ballast abfällt – die Beweisschranke, gerichtet auf die eigenen Annahmen statt auf die Behauptung eines anderen.⁷

Platzieren Sie jeden Transistor bewusst, wenn das Budget knapp ist. Die Kehrseite von „Transistoren sind kostenlos” ist das Telefon: Wenn die Leistung, nicht die Fläche, die Mauer ist, besitzen Sie das ganze Design, sodass Sie Silizium genau dorthin setzen können, wo die Arbeitslast es braucht. Zu wissen, in welchem Regime man sich befindet – reichlich oder knapp –, und entsprechend zu entwerfen, ist die eigentliche Fertigkeit, keine pauschale Regel.³

Wetten Sie auf Offenheit als erstes Prinzip. RISC-V und ein offener Software-Stack sind die Wette, dass das Senken von Hürden mehr Menschen das Bauen ermöglicht und das offene Ökosystem innovativer ist als das geschlossene. Es ist die Logik des minimal würdigen Produkts, angewandt auf eine ganze Plattform – liefern Sie das offene Ding aus, auf dem andere aufbauen können, statt des geschlossenen, das nur Sie bauen können.⁵⁶

Einflusskette

Wer ihn prägte

DEC und die Alpha-Kultur. Keller lernte Hochleistungsdesign bei Digital, an der Alpha-Linie, in einer Organisation, die rohe Geschwindigkeit und aggressive Out-of-Order-Ausführung über fast alles andere stellte. Die Überzeugung, dass man Silizium einsetzt, um beim Durchsatz zu gewinnen, wurde dort geschmiedet, an den schnellsten Mikroprozessoren ihrer Zeit. (Prägender Einfluss)

Dirk Meyer und Pete Bannon. Kellers wichtigste Arbeit entstand in Partnerschaften – die Mitarchitektur von Alphas Out-of-Order-EV6 mit Dirk Meyer, dann die Leitung von Teslas FSD-Computer gemeinsam mit Pete Bannon, der einen parallelen Weg in Apples Siliziumprogramm einschlug. Die Zusammenarbeiten sind kein Beiwerk; die schwersten Chips sind Mannschaftssport, und Kellers wiederkehrende Mitarchitekten prägten die Arbeit ebenso, wie er die ihre prägte. (Direkter Einfluss)

Das Mooresche Gesetz selbst. Die gesamte Strategie „Transistoren sind kostenlos” hängt davon ab, dass Transistoren weiter billiger werden. Kellers Weltbild ist nachgelagert zu Gordon Moores Beobachtung – weshalb er es so erbittert verteidigt. Hört die Kaskade der Skalierungsinnovationen auf, muss sich die Methode ändern. (Prägender Einfluss)

Wen er prägte

Apple Silicon. Das Team und die Disziplin rund um A4 und A5, die Keller bei Apple nach der P.A.-Semi-Übernahme mit aufbauen half, wurden zum Fundament des Programms, das heute jeden A-Serie- und M-Serie-Chip hervorbringt. Das folgenreichste Verbrauchersilizium des letzten Jahrzehnts geht auf eine Entscheidung zurück, an der er maßgeblich beteiligt war.

AMDs zwei Comebacks. K8/AMD64 machte AMD zum Server-Anwärter und setzte den 64-Bit-Standard, auf dem die Welt läuft; Zen holte AMD ein Jahrzehnt später zurück ins Hochleistungsrennen. Beide Architekturen bestimmten AMDs Wettbewerbsposition noch jahrelang, nachdem er gegangen war.

Die RISC-V- und Open-Hardware-Bewegung. Als einer der glaubwürdigsten Architekten der Branche, der öffentlich und kommerziell auf offene Befehlssätze setzt, verleiht Keller dem Argument Gewicht, dass Hardware der Software in die Offenheit folgen kann. Tenstorrent ist der Beweis.

Der rote Faden

Keller ist der Punkt, an dem der durch diese Reihe laufende Faden über das Einsetzen der richtigen Ressource auf das Metall trifft. John Carmack quetschte unmögliche Leistung aus fester Verbraucherhardware, indem er die Maschine bis auf den Taktzyklus verstand; Keller arbeitet die Schicht darunter – er entwirft die Maschine, und seine Antwort auf einen Engpass besteht nicht nur darin, ihn zu umprogrammieren, sondern das Silizium hinzuzufügen, das ihn beseitigt. Bjarne Stroustrup baute C++ auf dem Prinzip der Null-Overhead-Abstraktion auf, dass man nicht für das bezahlen soll, was man nicht nutzt; Kellers „Transistoren sind kostenlos” ist das Hardware-Spiegelbild davon – ausgeben für das, was die Maschine ausgelastet hält, nichts verschwenden an das, was untätig liegt. Und wo Andrej Karpathy „Software 2.0” beschreibt – Programme, die aus Daten kompiliert statt von Hand geschrieben werden –, baut Keller das Silizium, das die neue Arbeitslast verlangt – KI-Beschleuniger auf offenem RISC-V, von ersten Prinzipien aus für ein Problem entworfen, für das die alte Allzweck-CPU nie geformt war. Carmack sagt: Beherrschen Sie die Hardware, die Ihnen gegeben ist; Stroustrup sagt: Bezahlen Sie nicht für das, was Sie nicht nutzen; Keller sagt: Wenn die Hardware der Engpass ist, bauen Sie eine bessere – und beweisen Sie immer wieder, dass es noch Atome zum Ausgeben gibt. (Reihenbrücke)

Was ich daraus mitnehme

Die Lektion, die ich von Keller behalte, lautet: Finden Sie heraus, welche Ressource tatsächlich billig ist, und geben Sie sie dann ohne Schuldgefühl aus. Es ist leicht, alles gleichmäßig zu rationieren – jede Beschränkung als bindend zu behandeln und zaghaft innerhalb aller zugleich zu optimieren. Kellers Gewohnheit ist es, zu bemerken, dass eine Ressource reichlich vorhanden ist und die anderen knapp sind, und entschlossen in die Richtung zu tauschen, die der Überfluss erlaubt. Transistoren sind billig; untätige Einheiten und Ingenieurszeit sind teuer; also setzen Sie Transistoren ein, um den Engpass zu beseitigen. In meiner eigenen Arbeit ist die reichlich vorhandene Ressource selten Silizium – oft ist es Rechenleistung oder die Tokens eines Modells oder die Fähigkeit, einen Entwurf billig neu zu erzeugen. Der Zug ist derselbe: Hören Sie auf, das zu rationieren, wovon Sie am meisten haben, und richten Sie es auf das, was Sie tatsächlich blockiert.

Die zweite Lektion ist die Bereitschaft, nach Plan von vorn zu beginnen. Kellers Behauptung, man solle alle paar Jahre von Grund auf neu entwerfen – weil die Neufassung einfacher ausfällt als das zusammengeflickte Original –, läuft jedem Instinkt zuwider, Arbeit zu schützen, die man bereits getan hat. Aber er hat recht, dass Annahmen verkalken, dass Beschränkungen, die einst galten, leise aufhören zu gelten, und dass das angehäufte Design die Last all dessen mit sich trägt. Die Disziplin besteht darin, periodisch zu fragen, was das Problem jetzt tatsächlich verlangt, mit frischen Augen, und den Nerv zu haben, die alte Antwort zu verwerfen, wenn sie nicht mehr passt. Das, was ich letztes Jahr gebaut habe, wurde für die Beschränkungen des letzten Jahres gebaut. Kellers Laufbahn ist ein langes Argument dafür, dass der mutige Zug – derjenige, der tatsächlich gewinnt – darin besteht, es von ersten Prinzipien aus erneut zu bauen.

FAQ

Was ist Jim Kellers Engineering-Philosophie?

Setzen Sie die billige Ressource ein, um den Engpass zu beseitigen. Keller behandelt Transistoren als reichlich vorhanden – „Transistoren sind kostenlos” – und Ingenieurszeit, Designrisiko und untätige Hardware als die teuren Dinge, sodass seine Chips Silizium freigebig auf breitere Pipelines, mehr Ausführungseinheiten und schnellere Verbindungen verwenden, um den Durchsatz hoch zu halten.¹⁷ Darunter liegt das Denken von ersten Prinzipien aus: ungefähr alle fünf Jahre von Grund auf neu entwerfen statt flicken, weil ererbte Annahmen verkalken und die Neufassung einfacher ausfällt.⁷

Welche Chips hat Jim Keller entworfen?

Eine bemerkenswerte Bandbreite über rivalisierende Unternehmen hinweg: DECs Alpha-Prozessoren (einschließlich des Out-of-Order-21264); AMDs Athlon (K7) und K8, wo er den Befehlssatz x86-64/AMD64 und die HyperTransport-Verbindung mitverfasste; die Apple-A4- und -A5-Systems-on-Chip hinter dem iPhone 4 und dem ersten iPad; AMDs Zen-Architektur bei seiner Rückkehr 2012; und Teslas Full-Self-Driving-Computer. Außerdem war er von 2018 bis 2020 Senior Vice President für Silicon bei Intel.¹²³

Warum sagt Jim Keller, das Mooresche Gesetz sei nicht tot?

Weil, in seiner Darstellung, Transistordichte nicht eine Innovation ist, sondern die Summe aus tausenden unabhängigen, jede auf ihrer eigenen Kurve abnehmender Erträge, die sich zu einer Exponentialfunktion summieren – und diese Summe hat noch ein bis zwei Jahrzehnte vor sich.⁷ Er weist darauf hin, dass die Fabs und Technologen 10-Jahres-Roadmaps veröffentlicht haben, dass die Finne eines modernen FinFET noch immer über hundert Atome breit ist und dass man sich einen Transistor von zehn Atomen Kantenlänge vorstellen könnte – eine Million Mal kleiner. „Uns gehen also die Atome nicht aus.”⁴⁷

Was ist Tenstorrent und was macht Jim Keller dort?

Tenstorrent ist ein KI-Chip-Unternehmen, in dem Keller seit 2023 CEO ist (zuvor CTO). Es baut KI-Beschleuniger für Training und Inferenz auf dem offenen Befehlssatz RISC-V, beabsichtigt, seinen Software-Stack als Open Source freizugeben, und lizenziert seine CPU- und KI-Kern-IP, zusätzlich zum Verkauf von Chips.⁵⁶ Kellers Wette ist, dass offene Hardware dem Weg offener Software zur Vorherrschaft folgen wird – er hat gesagt, er glaube, dass „RISC-V in den nächsten 5 bis 10 Jahren alle Rechenzentren übernehmen wird.”⁵

Quellen

“Jim Keller (engineer),” Wikipedia. Geboren um 1958; B.S. in Elektrotechnik an der Pennsylvania State University (1980). Laufbahn: DEC (1982-1998), Arbeit am VAX 8800 sowie am Alpha 21164 und dem Out-of-Order-21264; AMD (1998), Start des Athlon (K7) und leitender Architekt der K8-Mikroarchitektur, einschließlich der Mitverfassung des x86-64-Befehlssatzes und der HyperTransport-Verbindung; SiByte (1999) und Broadcom als Chefarchitekt nach dessen Übernahme im November 2000 (bis 2004); P.A. Semi ab 2004 als VP of Engineering; Apple ab 2008 nach dessen P.A.-Semi-Übernahme, Design der A4- und A5-SoCs für iPhone 4, 4S, iPad und iPad 2; erneut AMD (2012-2015), Leitung der Entwicklung der Zen- und K12-Mikroarchitekturen; Tesla (2016-2018) als VP für Autopilot-Hardware-Engineering; Intel (2018-2020) als Senior Vice President; und Tenstorrent ab Dezember 2020 (CTO, dann CEO ab Januar 2023). ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩
“Jim Keller (engineer),” Wikipedia, bestätigt durch “Who is Jim Keller and what’s he doing at Tenstorrent?,” Electronic Specifier. Keller war leitender Architekt von AMDs K8 und verfasste die 64-Bit-Erweiterung x86-64 (AMD64) von x86 sowie die für die Multiprozessor-Kommunikation genutzte HyperTransport-Verbindung mit; AMD64 wurde zum 64-Bit-Standard, der in der Folge in der gesamten PC- und Serverbranche übernommen wurde. Dasselbe Profil fasst seine Arbeit als Architekt hinter Apples A4/A5, AMD Zen, Teslas Chip für autonomes Fahren und Intels Siliziumstrategie zusammen. ↩↩↩↩↩↩
“Tesla Autopilot hardware,” Wikipedia, und “FSD Chip – Tesla,” WikiChip. Das Design von Teslas Full-Self-Driving-(FSD-)Computer, zuvor Autopilot Hardware 3.0, begann 2016 mit einem Team unter der Leitung von Jim Keller und Pete Bannon; der Chip ging Ende 2018 / Anfang 2019 in Produktion, gefertigt im 14-nm-Prozess von Samsung. Kellers Rolle beim Design von Apple A4/A5 nach der P.A.-Semi-Übernahme ist im in ¹ zitierten Jim-Keller-Wikipedia-Profil dokumentiert. ↩↩↩↩↩↩
“Moore’s Law is Not Dead,” EECS-Kolloquium an der UC Berkeley (Jim Keller, 18. September 2019), wiedergegeben in “Moore’s law is far from death, according to Intel’s Jim Keller,” TweakTown, und “I’m Not Dead Yet; Keller Channels Moore,” PC Perspective. Keller: „Während die Welt denkt, das Mooresche Gesetz sei tot, denken die Fabs und die Technologen, es sei es nicht, und inzwischen hat jeder eine 10-Jahres-Roadmap für das Mooresche Gesetz angekündigt.” Zur atomaren Skala merkt er an, dass die Finne eines FinFET noch immer über hundert Atome breit ist und dass man sich einen Transistor von rund zehn Atomen Kantenlänge vorstellen könnte – etwa eine Million Mal kleiner –, sodass „uns die Atome nicht ausgehen”. ↩↩↩↩
“Jim Keller on AI, RISC-V, Tenstorrent’s Move to Edge IP,” EE Times. Keller, CEO von Tenstorrent, über RISC-V: „Meine Überzeugung ist, dass RISC-V in den nächsten 5 bis 10 Jahren alle Rechenzentren übernehmen wird”, besonders für wissenschaftliches Rechnen und HPC; Tenstorrent baut KI-Beschleuniger für Training und Inferenz auf der offenen RISC-V-Architektur und ist ein entschiedener Befürworter quelloffener Hardware und Software, mit der Absicht, seinen eigenen KI-Software-Stack als Open Source freizugeben und seine CPU- und KI-Kern-IP zu lizenzieren. ↩↩↩↩↩↩↩
“About Tenstorrent,” Tenstorrent, und “Jim Keller (engineer),” Wikipedia. Tenstorrent baut KI-Beschleuniger und CPUs auf dem offenen Befehlssatz RISC-V, mit einem quelloffenen Software-Stack (einschließlich Metalium, TT-NN und zugehörigem Tooling) und einem IP-Lizenzmodell neben den eigenen Produkten; Keller kam im Dezember 2020 als CTO hinzu und wurde im Januar 2023 CEO. ↩↩↩↩↩
“Jim Keller: Moore’s Law, Microprocessors, Abstractions, and First Principles,” Lex Fridman Podcast #70 (Februar 2020), Transkript via Happy Scribe. Keller argumentiert, das Mooresche Gesetz werde von „buchstäblich tausenden Innovationen” getrieben, jede mit „ihrer eigenen Kurve abnehmender Erträge”, die sich zu einer Exponentialfunktion summieren; dass „die nächsten 10 oder 20 Jahre des Schrumpfens stattfinden werden”; dass ein moderner Transistor rund hundertundmehr Atome breit ist und in Richtung zehn-mal-zehn-mal-zehn Atome schrumpfen könnte; dass das Computing wohlverstandene Abstraktionsschichten „vom Atom bis zum Rechenzentrum” besitzt; und dass gute Architektur bedeutet, periodisch „von Grund auf” neu zu entwerfen statt zu flicken, weil die Neufassung sowohl schneller als auch weniger kompliziert ausfällt – die Gewohnheit, von ersten Prinzipien aus zu fragen, was man wirklich erreichen will, ohne ererbte Annahmen. ↩↩↩↩↩↩↩↩↩↩↩↩↩↩↩