Dwarkesh Podcast

Hoe LLM-inference écht werkt: waarom snelle modus duurder is en context-windows vastlopen

Reiner Pope (ex-Google TPU, nu Matrix) legt op een Blackboard uit waarom AI is zoals het is

Open in Readwise →

Yo Onno — deze is geen typische podcast maar een soort whiteboard-college. Dwarkesh laat Reiner Pope (oud Google TPU-architect, nu CEO van chip-startup Matrix) twee uur lang met krijt op een bord uitleggen hoe LLM-training en -inference écht werken op een rack vol GPU's. Klinkt droog, maar het verklaart letterlijk waarom Claude Fast Mode 6x duurder is, waarom context-windows niet boven 1M tokens komen, en waarom GPT-5 nu pas groter wordt dan GPT-4. Geen vibe-coding project hier, maar wel keiharde mental models die je helpen begrijpen waarom de AI-wereld zich gedraagt zoals 'ie doet.

Hoofdonderwerpen

  • Roofline analyse (een denkkader waarbij je inference-tijd schat als het maximum van compute-tijd en memory-fetch-tijd — meer hoef je vaak niet om verrassend accuraat te voorspellen wat een model gaat kosten en hoe snel het is)
  • Batch size economics: waarom 1 user bedienen 1000x duurder is dan 2000 users tegelijk, en waarom dat de hele API-prijsstructuur verklaart
  • Mixture of Experts (MoE) layout op GPU racks (een MoE-model heeft veel 'experts' — gespecialiseerde sub-netwerken — waarvan er per token maar een paar 'aan' staan; dat is hoe DeepSeek 700B parameters totaal heeft maar er maar 37B per token gebruikt)
  • Pipeline parallelism (model in stukken hakken zodat verschillende racks elk een paar layers draaien) en waarom dat tijdens training cruciaal is maar bij inference nauwelijks helpt
  • Reverse-engineering van API-prijzen: wat Gemini's 200k-token prijssprong ons vertelt over hun KV-cache architectuur, en wat de input/output prijsverhouding ons leert over memory bandwidth

Key insights

De 300x sparsity regel. Reiner laat zien dat de optimale batch size (waarbij je memory en compute in balans zijn) ongeveer 300 × sparsity-ratio is. Voor DeepSeek met 32 van 256 experts actief komt dat uit op ~2400 sequences die je tegelijk moet bedienen. Dit is een hardware-constante (FLOPS gedeeld door memory bandwidth, dimensieloos rond de 300) die over GPU-generaties heen verrassend stabiel blijft.

Het 'train vertrekt elke 20ms' model. De GPU werkt in vaste batches: elke ~20ms vertrekt er een 'trein' met alle requests die op dat moment klaar zijn. Te laat = wachten op de volgende. Dit verklaart waarom Fast Mode bestaat: je betaalt voor een lege trein zodat jij sneller bent, niet omdat de hardware sneller kán.

Waarom modellen pas nu groter worden dan GPT-4. GPT-4 was rond 1T parameters in 2023. Pas met Blackwell racks (vorig jaar) kwam er genoeg memory binnen één 'scale-up domain' (een groep GPU's die snel met elkaar kunnen praten — typisch één rack van 72 GPU's) om grotere modellen efficiënt te draaien. Hopper had 8 GPU's per scale-up = 640GB. Blackwell heeft 72 GPU's = 10-20TB. Dáár zat de bottleneck, niet in 'kunnen we het trainen'.

De memory wall is écht. Hyperscalers spenderen volgens Dylan Patel ~50% van hun CapEx aan memory. Toch leveren GPU's méér memory dan strikt nodig — omdat memory bandwidth (hoe snel je erbij kan) net zo belangrijk is als capaciteit (hoeveel erin past). Memory bandwidth schaalt langzaam: 1.5-2x per GPU-generatie, terwijl scale-up-grootte 8x groeide. Dáár komt de Gemini-voorsprong vandaan.

Compute parity tussen pretrain, RL en inference. Heuristiek van Reiner: optimaal model-design verdeelt compute ongeveer 33/33/33 tussen pretraining, RL, en inference-tijd voor users. Conclusie: de hoeveelheid tokens die alle users samen door GPT-5 streamen tijdens z'n leven ≈ de hoeveelheid pretraining-tokens ≈ alle menselijke kennis. Krankzinnig om over na te denken.

Waarom context-windows vastzitten op ~200k. GPT-3 sprong van 8k naar 100k. Sindsdien stilstand. De memory bandwidth om de KV-cache (de opgeslagen 'aandacht-state' van eerdere tokens) elke decode-stap te lezen, schaalt lineair met context-lengte en dat is keihard de bottleneck. Sparse attention (zoals DeepSeek's DSA — Dynamic Sparse Attention, die alleen relevante stukken context bekijkt) geeft een vierkantswortel-besparing maar geen oneindige.

Differential cryptanalysis vs. neural networks. Mooie tangent: cryptografische ciphers en neural nets gebruiken vergelijkbare 'mixing' mechanismen, maar voor tegengestelde doelen. RevNets (reversible networks) is een neural net architectuur die geleend is van Feistel ciphers — laat je tijdens training de forward pass terug-rekenen ipv opslaan, dus minder memory in ruil voor meer compute.

Takeaways

Voor jou als ondernemer met AI-toepassingen:

  • Snap wat je betaalt. Cached input is 10x goedkoper dan fresh input is logisch geworden: bij cached zit de KV-cache nog in HBM (high-bandwidth memory, het snelle geheugen direct op de GPU) en hoeft alleen geladen, niet herberekend. Als je veel met dezelfde context werkt (system prompts, knowledge bases), is prompt caching geen marketing-trucje maar fundamentele economie.

  • Output is duurder dan input om een diepe reden. Niet omdat 'genereren moeilijker is', maar omdat decode (token-voor-token genereren) memory-bandwidth-bound is en prefill (de prompt verwerken) compute-bound. Anthropic en OpenAI rekenen ~5x meer voor output, en dat is precies de ratio die de roofline-analyse voorspelt.

  • Verwacht geen 1M+ context windows die werkbaar zijn. De memory wall lost zichzelf niet snel op. Als je workflows bouwt die afhankelijk zijn van 'gooi alles in de context', bouw je op zand. Beter: RAG (Retrieval-Augmented Generation — je zoekt eerst de relevante stukken op en stopt alleen die in de prompt) of agentic patterns waarbij de AI zelf besluit welke info hij ophaalt.

  • Continual learning komt niet via context. Dario's stelling 'in-context learning is genoeg voor AGI' vereist 100M+ token contexts om met een AI te werken zoals met een collega die een maand inwerkt. Dat gaat niet gebeuren met huidige hardware. Dus: real fine-tuning of memory-systemen blijven relevant.

  • Sparsity is de toekomst, met grenzen. Modellen worden steeds sparser (meer experts, minder actief per token). Maar elke verdubbeling van experts geeft maar marginale kwaliteitswinst. De industrie zit op een sweet spot ergens rond DeepSeek's 32-van-256 ratio.

  • Overtraining is extreem. Reiner schat dat frontier modellen ~100x meer pretraining-tokens krijgen dan Chinchilla-optimaal zou voorschrijven. Reden: ze worden door miljoenen users gebruikt, dus inference-efficiency telt zwaarder dan training-efficiency. Implicatie voor jou: kleinere, getrainde-met-veel-data modellen zijn steeds bruikbaarder, ook voor on-prem of lokale toepassingen (zoals Gemma 3 op je laptop).

  • De 'AI economy' is fundamenteel een hardware-economie. Als je strategische keuzes maakt over welke models je gebruikt, welke je vertrouwt voor de lange termijn, helpt het enorm om te snappen dat het allemaal terugkomt op rack-design, cable-density en HBM-bandwidth. De software volgt de hardware, niet andersom.