Het meedogenloze streven naar snellere kunstmatige intelligentie gaat niet alleen over het inzetten van meer rekenkracht op het probleem. Het gaat over het doorbreken van knelpunten en het verschuiven van architecturen – net zoals het bouwen van een piramide: wat er van een afstandje glad uitziet, is in werkelijkheid een reeks grillige blokken. Decennia lang heeft de technologie-industrie de wet van Moore gevolgd, maar die groei is tot stilstand gekomen. Nu hangt de volgende golf van AI-vooruitgang af van latentie, en niet alleen van brute kracht.
Het plateau van Raw Compute
In de begindagen van de computer was sprake van een exponentiële winst in de transistordichtheid, wat de CPU-prestaties ten goede kwam. Maar dat vertraagde en de focus verschoof naar GPU’s, verdedigd door Nvidia’s Jensen Huang. Zelfs GPU-vermogen heeft echter zijn grenzen. De huidige generatieve AI-modellen lopen tegen een muur aan. De groei stopt niet; het is verandert. Zoals Dario Amodei van Anthropic het verwoordt: “Het exponentiële gaat door totdat het niet meer gebeurt.”
De sleutel is nu niet alleen meer rekenkracht, maar hoe rekenkracht wordt gebruikt. Nvidia erkent dit: hun recente Rubin-release benadrukt het belang van MoE-technieken (Mixture of Experts), waardoor goedkopere en efficiëntere modelafleiding mogelijk is.
De latentiecrisis en de oplossing van Groq
De grootste hindernis van vandaag is niet het trainen van enorme modellen, maar gevolgtrekking : de snelheid waarmee AI informatie kan verwerken en antwoorden kan geven. Gebruikers willen niet wachten tot AI ‘denkt’. Dit is waar Groq in beeld komt. Hun Language Processing Unit (LPU)-architectuur is ontworpen voor bliksemsnelle gevolgtrekking, waardoor de knelpunten in de geheugenbandbreedte worden weggenomen waar GPU’s last van hebben bij het uitvoeren van complexe redeneertaken.
Stel je een AI-agent voor die zijn eigen werk moet verifiëren door 10.000 interne ‘gedachte-tokens’ te genereren voordat hij reageert. Op een standaard GPU duurt dat 20 tot 40 seconden. Op Groq gebeurt dit in minder dan 2 seconden. Deze snelheid ontgrendelt real-time redeneermogelijkheden.
Nvidia’s volgende stap: overname of integratie?
Voor Nvidia gaat het verwerven of diepgaand integreren met Groq niet alleen over snellere chips. Het gaat over het oplossen van het probleem van ‘wachten tot de robot denkt’ en het creëren van een dominant software-ecosysteem. GPU’s zijn het universele hulpmiddel voor AI geweest, maar gevolgtrekking vereist een andere aanpak.
Nvidia beheert al het CUDA-ecosysteem, zijn grootste troef. Door dat rond de hardware van Groq te wikkelen, zouden ze concurrenten effectief buitensluiten en het enige echte end-to-end platform bieden voor training en het uitvoeren van AI. Gecombineerd met een open-sourcemodel van de volgende generatie (zoals DeepSeek 4) zou dit een aanbod creëren dat qua kosten, prestaties en snelheid kan wedijveren met de hedendaagse grensmodellen.
De trap van vooruitgang
De groei van AI verloopt niet vloeiend. Het is een reeks doorbraken die specifieke knelpunten overwinnen. Ten eerste hadden we snellere berekeningen (GPU’s) nodig. Vervolgens diepere training (transformatorarchitecturen). Nu hebben we een snellere redenering nodig (Groq’s LPU).
Jensen Huang heeft bewezen bereid te zijn zijn eigen productlijnen te ontwrichten om voorop te blijven lopen. Door Groq te omarmen zou Nvidia niet zomaar een chip kopen; zij zouden de toekomst van real-time intelligentie veiligstellen. De race gaat niet meer over brute kracht: het gaat over efficiëntie, architectuur en het vermogen om nu antwoorden te geven.
