Voor de meeste data-engineeringteams volgt de workflow voor het beheren van de betrouwbaarheid van pijpleidingen een frustrerend patroon: een taak mislukt, er wordt een waarschuwing geactiveerd en technici moeten de fout vervolgens handmatig traceren in gedistribueerde clusters om een probleem op te lossen dat al gevolgen heeft gehad voor het bedrijf.
Dit ‘reactieve’ model wordt steeds meer een knelpunt voor de volgende technologiegolf: Agentische AI. In tegenstelling tot traditionele analyses, die kleine vertragingen of kleine inconsistenties in de gegevens kunnen tolereren, hebben agentische AI-systemen hoogwaardige, realtime gegevens nodig om te kunnen functioneren. Als een pijplijn verouderde of beschadigde gegevens levert, toont de AI niet alleen een verkeerd diagram, maar neemt hij ook onjuiste autonome beslissingen.
Om deze kloof te overbruggen verschuift de in Chicago gevestigde startup Definity het paradigma door intelligentie rechtstreeks in de uitvoeringslaag van datapijplijnen in te bedden.
De architectuur van interventie: binnen versus buiten
Het fundamentele verschil tussen Definity en bestaande marktleiders ligt in waar de monitoring plaatsvindt.
Traditionele monitoringtools, zoals Datadog, Unravel Data of Acceldata, werken van buitenaf. Ze observeren statistieken en systeemtabellen nadat een taak is voltooid. Zoals Roy Daniel, CEO van Definity, uitlegt, is deze aanpak inherent laat: “Tegen de tijd dat je weet dat er iets is gebeurd, is het al gebeurd.” Tegen de tijd dat een externe tool een probleem signaleert, zijn de computerbronnen al verspild en zijn de slechte gegevens al stroomafwaarts gestroomd.
Definity hanteert een andere architecturale benadering:
- Inline-instrumentatie: In plaats van op afstand te kijken, installeert Definity een JVM-agent rechtstreeks in de Spark- of DBT-driver via een enkele regel code.
- Realtime context: Omdat de agent zich in de uitvoeringslaag bevindt, legt hij tijdens de taak live gegevens vast over geheugendruk, gegevensvertekening, shuffle-patronen en infrastructuurgebruik.
- Actieve interventie: In tegenstelling tot traditionele tools die alleen gegevens ‘lezen’, kunnen de agenten van Definity ‘handelen’. Ze kunnen de toewijzing van resources halverwege de uitvoering wijzigen, een taak stopzetten voordat deze fouten voortbrengt, of een pijplijn voorrang geven als ze ontdekken dat upstream-gegevens verouderd zijn.
Impact in de praktijk: efficiëntie boven elasticiteit
De waarde van deze aanpak is het meest zichtbaar in omgevingen waar de hulpbronnen eindig zijn. Voor bedrijven die een on-premise infrastructuur gebruiken, betekent het onvermogen om direct op te schalen in de cloud dat elke inefficiënte vraag zich direct vertaalt in verspilde hardwarekosten.
Nexxen, een advertentietechnologieplatform, dient als primaire casestudy voor deze transitie. Geconfronteerd met grootschalige Spark-workloads op locatie, kampte het technische team van Nexxen niet alleen met mislukkingen, maar ook met de stijgende kosten van inefficiëntie.
Na de implementatie van Definity waren de resultaten onmiddellijk zichtbaar:
– Optimalisatie: Het team identificeerde 33% van alle optimalisatiemogelijkheden binnen de eerste week.
– Efficiëntie: De inspanningen voor probleemoplossing en optimalisatie zijn met 70% verminderd.
– Capaciteit: Het platform ontgrendelde voldoende infrastructuurcapaciteit om groei van de werklast mogelijk te maken zonder de noodzaak van nieuwe hardware-investeringen.
De nieuwe inzet van data-engineering
De opkomst van Definity duidt op een bredere verschuiving in de sector: Datapijplijnoperaties worden een AI-infrastructuurprobleem.
Naarmate datapijplijnen verschuiven van het ondersteunen van eenvoudige dashboards naar het aandrijven van autonome AI-agents, is de foutmarge verdwenen. De overgang van het ‘observeren’ van een mislukking naar het ‘voorkomen’ ervan door middel van intelligentie tijdens de uitvoering is niet langer slechts een luxe voor optimalisatie – het wordt een vereiste voor de betrouwbaarheid van de hele AI-stack.
Conclusie
Door agenten rechtstreeks in de uitvoeringslaag in te bedden, verplaatst Definity gegevensoperaties van een reactief ‘fix-it-later’-model naar een proactief, realtime systeem. Deze verschuiving is van cruciaal belang nu bedrijven overstappen op agentische AI, waarbij data-integriteit de basis vormt voor autonome besluitvorming.
