Drie jaar lang waren AI-agenten een mop. Demo’s zagen er indrukwekkend uit. Resultaten in productie waren gênant. Bedrijven gaven miljoenen uit aan agenten die een taak van tien minuten niet betrouwbaar konden afronden zonder te hallucineren, de context kwijt te raken of stilletjes te falen.

Toen veranderde er iets. Niet geleidelijk. Abrupt.

In december 2025 rapporteerden meerdere onafhankelijke waarnemers hetzelfde: AI-agenten, met name programmeeragenten, hadden een betrouwbaarheidsdrempel overschreden. Ze konden complexe taken in het geheugen houden. Herstellen van fouten. Itereren op mislukkingen. Langere perioden autonoom werken zonder uit elkaar te vallen. Het woord dat steeds terugkwam was “coherentie”.

Bij OpenClaw.rocks draaien we persoonlijke AI-agenten voor duizenden gebruikers. We volgen deze sector al jaren nauwgezet. Wat volgt is onze analyse: wat er is gebeurd, waarom softwareontwikkeling het eerste domein was dat kantelde, en wat de ontwikkeling van agentische AI betekent voor elke professional.

Waarom AI-agenten betrouwbaar werden

December 2025 was geen enkele doorbraak. Twee ontwikkelingen kwamen samen.

Modellen overschreden een kwaliteitsdrempel. Claude Opus 4.5, GPT-5.2 en Gemini 3 Pro verschenen binnen enkele weken na elkaar. Elk bracht een sprongsgewijze verbetering in coherentie over lange contexten: het vermogen om een complexe taak over duizenden tokens te volgen, na te denken over randgevallen en uit doodlopende wegen te komen zonder de rode draad te verliezen. Eerdere modellen konden codefragmenten genereren. Deze modellen konden een heel project in hun hoofd houden, vastlopen, een oplossing onderzoeken, teruggaan en een andere aanpak proberen. Dat is het verschil tussen autocomplete en een agent.

Tools leerden de computer te bedienen. Claude Code, Cursor en OpenAI Codex stellen niet alleen code voor. Ze lezen uw bestanden, voeren uw tests uit, draaien shell-commando’s, interpreteren foutmeldingen en bewerken uw codebase rechtstreeks. Ze bedienen uw ontwikkelomgeving zoals een ontwikkelaar dat zou doen, behalve dat ze niet moe worden en de context niet kwijtraken tijdens een debugsessie van 30 minuten.

De combinatie van slimmere modellen en tools die kunnen handelen in de echte wereld heeft de drempel overschreden. 84% van de ontwikkelaars gebruikt inmiddels AI-tools, waarvan 51% ze dagelijks inzet. De markt weerspiegelt dat: Claude Code bereikte binnen zes maanden na de lancering $1 miljard aan geannualiseerde omzet en verdubbelde naar $2,5 miljard in februari 2026. De $4 miljard coding-AI-markt heeft nu drie spelers boven $1 miljard ARR (GitHub Copilot, Claude Code, Cursor), goed voor 70%+ gecombineerd marktaandeel.

AI-agent-benchmarks: een nieuwe Wet van Moore

De verschuiving is niet alleen anekdotisch. Onderzoekers bij METR hebben de toonaangevende AI-agent-benchmark opgezet en testen agenten sinds 2019 op circa 230 praktijktaken. Hun bevinding: de lengte van taken die agenten betrouwbaar kunnen voltooien, verdubbelt elke zeven maanden. In de meest recente data van 2024 tot 2025 versnelde dat tempo naar een verdubbeling elke vier maanden.

De correlatie tussen taaklengte en slagingspercentage van agenten is opmerkelijk helder (R² = 0,83), en de trend vertoont geen tekenen van afvlakking:

Chart showing AI agent task duration growing exponentially from 30-second tasks in 2022 to 14.5 hours with Claude Opus 4.6 in February 2026, with projections reaching 1 work week by 2028 and 1 work month by 2029

Van 30-secondentaken in 2022 naar 14,5 uur met Claude Opus 4.6 in februari 2026. De oorspronkelijke METR-trendlijn voorspelde dat agenten tegen 2027 een 8-urige werkdag aankonden. Die mijlpaal werd een jaar eerder bereikt.

Anthropics productiedata laat dezelfde versnelling zien vanuit een ander perspectief. Onder de langstlopende Claude Code-sessies is de turnduur op het 99,9e percentiel bijna verdubbeld tussen oktober 2025 en januari 2026: van minder dan 25 minuten naar meer dan 45 minuten ononderbroken autonoom werk. De groei verloopt geleidelijk over modelreleases heen, geen plotselinge sprong.

Als het huidige verdubbelingstempo aanhoudt, voorspelt METR dat agenten tegen 2028 een 40-urige werkweek en tegen 2029 een werkmaand aankunnen. Dit zijn geen vrijblijvende voorspellingen. Ze steunen op een trend met zes jaar data, en het meest recente datapunt overtrof de projectie al.

Waarom AI-programmeeragenten als eerste werkten

Er is een reden waarom AI-programmeeragenten eerder werken dan andere agenten. Software heeft structurele eigenschappen die het uniek geschikt maken voor autonome AI-systemen.

Resultaten zijn verifieerbaar. Code compileert of niet. Tests slagen of falen. Types kloppen of geven fouten. Dit geeft agenten een strakke feedbackloop voor zelfcorrectie. Geen ander professioneel domein heeft zulke heldere, geautomatiseerde validatie van outputkwaliteit.

Specificaties vertalen naar prompts. Softwareontwikkeling had al de praktijk van het schrijven van eisen, acceptatiecriteria en testgevallen. Die vertalen direct naar agentinstructies. Een specificatie is in wezen een gestructureerde prompt.

Infrastructuur voor validatie bestaat al. Git, CI/CD-pipelines, linters, type-checkers, testframeworks: agenten pluggen direct in op decennia aan tooling. Geen nieuwe infrastructuur nodig.

Alles blijft digitaal. Code is tekst. Agenten hoeven niet met de fysieke wereld te interageren. De hele input-/outputketen is digitaal, deterministisch en controleerbaar.

Deze eigenschappen creëren een positieve spiraal: agenten proberen werk, krijgen directe feedback, corrigeren hun koers en verbeteren zich. Daarom overschreden programmeeragenten als eerste de betrouwbaarheidsdrempel. Dario Amodei, CEO van Anthropic, ging op het World Economic Forum in Davos in januari 2026 zelfs zo ver om te voorspellen dat AI binnen zes tot twaalf maanden de meeste software-engineering-taken zal overnemen.

Maar het belangrijke inzicht gaat niet over programmeren. Het gaat over het patroon. Elk domein dat verifieerbare output, heldere specificaties en geautomatiseerde feedbackloops opbouwt, zal dezelfde ontwikkeling doormaken.

AI-agenten voor bedrijven: voorbij het programmeren

Design, infrastructuur, financiën en marketing bouwen nu aan die feedbackloops.

Design. Figma ging in februari 2026 een partnerschap aan met Anthropic om AI-programmeertools en hun designplatform te verbinden. Bouw een werkende interface door een agent te instrueren en importeer het vervolgens direct in Figma voor verfijning. De feedbackloop tussen designintentie en werkende code wordt teruggebracht tot minuten.

Infrastructuur. Zelfherstellende Kubernetes-clusters bewegen van onderzoek naar productie. AI-agenten scannen continu workloads, detecteren storingen zoals CrashLoopBackOff of OOMKilled, verzamelen logs, diagnosticeren oorzaken en passen fixes autonoom toe. Ze leren: de eerste keer dat een agent een OOMKilled-pod tegenkomt, probeert hij wellicht een conservatieve geheugenverhoging en faalt. De tweede keer gaat hij direct naar de juiste allocatie. De feedbackloop is geautomatiseerde monitoring. De verificatie is systeemgezondheid.

Financiën. Goldman Sachs gebruikt Claude-agenten voor handelsboekhouding en klant-onboarding in productie. Geen pilot. Echte transacties. De feedbackloop is regelgevende compliance en reconciliatie. De CIO van Goldman beschrijft de verschuiving als de overgang van “het inzetten van op mensen gericht personeel voor taken” naar “het inzetten van door mensen georkestreerde vloten van gespecialiseerde multi-agentteams”.

Marketing. AI-SEO-agenten monitoren inmiddels rankings, identificeren optimalisatiekansen en voeren wijzigingen door. De feedbackloop is search-consoledata. Een gedocumenteerde workflow behaalde binnen zeven dagen een toename van 28% in kliks door een agent te koppelen aan Google Search Console en automatisch te laten optimaliseren.

Het patroon is consistent. Zodra een domein een strakke feedbackloop creëert tussen agentactie en meetbaar resultaat, beginnen agenten echte waarde te leveren. En elke grote sector bouwt nu aan die loops.

Van vibe coding naar agentic engineering

De sector zit midden in een vocabulairewisseling die een diepere structurele verschuiving onthult.

In februari 2025 bedacht Andrej Karpathy de term “vibe coding”: het speelse, experimentele gebruik van AI om code te genereren zonder de output grondig te controleren. Precies een jaar later verving hij het door “agentic engineering”: gedisciplineerde, door mensen gesuperviseerde agentorchestratie waarbij u resultaten definieert en agenten de uitvoering verzorgen.

Het onderscheid is belangrijk omdat het weerspiegelt wat in elk domein gebeurt als agenten volwassen worden. Fase één is nieuwigheid: mensen experimenteren, verwonderen zich over demo’s, produceren ongecontroleerde output. Fase twee is professionalisering: mensen ontwikkelen workflows, stellen kwaliteitscontroles in en behandelen agentoutput zoals ze het werk van een junior medewerker zouden behandelen. Controleren. Testen. Verantwoordelijkheid nemen.

De realistische productiviteitswinst ligt vandaag op ongeveer 1,5x, niet de 10x die hype-cycli beloven. Maar 1,5x duurzaam over een hele beroepsgroep is enorm. En die winst gaat onevenredig naar mensen met domeinexpertise. Agenten hebben goede context nodig om goede output te produceren, en de juiste context bepalen vereist diep begrip van het probleem. Daarom wordt expertise in een agentgestuurde wereld waardevoller, niet minder. De persoon die weet wat er gebouwd moet worden en het resultaat kan beoordelen, zal altijd beter presteren dan iemand die alleen weet hoe te prompten.

De persoonlijke AI-agent is de volgende stap

Goldman Sachs voorspelt dat 2026 het jaar is waarin persoonlijke AI-agenten werkelijkheid worden. Hun voorbeeld: wanneer een vlucht wordt geannuleerd, boekt uw agent automatisch om, verplaatst uw vergaderingen en regelt de vervolglogistiek. Helemaal zonder uw tussenkomst.

Gartner schat dat eind 2026 40% van de enterprise-applicaties taakspecifieke AI-agenten zal bevatten, tegenover minder dan 5% in 2025. De AI-agentenmarkt zal naar verwachting groeien van 12 tot 15 miljard dollar in 2025 naar 80 tot 100 miljard dollar in 2030.

De signalen zijn niet beperkt tot analystenrapporten. OpenAI nam Peter Steinberger aan, de maker van OpenClaw, in februari 2026 om “de volgende generatie persoonlijke agenten” te bouwen. Steinberger had maandenlang geproduceerd als een heel team, alleen, door zijn workflow volledig rond AI-agenten te organiseren. Dat is het patroon dat voorbij ontwikkelaars zal schalen: één persoon, versterkt door agenten, die bereikt waarvoor eerder een team nodig was.

Een werktuigbouwkundig ingenieur beschreef onlangs hoe hij voor het eerst functionele software bouwde met behulp van programmeeragenten. Een ouder demonstreerde hoe een enkele prompt een werkend browserspel creëerde op de school van hun 10-jarige. Dit zijn vroege signalen van wat er gebeurt wanneer agentcapaciteiten niet-technische gebruikers bereiken.

De ontwikkeling uit de METR-data is helder. Huidige agenten verwerken taken die in uren worden gemeten. Tegen 2028 zullen ze taken verwerken die in weken worden gemeten. Dat is niet genoeg tijd om af te wachten. Het is genoeg tijd om vaardigheid op te bouwen.

Wat dit in de praktijk betekent

Voor professionals die deze verschuiving volgen, zijn drie dingen van belang:

Het hefboomeffect is reëel, maar vereist expertise. Agenten versterken wat u al weet. Een marketingdirecteur die consumentenpsychologie begrijpt, haalt meer uit een agent dan iemand die simpelweg vraagt om “wat advertenties te schrijven”. Diepgaande domeinkennis wordt zowel het knelpunt als het voordeel.

Agenten evolueren van reactief naar persistent. De huidige AI-tools zijn overwegend reactief: app openen, prompt typen, antwoord krijgen, app sluiten. De volgende golf draait op de achtergrond. Monitort. Plant. Handelt namens u via uw communicatiekanalen en werksystemen. Het verschil tussen een AI-agent en een chatbot is het verschil tussen een werktuig en een teamgenoot.

U zou uw agent niet hoeven te begeleiden. De huidige generatie AI-tools vereist dat u een app opent, een sessie start en de interactie zelf beheert. Een echte persoonlijke agent draait op de achtergrond, altijd beschikbaar, altijd bijgewerkt en altijd veilig. Dat betekent dat iemand de infrastructuur, updates, uptime en beveiliging moet verzorgen, zodat u zich kunt richten op het daadwerkelijke gebruik.

Dat is wat OpenClaw.rocks doet. Wij geven u een persoonlijke AI-agent die 24/7 draait op uw favoriete berichtenplatforms: Telegram, WhatsApp, Discord, Signal. Wij verzorgen de infrastructuur, beveiliging en updates. U praat gewoon met uw agent. Deze is gebouwd op OpenClaw, het open-source agentframework, dus er is geen vendor-lock-in en uw data blijft van u.

De verschuiving van gimmick naar gamechanger is al gebeurd in software. Het gebeurt nu in design, financiën en infrastructuur. Persoonlijke productiviteit is de volgende.

Het beste moment om te beginnen was december. Het op één na beste is vandaag.

Neem de uwe.