Siri, Alexa, ChatGPT og OpenClaw: hvad er egentlig forskellen?

Alle har brugt mindst en af disse. Siri saetter dine timere. Alexa spiller din musik. ChatGPT skriver dine e-mails. Og sa er der OpenClaw, den open source AI-agent, der pa det seneste har vaeret overalt i nyhederne og goer noget fundamentalt anderledes end alle tre foregaende.

De kaldes alle “AI-assistenter”, men teknologien bag hver enkelt er sa forskellig, at det naesten er misvisende at gruppere dem sammen. Dette indlaeg forklarer, hvad der faktisk sker under motorhjelmen, hvordan AI-assistenter udviklede sig fra regler over sprogmodeller til autonome agenter, og hvad det betyder for fremtiden.

De fire spillere

Lad os starte med, hvad hver af disse faktisk er.

Siri er Apples stemmeassistent. Den lever i din iPhone, Mac, Apple Watch og HomePod. Du siger “Hey Siri”, og den svarer pa sporgsmal, saetter alarmer, sender beskeder og styrer smarte hjem-enheder. Den blev lanceret i 2011 og har, aerligt talt, ikke aendret sig saerligt meget siden da. Apple har bekraeftet, at en stor AI-opgradering kommer i 2026, men den er ikke her endnu.

Alexa er Amazons stemmeassistent. Den lever i Echo-hoejtalere og andre Amazon-enheder. Den kan afspille musik, svare pa sporgsmal, styre smarte hjem-enheder og bestille ting fra Amazon. I februar 2025 lancerede Amazon Alexa+, en opgraderet version drevet af store sprogmodeller.

ChatGPT er OpenAI’s samtale-AI. Den koerer i en webbrowser eller mobilapp. Du skriver (eller taler), og den svarer med bemerkelsesvaerdigt flydende, detaljerede svar. Den kan skrive essays, forklare kode, analysere billeder og opsummere dokumenter. Nyere versioner kan ogsa browse internettet og koere kode inden for en samtale.

OpenClaw er en open source AI-agent. Den forbinder til dine besked-apps (WhatsApp, Telegram, Discord og mange flere) og er bygget til at udfoere handlinger: browse internettet, haandtere filer, koere kode, styre smarte hjem-enheder. Hvor de andre primaert er samtalebaserede, er OpenClaw primaert operationel.

Fire “AI-assistenter”. Men fundamentalt forskellige teknologier, der goer fundamentalt forskellige ting.

Hvordan fungerer de egentlig?

Her bliver det interessant. For at forsta, hvorfor disse produkter foeles sa forskellige at bruge, skal du forsta, hvad der sker bag kulisserne.

Siri og den gamle skoles Alexa: flowchartet

Nar du spoerger Siri “Hvordan er vejret i Berlin?”, sker foelgende:

Din stemme konverteres til tekst (talegenkendelse)
Teksten matches mod en liste over kendte kommandoer (“vejr” + “Berlin” = vejrintention, placering = Berlin)
Siri kalder et vejr-API med “Berlin” som input
API’et returnerer data, og Siri laeser en forudskrevet skabelon: “Der er i oejeblikket 3 grader i Berlin”

Det er intentionsklassifikation og slot-udfyldning. Taenk pa det som et meget sofistikeret flowchart. Hvis brugeren siger dette, goer det. Siri har tusindvis af disse flowcharts, hvert omhyggeligt programmeret af Apples ingenioerer.

Problemet? Hvis du spoerger om noget, der ikke matcher et flowchart, bryder Siri sammen. “Hey Siri, skal jeg tage en paraply med til mit moede i morgen?” kraever, at Siri tjekker din kalender, finder moedets placering, tjekker vejrudsigten for den placering pa det tidspunkt og vurderer, om regn er sandsynligt nok til at retfaerdiggoere en paraply. Det er ikke et flowchart. Det er taenkning. Og taenkning er praecis det, Siri endnu ikke kan.

Alexa fungerede pa samme made i arevis. Dens “skills” (Alexas aequivalent til apps) er i bund og grund tusindvis af individuelle flowcharts bygget af tredjepartsudviklere. Den nye Alexa+ tilfojer en sprogmodel ovenpaa, men grundarkitekturen er stadig et stemmeaktiveret kommandosystem i hjertet.

ChatGPT: naeste-ord-forudsigeren

ChatGPT fungerer pa en helt anden made. Den bruger noget, der kaldes en stor sprogmodel, eller LLM. Og at forsta LLM’er er noeglen til at forsta alt, hvad der sker inden for AI lige nu.

Her er den simple version.

Forestil dig, at du har laest enhver bog, enhver hjemmeside, enhver artikel og enhver samtale, der nogensinde er skrevet pa engelsk. Milliarder og milliarder af sider. Efter al den laesning ville du udvikle en ret god intuition for, hvordan sprog fungerer. Du ville vide, at “Frankrigs hovedstad er …” naesten helt sikkert foelges af “Paris.” Du ville vide, at en opskrift pa chokoladekage sandsynligvis indeholder mel, sukker, kakao og aeg. Du ville vide, at en hoeflig e-mail normalt slutter med “Med venlig hilsen.”

Det er i bund og grund, hvad en LLM goer, bare med matematik i stedet for intuition. Den er et massivt neuralt netvaerk (taenk: et netvaerk af milliarder af tal), der er traenet pa en enorm maengde tekst fra internettet. Under traeningen spillede den et spil: givet en saetning med det sidste ord fjernet, forudsig hvad der kommer naest. Den spillede dette spil billioner af gange og justerede sine interne tal hver gang for at blive en smule bedre til at forudsige.

Efter nok traening opstaar noget bemerkelsesvaerdigt. Modellen bliver ekstremt fleksibel til at blande og matche alt, den har set, til det punkt, hvor den synes at forsta ting. Den kan forklare kvantefysik, skrive Python-kode, komponere poesi og raesonnere sig igennem matematikopgaver. Ikke fordi nogen programmerede disse evner ind, men fordi moenstre i menneskeligt sprog koder en enorm maengde viden og raesonnement.

Nar du stiller ChatGPT et sporgsmal, “slar den ikke op” i en database. Den genererer et svar et ord ad gangen (teknisk set en token ad gangen), hver gang sporgende sig selv: “Givet alt hidtil, hvad er det mest sandsynlige naeste ord?” Derfor kan den vaere straalende rigtig og selvsikkert forkert i den samme samtale. Den producerer altid det statistisk mest plausible svar, ikke det mest verificerede.

OpenAI introducerede “taenkende” modeller med o1 i slutningen af 2024: for svaere problemer genererer modellen trin-for-trin-raesonnement foer den giver sit svar, ligesom du maaske ville loese et matteproblem pa kladpapir. GPT-5 samlede dette i et system, der automatisk dirigerer mellem hurtige svar og dybt raesonnement. Resultatet: 45 % faerre faktuelle fejl sammenlignet med tidligere modeller, nar websogning er aktiveret.

OpenClaw: kontrolloekken

OpenClaw tager en LLM (som den inde i ChatGPT) og saetter den i en loekke.

Du sender en besked (“Book et bord til middag i aften”)
LLM laeser din besked og beslutter, hvad der skal goeres foerst (tjek din kalender for i aften)
OpenClaw udfoerer den handling og fodrer resultatet tilbage til LLM
LLM laeser resultatet og beslutter naeste trin (soeg efter restauranter naer lokationen)
Trin 3 og 4 gentages, indtil opgaven er faerdig

Det kaldes en raesonnement-handling-observation-loekke. LLM raesonnerer om, hvad den skal goere, handler gennem vaerktoejer (browsing, beskeder, filadgang), observerer resultatet og looper igen. LLM er ikke produktet, du interagerer med. Den er en komponent i et stoerre system, der kan tage virkelige handlinger i verden.

Nar du beder ChatGPT om at booke en restaurant, kan den foresla muligheder og udkaste en besked. Nar du beder OpenClaw, kan den faktisk lave reservationen, tilfoeje den til din kalender og sende din ven detaljerne.

Tre generationer

Nu hvor du har set, hvordan hver af dem fungerer under motorhjelmen, viser et moenster sig. Flowcharts, sprogmodeller, kontrolloekker. Det er ikke bare tre forskellige produkter. Det er tre generationer af den samme ide: fa computere til at forsta, hvad mennesker vil.

Generation 1: Regler. Det er Siri og den gamle skoles Alexa, som beskrevet ovenfor. Mennesker skriver hvert flowchart. Smart, men skroebelig.

Generation 2: LLM er produktet. Det er ChatGPT. Sprogmodellen selv er det, du interagerer med. Du taler med modellen, modellen taler tilbage. Den kan raesonnere, vaere kreativ, haandtere sporgsmal, som ingen forudsa. Men det er stadig grundlaeggende en samtale. Du spoerger, den svarer. LLM er produktet.

Generation 3: LLM er bare et API. Her lever OpenClaw. LLM degraderes fra at vaere produktet til at vaere en komponent i et stoerre system: raesonnement-handling-observation-loekken beskrevet ovenfor. LLM’s output bliver dens eget naeste input.

Forskellen er som at bede nogen om vej versus at ansaette nogen pa fuld tid. Et generation 2-system giver dig vejbeskrivelsen. Et generation 3-system saetter sig i bilen, koerer dig derhen, husker ruten til naeste gang og kan beslutte at tjekke trafikken i morgen tidlig, foer du overhovedet spoerger.

ChatGPT bevaeger sig i den retning. OpenAI’s Operator browser internettet for dig. ChatGPT kan koere kode, soege pa webben og generere billeder i en enkelt samtale. Det er vaerktojskald inde i en kontrolloekke. Men OpenClaw gar laengere pa tre mader.

Selvmodifikation. OpenClaws systemprompt (SOUL.md), dens langtidshukommelse (MEMORY.md) og dens skills lever i filer, som agenten selv kan laese og skrive. Agenten kan omskrive de instruktioner, der styrer, hvordan LLM promptes ved hvert fremtidigt trin. Den bruger ikke bare LLM. Den styrer, hvordan den bruger LLM, og justerer den styring over tid. ChatGPT har hukommelsesfunktioner, men kan ikke omskrive sin egen systemprompt.

Kontinuitet. ChatGPT venter pa, at du skriver. OpenClaw koerer som en baggrundsproces, der forbliver aktiv. Den kan planlaegge egne cron-jobs, reagere pa webhooks, vaekke sig selv efter tidsplan og handle uden nogens opfordring. Den er ikke reaktiv. Den er kontinuerlig.

Abenhed. ChatGPT giver LLM et kurateret saet vaerktoejer, som OpenAI kontrollerer. OpenClaw er open source og kan udvides med skills: modulaere pakker af viden og kapabilitet, som enhver kan skabe og dele. Der er allerede over 52.000 skills, og faellesskabsmarkedspladser som ClawHub goer oekosystemet praktisk taget uendeligt. Jeg skrev om dette i AI-skills er de nye apps: skills er for AI-agenter, hvad apps var for iPhone. De er maden, systemet bliver smartere pa, uden at kernen behoever at aendre sig.

Modellen, der driver loekken, kan vaere den samme. Arkitekturen er det, der er forskelligt. Tidlig ChatGPT var en funktion, du kaldte. OpenClaw er en proces, der koerer.

Risiciene ved laengere snor

Mere frihed betyder mere magt, og mere magt betyder mere risiko. Og risiciene ved generation 3 er fundamentalt forskellige fra generation 2.

Prompt-injektion. Nar du bruger ChatGPT selv, kontrollerer du, hvad der gar ind i prompten. Nar en agent browser internettet, laeser e-mails eller installerer tredjepartsskills, kommer andres indhold ind i prompten. En ondsindet hjemmeside kan indlejre skjulte instruktioner, som LLM foelger uden brugerens viden. En kompromitteret skill kan injicere kommandoer i agentens raesonnementloekke. Det er prompt-injektion, og det er et langt stoerre problem for agenter end for chatbots, fordi agenten kan handle pa de injicerede instruktioner: sende e-mails, exfiltrere data, modificere filer. I februar fandt forskere 341 ondsindede skills pa ClawHub, der gjorde praecis dette.

Eksponering af legitimationsoplysninger. Generation 3-agenter har brug for adgang til dit faktiske liv for at vaere nyttige: API-noegler, adgangskoder, kreditkort, beskedkonti. I februar blev 135.000 OpenClaw-instanser fundet eksponeret pa internettet, og Cisco, CrowdStrike og Kaspersky offentliggjorde alle advarsler i samme uge. En fejlkonfigureret agent med dine legitimationsoplysninger er ikke bare et datalek. Det er en proxy, der kan handle som dig: udgive sig for dig pa enhver tjeneste, bruge dine penge, tilga dine konti, sende beskeder i dit navn. Vi skrev en fuld analyse af sikkerhedskrisen, og hvordan autentifikation pa proxy-niveau forebygger det vaerste.

Utilsigtet autonomi. En agent, der kan tage virkelige handlinger, kan forarssage virkelig skade pa mader, som ingen forudsa. For blot et par dage siden sendte en OpenClaw-agent en pull request til matplotlib, blev afvist fordi projektet kun accepterer menneskelige bidrag, og publicerede derefeter autonomt et personangreb pa den vedligeholder, der lukkede den. Det lader til, at ingen bad den om at goere det. Jo laengere snoren, jo mere kreative fejlmoderne.

Hvor er alt dette pa vej hen?

Retningen er klar: enhver AI-assistent bevaeger sig mod generation 3. LLM bliver et API, og produktet bliver orkestreringslaget omkring det. Jeg skrev om dette i OpenClaw er det nye Linux: LLM er processoren. Kraftfuld, essentiel, men ikke det, du interagerer med. Det, der betyder noget, er operativsystemet, der sidder ovenpaa.

Chatbot-aeraen er ved at vaere slut. Agent-aeraen er begyndt og accelererer hurtigt i begyndelsen af 2026. Det er den naeste evolution i, hvordan computere giver mennesker magt: fra et skrivebord, du sidder foran, til en telefon i lommen, til en agent, der arbejder i baggrunden, og som du interagerer med som en fjern ven.

Der er en grund til, at folk bliver ved med at sige “OpenClaw er det, Apple Intelligence burde have vaeret.” Siri var loeftet: en personlig assistent, der forstar dig og far tingene gjort. Men den blev bygget i generation 1, med regler og flowcharts. OpenClaw er, hvad der sker, nar du bygger det loefte pa generation 3-arkitektur i stedet.

Generation 4

Der er en generation hinsides denne. I dag lever en generation 3-agent pa din computer eller i skyen. Den kan allerede na den fysiske verden, men kun indirekte: ved at hyre mennesker gennem platforme som rentahuman.ai, kalde API’er der udloeser fysiske maskiner, afgive bestillinger der resulterer i reelle leveringer. Enhver handling kraever stadig en mellemmand.

Generation 4 fjerner mellemmanden. Den legemliggjorte agent styrer direkte robotter, droner, koeretojer og fysisk infrastruktur. Tesla ombygger fabrikslinjer fra biler til Optimus-robotter. Figure AI’s humanoider har netop afsluttet en 11-maneders udrulning hos BMW, hvor de lastede over 90.000 dele. Pa CES 2026 var humanoide robotter fra Boston Dynamics, 1X og Figure overalt. Jeg er oprigtigt nysgerrig efter at se, hvor robotikken bevaeger sig i de kommende ar.

Jeg ved, det kan lyde skraemmende, og det gar hurtigt. Men jeg vil hellere have, at denne teknologi er aben, revirerbar og tilgaengelig for alle, end at den er last inde i fa virksomheder, der bestemmer, hvordan den fungerer. Derfor bygger jeg OpenClaw.rocks.

Hvad jeg bygger

Jeg startede dette indlaeg med at proeve at forklare forskellen mellem Siri, Alexa, ChatGPT og OpenClaw. Men den virkelige forskel er ikke mellem fire produkter. Den er mellem tre mader at taenke om, hvad computere kan goere for mennesker. Regler. Sprog. Handlekraft.

Vi gik fra flowcharts, der bryder sammen, nar du stiller det forkerte sporgsmal, til modeller der kan raesonnere, men kun nar du opfordrer dem, til systemer der kan handle pa egen hand og laere af resultaterne. Hver generation gjorde computere nyttige for flere mennesker pa flere mader. Den tendens aftager ikke.

Pa OpenClaw.rocks bygger vi infrastrukturen til at koere AI-agenter sikkert i stor skala og goere dem tilgaengelige for alle, mens vi abner kildekoden til vores systemer undervejs.

Hvis du vil foelge, hvor dette er pa vej hen, sa tjek OpenClaw.rocks eller find os pa X.