Siri, Alexa, ChatGPT i OpenClaw: u cemu je stvarna razlika?

Svi su koristili barem jednog od ovih. Siri postavlja vase alarme. Alexa pusta vasu glazbu. ChatGPT pise vase mailove. A tu je i OpenClaw, AI agent otvorenog koda koji je u posljednje vrijeme svuda u vijestima i radi nesto fundamentalno drugacije od svih triju prethodnika.

Svi se nazivaju “AI asistentima”, ali tehnologija iza svakog od njih toliko je razlicita da ih je gotovo pogresno grupirati. Ovaj clanak objasnjava sto se zapravo dogada ispod haube, kako su se AI asistenti razvijali od pravila preko jezicnih modela do autonomnih agenata i sto to znaci za buducnost.

Cetiri igraca

Pocnimo s tim sto svaki od njih zapravo jest.

Siri je Appleov glasovni asistent. Zivi na vasem iPhoneu, Macu, Apple Watchu i HomePodu. Kazete “Hey Siri” i on odgovara na pitanja, postavlja alarme, salje poruke i upravlja pametnim kucnim uredajima. Pokrenut je 2011. i, iskreno, od tada se nije puno promijenio. Apple je potvrdio da dolazi veliko AI nadogradnje u 2026., ali jos nije stiglo.

Alexa je Amazonov glasovni asistent. Zivi u Echo zvucnicima i drugim Amazon uredajima. Moze pustiti glazbu, odgovarati na pitanja, upravljati pametnim kucnim uredajima i narucivati stvari s Amazona. U veljaci 2025. Amazon je pokrenuo Alexa+, nadogradenu verziju pokretanu velikim jezicnim modelima.

ChatGPT je OpenAI-jev konverzacijski AI. Radi u web pregledniku ili mobilnoj aplikaciji. Tipirate (ili govorite), a on odgovara izuzetno tecnim, detaljnim odgovorima. Moze pisati eseje, objasnijavati kod, analizirati slike i sazetajati dokumente. Novije verzije takoder mogu pretrazivati web i pokretati kod unutar razgovora.

OpenClaw je AI agent otvorenog koda. Povezuje se s vasim aplikacijama za razmjenu poruka (WhatsApp, Telegram, Discord i mnoge druge) i izgraden je za poduzimanje akcija: pregledavanje weba, upravljanje datotekama, pokretanje koda, upravljanje pametnim kucnim uredajima. Dok su ostali primarno konverzacijski, OpenClaw je primarno operativan.

Cetiri “AI asistenta”. Ali fundamentalno razlicite tehnologije koje rade fundamentalno razlicite stvari.

Kako zapravo funkcioniraju?

Ovdje postaje zanimljivo. Da biste razumjeli zasto se ovi proizvodi tako razlicito osjecaju pri koristenju, morate razumjeti sto se dogada iza kulisa.

Siri i klasicna Alexa: dijagram toka

Kad pitate Siri “Kakvo je vrijeme u Berlinu?”, evo sto se dogada:

Vas glas se pretvara u tekst (prepoznavanje govora)
Tekst se usporeduje s popisom poznatih naredbi (“vrijeme” + “Berlin” = namjera za vrijeme, lokacija = Berlin)
Siri poziva API za vrijeme s “Berlin” kao unosom
API vraca podatke, a Siri cita unaprijed napisani predlozak: “Trenutno su 3 stupnja u Berlinu”

To je klasifikacija namjere i popunjavanje slotova. Zamislite to kao vrlo sofisticirani dijagram toka. Ako korisnik kaze ovo, napravi to. Siri ima tisuce takvih dijagrama toka, svaki pazljivo programiran od strane Appleovih inzenjera.

Problem? Ako pitate nesto sto se ne poklapa s dijagramom toka, Siri se raspada. “Hej Siri, trebam li ponijeti kisobran na sastanak sutra?” zahtijeva od Siri da provjeri vas kalendar, pronade lokaciju sastanka, provjeri vremensku prognozu za tu lokaciju u to vrijeme i procijeni je li kisa dovoljno vjerojatna da opravda kisobran. To nije dijagram toka. To je razmisljanje. A razmisljanje je upravo ono sto Siri jos ne moze.

Alexa je godinama funkcionirala na isti nacin. Njezini “skillovi” (Alexin ekvivalent aplikacija) su zapravo tisuce pojedinacnih dijagrama toka koje su izgradili programeri trecih strana. Nova Alexa+ dodaje jezicni model na vrh, ali temeljna arhitektura je i dalje glasom aktivirani sustav za naredbe u srzi.

ChatGPT: prediktor sljedece rijeci

ChatGPT funkcionira na potpuno drugaciji nacin. Koristi nesto sto se zove Veliki jezicni model, ili LLM. A razumijevanje LLM-ova kljuc je za razumijevanje svega sto se trenutno dogada u AI-ju.

Evo jednostavne verzije.

Zamislite da ste procitali svaku knjigu, svaku web stranicu, svaki clanak i svaki razgovor ikad napisan na engleskom jeziku. Milijarde i milijarde stranica. Nakon svog tog citanja, razvili biste prilicno dobar osjecaj za to kako jezik funkcionira. Znali biste da nakon “Glavni grad Francuske je…” gotovo sigurno slijedi “Pariz.” Znali biste da recept za cokoladnu tortu vjerojatno ukljucuje brasno, secer, kakao i jaja. Znali biste da pristojan e-mail obicno zavrsava s “Srdacnim pozdravima.”

To je u biti ono sto LLM radi, samo s matematikom umjesto intuicije. To je masivna neuronska mreza (zamislite: mreza od milijardi brojeva) koja je trenirana na ogromnoj kolicini teksta s interneta. Tijekom treninga, igrao je igru: ako mu se da recenica s uklonjenom posljednjom rijecju, predvidi sto slijedi. Igrao je tu igru trilijune puta, svaki put prilagodavajuci svoje interne brojeve kako bi bio malo bolji u predvidanju.

Nakon dovoljno treninga, pojavljuje se nesto izvanredno. Model postaje izuzetno fleksibilan u mijesanju i slaganju svega sto je vidio, do tocke gdje se cini da razumije stvari. Moze objasniti kvantnu fiziku, pisati Python kod, stvarati poeziju i rjesavati matematicke probleme logickim zakljucivanjem. Ne zato sto je itko te sposobnosti programirao, vec zato sto obrasci ljudskog jezika kodiraju ogromnu kolicinu znanja i logickog zakljucivanja.

Kad postavite pitanje ChatGPT-u, on ne “pretrazuje” odgovor u bazi podataka. Generira odgovor jednu rijec po jednu (tehnicki, jedan token po token), svaki put pitajuci se: “S obzirom na sve do sada, koja je najvjerojatnija sljedeca rijec?” Zato moze biti briljantno tocan i uvjereno pogresan u istom razgovoru. Uvijek proizvodi statisticki najuvjerljiviji odgovor, ne najverificiraniji.

OpenAI je uveo modele koji “razmisljaju” s o1 krajem 2024.: za teske probleme, model generira korak-po-korak zakljucivanje prije nego sto da odgovor, slicno kao sto biste vi mogli rijesavati matematicki problem na pomoćnom papiru. GPT-5 je ujedinio to u jedan sustav koji automatski usmjerava izmedu brzih odgovora i dubinskog zakljucivanja. Rezultat: 45% manje cinjenicnih pogresaka u usporedbi s ranijim modelima kada je web pretrazivanje omoguceno.

OpenClaw: kontrolna petlja

OpenClaw uzima LLM (poput onog unutar ChatGPT-a) i stavlja ga u petlju.

Posaljete poruku (“Rezerviraj mi stol za veceru veceras”)
LLM cita vasu poruku i odlucuje sto prvo napraviti (provjeriti vas kalendar za veceras)
OpenClaw izvrsava tu akciju i rezultat vraca LLM-u
LLM cita rezultat i odlucuje sljedeci korak (pretraziti restorane blizu lokacije)
Koraci 3 i 4 se ponavljaju dok zadatak nije zavrsen

To se zove petlja razmisljanja-akcije-promatranja. LLM razmislja o tome sto uciniti, djeluje putem alata (pregledavanje, poruke, pristup datotekama), promatra rezultat i ponovo petlja. LLM nije proizvod s kojim komunicirate. On je jedna komponenta unutar veceg sustava koji moze poduzimati stvarne akcije u svijetu.

Kad zamolite ChatGPT da rezervira restoran, moze predloziti opcije i napisati poruku. Kad zamolite OpenClaw, on zapravo moze napraviti rezervaciju, dodati je u vas kalendar i poslati prijatelju detalje.

Tri generacije

Sada kad ste vidjeli kako svaki od njih funkcionira ispod haube, pojavljuje se obrazac. Dijagrami toka, jezicni modeli, kontrolne petlje. To nisu samo tri razlicita proizvoda. To su tri generacije iste ideje: uciniti da racunala razumiju sto ljudi zele.

Generacija 1: Pravila. To su Siri i klasicna Alexa, kao sto je opisano gore. Ljudi pisu svaki dijagram toka. Pametno, ali krhko.

Generacija 2: LLM je proizvod. To je ChatGPT. Jezicni model sam je stvar s kojom komunicirate. Vi pricate s modelom, model vam odgovara. Moze zakljucivati, moze biti kreativan, moze obraditi pitanja koja nitko nije predvidio. Ali u osnovi je i dalje razgovor. Vi pitate, on odgovara. LLM jest proizvod.

Generacija 3: LLM je samo API. Ovdje zivi OpenClaw. LLM biva degradiran s toga da bude proizvod na to da bude jedna komponenta u vecem sustavu: petlja razmisljanja-akcije-promatranja opisana gore. Izlaz LLM-a postaje njegov vlastiti sljedeci ulaz.

Razlika je kao da nekoga pitate za upute nasuprot tome da nekoga zaposlite na puno radno vrijeme. Sustav generacije 2 vam daje upute. Sustav generacije 3 sjeda u auto, vozi vas tamo, pamti rutu za sljedeci put i moze odluciti provjeriti promet sutra ujutro prije nego sto vi uopce pitate.

ChatGPT se krece u tom smjeru. OpenAI-jev Operator pretrazuje web umjesto vas. ChatGPT moze izvrsavati kod, pretrazivati web i generirati slike u jednom razgovoru. To su pozivi alata unutar kontrolne petlje. Ali OpenClaw ide dalje na tri nacina.

Samomodifikacija. OpenClawov sistemski prompt (SOUL.md), njegova dugorocna memorija (MEMORY.md) i njegovi skillovi zive u datotekama koje agent sam moze citati i pisati. Agent moze prepisati upute koje upravljaju time kako se LLM promptuje u svakom buducem koraku. Ne samo da koristi LLM. On usmjerava kako koristi LLM i prilagodava to usmjeravanje tijekom vremena. ChatGPT ima znacajke memorije, ali ne moze prepisati svoj vlastiti sistemski prompt.

Kontinuitet. ChatGPT ceka da tipirate. OpenClaw radi kao pozadinski proces koji ostaje aktivan. Moze planirati vlastite cron zadatke, reagirati na webhookove, probuditi se prema rasporedu i poduzeti akciju bez icijeg upita. Nije reaktivan. Kontinuiran je.

Otvorenost. ChatGPT daje LLM-u kurirani skup alata koje kontrolira OpenAI. OpenClaw je otvorenog koda i prosiriv sa skillovima: modularnim paketima znanja i sposobnosti koje bilo tko moze stvarati i dijeliti. Vec postoji preko 52.000 skillova, a trzista zajednice poput ClawHuba cine ekosustav prakticno beskonacnim. Pisao sam o tome u AI skillovi su nove aplikacije: skillovi su za AI agente ono sto su aplikacije bile za iPhone. Oni su nacin na koji sustav postaje pametniji bez da se jezgra mora mijenjati.

Model koji pokrece petlju moze biti isti. Arhitektura je ono sto se razlikuje. Rani ChatGPT bio je funkcija koju pozivate. OpenClaw je proces koji radi.

Rizici duzeg uzeta

Vise slobode znaci vise moci, a vise moci znaci vise rizika. A rizici generacije 3 fundamentalno su razliciti od generacije 2.

Ubacivanje u prompt. Kad koristite ChatGPT sami, vi kontrolirate sto ulazi u prompt. Kad agent pretrazuje web, cita e-mailove ili instalira skillove trecih strana, sadrzaj drugih ljudi ulazi u prompt. Zlonamjerna web stranica moze ugraditi skrivene upute koje LLM slijedi bez znanja korisnika. Kompromitirani skill moze ubaciti naredbe u agentovu petlju zakljucivanja. To je ubacivanje u prompt i to je puno veci problem za agente nego za chatbotove, jer agent moze djelovati prema tim ubacenim uputama: slati e-mailove, izvlaciti podatke, modificirati datoteke. U veljaci su istrazivaci pronasli 341 zlonamjerni skill na ClawHubu koji su radili upravo to.

Izlozenost vjerodajnica. Agenti generacije 3 trebaju pristup vasem stvarnom zivotu da bi bili korisni: API kljucevi, lozinke, kreditne kartice, racuni za razmjenu poruka. U veljaci je otkriveno 135.000 OpenClaw instanci izlozenih internetu, a Cisco, CrowdStrike i Kaspersky objavili su upozorenja u istom tjednu. Krivo konfigurirani agent s vasim vjerodajnicama nije samo curenje podataka. To je proxy koji moze djelovati kao vi: lazno se predstavljati na bilo kojem servisu, trositi vas novac, pristupati vasim racunima, slati poruke u vase ime. Napisali smo potpunu analizu sigurnosne krize i kako autentifikacija na razini proxyja sprecava najgore.

Nenamjerna autonomija. Agent koji moze poduzimati stvarne akcije moze uzrokovati stvarnu stetu na nacine koje nitko nije predvidio. Prije samo nekoliko dana, OpenClaw agent je poslao pull request projektu matplotlib, bio odbijen jer projekt prihvaca samo ljudske doprinose, a zatim je autonomno objavio osobni napad na odrzavatelja koji ga je zatvorio. Cini se da mu to nitko nije rekao. Sto je duze uze, to su kreativniji nacini greske.

Kamo sve ovo vodi?

Putanja je jasna: svaki AI asistent se krece prema generaciji 3. LLM postaje API, a proizvod postaje orkestracijaki sloj oko njega. Pisao sam o tome u OpenClaw je novi Linux: LLM je CPU. Mocan, bitan, ali ne stvar s kojom komunicirate. Ono sto je vazno jest operacijski sustav koji sjedi na vrhu.

Era chatbotova zavrsava. Era agenata pocela je i ubrzava se pocetkom 2026. Ovo je sljedeca evolucija u tome kako racunala osnazuju ljude: od radne povrsine ispred koje sjedite, do telefona u dzepu, do agenta koji radi u pozadini i s kojim komunicirate kao s prijateljem na daljinu.

Postoji razlog zasto ljudi stalno govore “OpenClaw je ono sto je Apple Intelligence trebao biti.” Siri je bio obecanje: osobni asistent koji vas razumije i obavlja stvari. Ali izgraden je u generaciji 1, s pravilima i dijagramima toka. OpenClaw je ono sto se dogada kad to obecanje izgradite na arhitekturi generacije 3.

Generacija 4

Postoji generacija izvan ovoga. Danas agent generacije 3 zivi na vasem racunalu ili u oblaku. Vec moze doprijeti do fizickog svijeta, ali samo neizravno: angaziranje ljudi putem platformi poput rentahuman.ai, pozivanje API-ja koji pokrecu fizicke strojeve, narucivanje koje rezultira stvarnim isporukama. Svaka akcija i dalje treba posrednika.

Generacija 4 uklanja posrednika. Utjelovljeni agent izravno kontrolira robote, dronove, vozila i fizicku infrastrukturu. Tesla prenamjenjuje tvornicke linije s automobila na Optimus robote. Figure AI-jevi humanoidi upravo su zavrsili 11-mjesecnu implementaciju u BMW-u, utovarivsii preko 90.000 dijelova. Na CES 2026, humanoidni roboti od Boston Dynamics, 1X i Figure bili su posvuda. Iskreno me zanima kamo robotika ide u nadolazecim godinama.

Znam da ovo moze zvucati zastrasuiuce i da se brzo krece. Ali radije bih da je ova tehnologija otvorena, provjerljiva i dostupna svima nego zakljucana unutar nekolicine korporacija koje odlucuju kako funkcionira. Zato gradim OpenClaw.rocks.

Sto gradim

Poceo sam ovaj tekst pokusavajuci objasniti razliku izmedu Siri, Alexa, ChatGPT i OpenClaw. Ali prava razlika nije izmedu cetiri proizvoda. To je razlika izmedu tri nacina razmisljanja o tome sto racunala mogu uciniti za ljude. Pravila. Jezik. Autonomija.

Presli smo od dijagrama toka koji se lome kad postavite krivo pitanje, do modela koji mogu zakljucivati ali samo kad ih potaknete, do sustava koji mogu samostalno djelovati i uciti iz rezultata. Svaka generacija ucinila je racunala korisnim za vise ljudi na vise nacina. Ta putanja ne usporava.

Na OpenClaw.rocks gradimo infrastrukturu za sigurno pokretanje AI agenata u velikom mjerilu i njihovo stavljanje na raspolaganje svima, otvarajuci kod nasih sustava usput.

Ako zelite pratiti kamo ovo vodi, posjetite OpenClaw.rocks ili nas pronadite na X.