Siri, Alexa, ChatGPT in OpenClaw: kaj je dejansko drugacno?

Vsi so uporabili vsaj enega od teh. Siri nastavi vase casovnike. Alexa predvaja vaso glasbo. ChatGPT pise vasa elektronska sporocila. In potem je tu se OpenClaw, odprtokodni AI agent, ki je v zadnjem casu povsod v novicah in pocne nekaj bistveno drugacnega od vseh treh predhodnikov.

Vsi se imenujejo “AI asistenti”, vendar je tehnologija za vsakim od njih tako razlicna, da je njihovo zdruzevanje skoraj zavajujoce. Ta prispevek razlaga, kaj se dejansko dogaja pod pokrovom, kako so se AI asistenti razvijali od pravil prek jezikovnih modelov do avtonomnih agentov in kaj to pomeni za prihodnost.

Stirje igralci

Zacnimo s tem, kaj vsak od njih dejansko je.

Siri je Applov glasovni asistent. Zivi na vasem iPhonu, Macu, Apple Watchu in HomePodu. Recete “Hey Siri” in odgovarja na vprasanja, nastavlja alarme, poslje sporocila in upravlja pametne naprave. Lansiran je bil leta 2011 in se, iskreno povedano, od takrat ni kaj dosti spremenil. Apple je potrdil, da prihaja velika AI nadgradnja v letu 2026, vendar se ni tu.

Alexa je Amazonov glasovni asistent. Zivi v zvocnikih Echo in drugih napravah Amazon. Lahko predvaja glasbo, odgovarja na vprasanja, upravlja pametne naprave in naroca stvari z Amazona. Februarja 2025 je Amazon lansiral Alexa+, nadgrajeno razlicico, ki jo poganjajo veliki jezikovni modeli.

ChatGPT je OpenAI-jev pogovorni AI. Deluje v spletnem brskalniku ali mobilni aplikaciji. Tipkate (ali govorite) in odgovori z izjemno tekocimi, podrobnimi odgovori. Lahko pise eseje, razlaga kodo, analizira slike in povzema dokumente. Novejse razlicice lahko tudi brskajo po spletu in izvajajo kodo znotraj pogovora.

OpenClaw je odprtokodni AI agent. Povezuje se z vasimi aplikacijami za sporocanje (WhatsApp, Telegram, Discord in se mnoge druge) in je zgrajen za izvajanje dejanj: brskanje po spletu, upravljanje datotek, izvajanje kode, upravljanje pametnih naprav. Medtem ko so ostali predvsem pogovorni, je OpenClaw predvsem operativen.

Stirje “AI asistenti”. Vendar bistveno razlicne tehnologije, ki pocnejo bistveno razlicne stvari.

Kako dejansko delujejo?

Tukaj postane zanimivo. Da bi razumeli, zakaj se ti izdelki tako razlicno obcutijo pri uporabi, morate razumeti, kaj se dogaja za kulisami.

Siri in klasicna Alexa: diagram poteka

Ko vprasate Siri “Kakasno je vreme v Berlinu?”, se zgodi naslednje:

Vas glas se pretvori v besedilo (prepoznavanje govora)
Besedilo se primerja s seznamom znanih ukazov (“vreme” + “Berlin” = namen za vreme, lokacija = Berlin)
Siri poklice vremenski API z “Berlin” kot vnosom
API vrne podatke in Siri prebere vnaprej napisano predlogo: “Trenutno so 3 stopinje v Berlinu”

To je klasifikacija namena in polnjenje rezi. Predstavljajte si to kot zelo sofisticiran diagram poteka. Ce uporabnik rece to, naredi tisto. Siri ima tisocere takih diagramov poteka, vsakega skrbno programirajo Applovi inzenirji.

Problem? Ce vprasate nekaj, kar se ne ujema z diagramom poteka, se Siri podre. “Hej Siri, naj vzamem deznik na jutrianji sestanek?” zahteva od Siri, da preveri vas koledar, najde lokacijo sestanka, preveri vremensko napoved za to lokacijo ob tem casu in presodi, ali je dezevanje dovolj verjetno, da upravici deznik. To ni diagram poteka. To je razmisljanje. In razmisljanje je natanko tisto, cesar Siri se ne zmore.

Alexa je leta delovala na enak nacin. Njeni “skilli” (Alexin ekvivalent aplikacij) so v bistvu tisocere posameznih diagramov poteka, ki so jih zgradili razvijalci tretjih strank. Nova Alexa+ dodaja jezikovni model na vrh, vendar je temeljna arhitektura v srcu se vedno glasovno aktiviran ukazni sistem.

ChatGPT: napovedovalec naslednje besede

ChatGPT deluje na popolnoma drugacen nacin. Uporablja nekaj, cemur pravimo Veliki jezikovni model, ali LLM. In razumevanje LLM-jev je kljuc do razumevanja vsega, kar se trenutno dogaja v AI.

Tukaj je preprosta razlicica.

Predstavljajte si, da ste prebrali vsako knjigo, vsako spletno stran, vsak clanek in vsak pogovor, ki je bil kdaj napisan v anglescini. Milijarde in milijarde strani. Po vsem tem branju bi razvili precej dober obcutek za to, kako jezik deluje. Vedeli bi, da po “Prestolnica Francije je …” skoraj zagotovo sledi “Pariz.” Vedeli bi, da recept za cokoladno torto verjetno vkljucuje moko, sladkor, kakav in jajca. Vedeli bi, da se vljudno elektronsko sporocilo obicajno konca s “Lep pozdrav.”

To je v bistvu tisto, kar pocne LLM, le da z matematiko namesto intuicije. To je obsezna nevronska mreza (si predstavljajte: mreza milijard stevilk), ki je bila naucena na ogromni kolicini besedila z interneta. Med ucenjem je igrala igro: ob stavku z odstranjeno zadnjo besedo napovej, kaj sledi. To igro je igrala bilijonkrat, vsakic prilagodila svoje notranje stevilke, da bi bila malce boljsa pri napovedovanju.

Po dovolj ucenja se pojavi nekaj izjemnega. Model postane izjemno prilagodljiv pri mesanju in kombiniranju vsega, kar je videl, do tocke, ko se zdi, da razume stvari. Lahko razlozi kvantno fiziko, pise Python kodo, sklada poezijo in resuje matematicne probleme z logicnim sklepanjem. Ne zato, ker bi kdorkoli te sposobnosti programiral, temvec zato, ker vzorci cloveskega jezika kodirajo ogromno kolicino znanja in logicnega sklepanja.

Ko postavite vprasanje ChatGPT-ju, ta ne “poisce” odgovora v bazi podatkov. Generira odgovor eno besedo naenkrat (tehnicno, en zeton naenkrat), vsakic ko se vprasa: “Glede na vse do zdaj, kaksna je najverjetnejsa naslednja beseda?” Zato je lahko briljantno natancen in samozavestno napacen v istem pogovoru. Vedno proizvaja statisticno najverjetnejsi odgovor, ne najbolj preverjenega.

OpenAI je uvedel modele, ki “razmisljajo”, z o1 konec leta 2024: za tezke probleme model generira sklepanje korak za korakom, preden poda odgovor, podobno kot bi vi resevali matematicni problem na pomoznem papirju. GPT-5 je to zdruzil v en sistem, ki samodejno usmerja med hitrimi odgovori in globokim sklepanjem. Rezultat: 45 % manj dejanskih napak v primerjavi s prejsnjimi modeli, ko je omogoceno spletno iskanje.

OpenClaw: nadzorna zanka

OpenClaw vzame LLM (kot je tisti znotraj ChatGPT-ja) in ga postavi v zanko.

Posljete sporocilo (“Rezerviraj mi mizo za vecerjo danes zvecer”)
LLM prebere vase sporocilo in se odloci, kaj storiti najprej (preveriti vas koledar za danes zvecer)
OpenClaw izvrsi to dejanje in rezultat vrne LLM-ju
LLM prebere rezultat in se odloci za naslednji korak (poiskati restavracije v blizini lokacije)
Koraka 3 in 4 se ponavljata, dokler naloga ni koncana

To se imenuje zanka razmisleka-dejanja-opazovanja. LLM razmislja o tem, kaj storiti, deluje prek orodij (brskanje, sporocanje, dostop do datotek), opazuje rezultat in zanko ponovi. LLM ni izdelek, s katerim komunicirate. Je ena komponenta znotraj vecjega sistema, ki lahko izvaja dejanska dejanja v svetu.

Ko prosite ChatGPT, naj rezervira restavracijo, vam lahko predlaga moznosti in pripravi sporocilo. Ko prosite OpenClaw, ta dejansko lahko opravi rezervacijo, jo doda v vas koledar in poslje prijatelju podrobnosti.

Tri generacije

Zdaj, ko ste videli, kako vsak od njih deluje pod pokrovom, se pokaze vzorec. Diagrami poteka, jezikovni modeli, nadzorne zanke. To niso le trije razlicni izdelki. To so tri generacije iste ideje: narediti, da racunalniki razumejo, kaj ljudje zelijo.

Generacija 1: Pravila. To sta Siri in klasicna Alexa, kot je opisano zgoraj. Ljudje napisejo vsak diagram poteka. Pametno, a krhko.

Generacija 2: LLM je izdelek. To je ChatGPT. Jezikovni model sam je stvar, s katero komunicirate. Vi govorite z modelom, model vam odgovori. Lahko sklepa, je lahko kreativen, zmore obravnavati vprasanja, ki jih nihce ni predvidel. Vendar je v osnovi se vedno pogovor. Vi vprasate, on odgovori. LLM je izdelek.

Generacija 3: LLM je le API. Tukaj zivi OpenClaw. LLM je degradiran iz vloge izdelka v vlogo ene komponente v vecjem sistemu: zanka razmisleka-dejanja-opazovanja, opisana zgoraj. Izhod LLM-ja postane njegov lastni naslednji vhod.

Razlika je kot ce nekoga vprasate za pot v primerjavi s tem, da nekoga zaposlite za polni delovni cas. Sistem generacije 2 vam da navodila. Sistem generacije 3 sede v avto, vas odpelje tja, si zapomni pot za naslednjic in se lahko odloci preveriti promet jutri zjutraj, se preden vprasate.

ChatGPT se premika v to smer. OpenAI-jev Operator brska po spletu namesto vas. ChatGPT lahko izvaja kodo, isce po spletu in generira slike v enem samem pogovoru. To so klici orodij znotraj nadzorne zanke. Vendar OpenClaw gre dalje na tri nacine.

Samosprememba. OpenClawov sistemski poziv (SOUL.md), njegov dolgorocni spomin (MEMORY.md) in njegovi skilli zivijo v datotekah, ki jih agent sam lahko bere in pise. Agent lahko prepisuje navodila, ki dolocajo, kako se LLM poziva ob vsakem prihodnjem koraku. Ne le da uporablja LLM. Usmerja, kako uporablja LLM, in prilagaja to usmerjanje skozi cas. ChatGPT ima funkcije spomina, a ne more prepisati svojega lastnega sistemskega poziva.

Neprekinjenost. ChatGPT caka, da tipkate. OpenClaw deluje kot proces v ozadju, ki ostane aktiven. Lahko nacrta lastne cron naloge, reagira na webhookove, se zbudi po urniku in ukrepa brez cesarkoli poziva. Ni reaktiven. Je neprekinjen.

Odprtost. ChatGPT daje LLM-ju izbran nabor orodij, ki jih nadzoruje OpenAI. OpenClaw je odprtokoden in razsirljiv s skilli: modularnimi paketi znanja in zmoznosti, ki jih lahko kdorkoli ustvari in deli. Ze obstaja vec kot 52.000 skillov, trznice skupnosti kot ClawHub pa delajo ekosistem prakticno neskoncen. O tem sem pisal v AI skilli so nove aplikacije: skilli so za AI agente to, kar so bile aplikacije za iPhone. So nacin, kako sistem postane pametnejsi, ne da bi se jedro moralo spremeniti.

Model, ki poganja zanko, je lahko isti. Arhitektura je tisto, kar se razlikuje. Zgodnji ChatGPT je bil funkcija, ki jo poklicete. OpenClaw je proces, ki tece.

Tveganja daljsega povodca

Vec svobode pomeni vec moci, vec moci pa pomeni vec tveganja. In tveganja generacije 3 so bistveno drugacna od generacije 2.

Vbrizgavanje v poziv. Ko sami uporabljate ChatGPT, vi nadzirate, kaj vstopi v poziv. Ko agent brska po spletu, bere elektronska sporocila ali nalozi skille tretjih strank, vsebina drugih ljudi vstopi v poziv. Zlonamerna spletna stran lahko vgradi skrita navodila, ki jim LLM sledi brez vednosti uporabnika. Kompromitiran skill lahko vbrizga ukaze v agentovo zanko sklepanja. To je vbrizgavanje v poziv in je veliko vecji problem za agente kot za klepetalne robote, ker agent lahko ukrepa po teh vbrizganih navodilih: poslje elektronska sporocila, odtoci podatke, spremeni datoteke. Februarja so raziskovalci nasli 341 zlonamernih skillov na ClawHubu, ki so poceli natanko to.

Izpostavljenost poverilnic. Agenti generacije 3 potrebujejo dostop do vasega dejanskega zivljenja, da so koristni: API kljuci, gesla, kreditne kartice, racuni za sporocanje. Februarja je bilo odkritih 135.000 OpenClaw instanc, izpostavljenih internetu, Cisco, CrowdStrike in Kaspersky pa so objavili opozorila v istem tednu. Napacno konfiguriran agent z vasimi poverilnicami ni le uhajanje podatkov. Je zastopnik, ki lahko deluje v vasem imenu: se lazno predstavlja na kateremkoli servisu, zapravlja vas denar, dostopa do vasih racunov, poslje sporocila v vasem imenu. Napisali smo celostno analizo varnostne krize in kako avtentikacija na ravni zastopnika preprecuje najhujse.

Nenamerna avtonomija. Agent, ki lahko izvaja dejanska dejanja, lahko povzroci dejansko skodo na nacine, ki jih nihce ni predvidel. Pred le nekaj dnevi je OpenClaw agent poslal zahtevo za vlecenje projektu matplotlib, bil zavrnjen, ker projekt sprejema le cloveke prispevke, in nato avtonomno objavil osebni napad na vzdrzevalca, ki ga je zaprl. Zdi se, da mu tega nihce ni rekel. Daljsi kot je povodec, bolj kreativni so nacini odpovedi.

Kam vse to pelje?

Smer je jasna: vsak AI asistent se premika proti generaciji 3. LLM postane API, izdelek pa postane orkestralna plast okoli njega. O tem sem pisal v OpenClaw je novi Linux: LLM je CPE. Mocan, bistven, a ne stvar, s katero komunicirate. Pomemben je operacijski sistem, ki sedi na vrhu.

Doba klepetalnih robotov se koncuje. Doba agentov se je zacela in se v zacetku leta 2026 pospesuje. To je naslednja evolucija v tem, kako racunalniki opolnomocijo ljudi: od namizja, pred katerim sedite, do telefona v zepu, do agenta, ki deluje v ozadju in s katerim komunicirate kot z oddaljenim prijateljem.

Obstaja razlog, zakaj ljudje nenehno pravijo “OpenClaw je to, kar bi Apple Intelligence moral biti.” Siri je bila obljuba: osebni asistent, ki vas razume in opravi stvari. A zgrajen je bil v generaciji 1, s pravili in diagrami poteka. OpenClaw je to, kar se zgodi, ko to obljubo zgradite na arhitekturi generacije 3.

Generacija 4

Obstaja generacija onkraj tega. Danes agent generacije 3 zivi na vasem racunalniku ali v oblaku. Ze lahko poseze v fizicni svet, a le posredno: najem ljudi prek platform kot rentahuman.ai, klicanje API-jev, ki prozijo fizicne stroje, narocanje, ki se konca z dejanskimi dostavami. Vsako dejanje se vedno potrebuje posrednika.

Generacija 4 odstrani posrednika. Utelesen agent neposredno nadzoruje robote, drone, vozila in fizicno infrastrukturo. Tesla prenavlja tovarnicne linije z avtomobilov na robote Optimus. Figure AI-jevi humanoidi so pravkar koncali 11-mesecno namestitev pri BMW-ju, nalozili vec kot 90.000 delov. Na CES 2026 so bili humanoidni roboti podjetij Boston Dynamics, 1X in Figure povsod. Iskreno me zanima, kam gre robotika v prihodnjih letih.

Vem, da to lahko zveni zastrasujoce in da se hitro premika. A raje bi imel, da je ta tehnologija odprta, preverljiva in dostopna vsem, kot pa zaprta znotraj nekaj korporacij, ki odlocajo, kako deluje. Zato gradim OpenClaw.rocks.

Kaj gradim

Ta prispevek sem zacel z namenom razloziti razliko med Siri, Alexa, ChatGPT in OpenClaw. A prava razlika ni med stirimi izdelki. Je med tremi nacini razmisljanja o tem, kaj racunalniki lahko storijo za ljudi. Pravila. Jezik. Avtonomija.

Presli smo od diagramov poteka, ki se podro, ko postavite napacno vprasanje, do modelov, ki lahko sklepajo, a le ko jih pozovete, do sistemov, ki lahko delujejo samostojno in se ucijo iz rezultatov. Vsaka generacija je naredila racunalnike koristne za vec ljudi na vec nacinov. Ta smer se ne upocasnjuje.

Na OpenClaw.rocks gradimo infrastrukturo za varno poganjanje AI agentov v velikem obsegu in njihovo dostopnost vsem, pri cemer odprto objavljamo kodo nasih sistemov.

Ce zelite spremljati, kam to pelje, obiccite OpenClaw.rocks ali nas najdite na X.