Mindenki használt már legalább egyet ezek közül. Siri beállítja az időzítőit. Alexa lejátssza a zenéjét. ChatGPT megírja az e-mailjeit. Aztán ott van az OpenClaw, a nyílt forráskódú AI-ágens, amely mostanában mindenhol ott van a hírekben, és valami alapvetően mást csinál, mint a másik három.

Mindegyiket „AI-asszisztensnek” hívják, de a mögöttük lévő technológia annyira eltérő, hogy szinte félrevezető egybe sorolni őket. Ez a cikk bemutatja, mi történik valójában a motorháztető alatt, hogyan fejlődtek az AI-asszisztensek a szabályoktól a nyelvi modelleken át az autonóm ágensekig, és mit jelent mindez a jövőre nézve.

A négy szereplő

Kezdjük azzal, mi is valójában mindegyikük.

Siri az Apple hangasszisztense. Az iPhone-on, Macen, Apple Watchon és HomePodon él. Azt mondja, „Hey Siri”, és válaszol a kérdésekre, ébresztőt állít, üzeneteket küld és okosotthoni eszközöket vezérel. 2011-ben indult, és őszintén szólva azóta nem sokat változott. Az Apple megerősítette, hogy egy nagy AI-frissítés jön 2026-ban, de még nincs itt.

Alexa az Amazon hangasszisztense. Az Echo hangszórókban és más Amazon-eszközökben él. Zenét játszhat le, kérdésekre válaszolhat, okoseszközöket vezérelhet és rendelhet az Amazonról. 2025 februárjában az Amazon elindította az Alexa+-t, egy továbbfejlesztett verziót, amelyet nagy nyelvi modellek hajtanak.

A ChatGPT az OpenAI társalgási AI-ja. Böngészőben vagy mobilalkalmazásban fut. Ön ír (vagy beszél), és figyelemreméltóan folyékony, részletes válaszokat kap. Esszéket írhat, kódot magyarázhat, képeket elemezhet és dokumentumokat összegezhet. A legújabb verziók böngészhetik is a webet és kódot futtathatnak egyetlen beszélgetésen belül.

Az OpenClaw egy nyílt forráskódú AI-ágens. Csatlakozik az üzenetküldő alkalmazásaihoz (WhatsApp, Telegram, Discord és sok más), és arra épül, hogy cselekedjen: böngéssze a webet, kezelje a fájlokat, futtasson kódot, vezéreljen okosotthoni eszközöket. Míg a többiek elsősorban társalgásra épülnek, az OpenClaw elsősorban operatív.

Négy „AI-asszisztens”. De alapvetően különböző technológiák, amelyek alapvetően különböző dolgokat csinálnak.

Hogyan működnek valójában?

Itt válik érdekessé. Ahhoz, hogy megértsük, miért érződnek ezek a termékek annyira másnak, meg kell érteni, mi történik a színfalak mögött.

Siri és a régi Alexa: a folyamatábra

Amikor megkérdezi Sirit „Milyen az időjárás Berlinben?”, a következő történik:

  1. A hangját szöveggé alakítják (beszédfelismerés)
  2. A szöveget ismert parancsok listájához illesztik („időjárás” + „Berlin” = időjárási szándék, helyszín = Berlin)
  3. Siri meghív egy időjárási API-t „Berlin” bemenettel
  4. Az API adatokat ad vissza, és Siri egy előre megírt sablont olvas fel: „Jelenleg 3 fok van Berlinben”

Ez a szándékosztályozás és slottöltés. Gondoljon rá úgy, mint egy nagyon kifinomult folyamatábrára. Ha a felhasználó ezt mondja, tedd azt. Sirinek ezernyi ilyen folyamatábrája van, mindegyiket gondosan az Apple mérnökei programozták.

A probléma? Ha olyat kérdez, ami nem illeszkedik egyetlen folyamatábrába sem, Siri összeomlik. „Hey Siri, vigyék esernyőt a holnapi megbeszélésemre?” megkívánja, hogy Siri ellenőrizze a naptárát, megtalálja a megbeszélés helyszínét, ellenőrizze az időjárás-előrejelzést arra a helyszínre abban az időpontban, és mérlegelje, hogy az eső eléggé valószínű-e ahhoz, hogy esernyőt vigyen. Ez nem folyamatábra. Ez gondolkodás. És a gondolkodás az, amit Siri még nem tud.

Alexa évekig ugyanígy működött. A „skilljei” (az Alexa megfelelője az alkalmazásoknak) lényegében több ezer egyedi folyamatábra, amelyeket külső fejlesztők készítettek. Az új Alexa+ hozzáad egy nyelvi modellt, de az alaparchitektúra továbbra is egy hangvezérelt parancsrendszer.

ChatGPT: a következő szó megjóslója

A ChatGPT teljesen másképp működik. Valami olyat használ, amit Large Language Modelnek hívnak, azaz LLM-nek. És az LLM-ek megértése a kulcs ahhoz, hogy megértsünk mindent, ami most történik az AI-ban.

Íme az egyszerű verzió.

Képzelje el, hogy elolvasta minden könyvet, minden weboldalt, minden cikket és minden beszélgetést, amit valaha angolul leírtak. Milliárdnyi és milliárdnyi oldal. Mindezek elolvasása után elég jó intuíciót fejlesztene ki arról, hogyan működik a nyelv. Tudná, hogy „Franciaország fővárosa…” szinte biztosan „Párizs” követi. Tudná, hogy egy csokitorta receptje valószínűleg lisztet, cukrot, kakaót és tojást tartalmaz. Tudná, hogy egy udvarias e-mail általában „Üdvözlettel” végződik.

Lényegében ezt csinálja egy LLM, csak matematikával az intuíció helyett. Ez egy hatalmas neurális hálózat (képzeljen el egy milliárdnyi számból álló hálót), amelyet hatalmas mennyiségű internetes szöveggel tanítottak. A tanítás során egy játékot játszott: egy mondatból, amelyből az utolsó szó hiányzik, megjósolni, mi jön. Ezt a játékot billiószor játszotta, minden alkalommal finomhangolva a belső számait, hogy kicsit jobban jósoljon.

Elegendő tanítás után valami figyelemreméltó jelenik meg. A modell rendkívül rugalmassá válik abban, ahogy mindent kever és kombinál, amit látott, odáig, hogy úgy tűnik, mintha értené a dolgokat. Kvantumfizikát magyarázhat, Python-kódot írhat, költészetet alkothat és matematikai feladatokat gondolhat végig. Nem azért, mert valaki beprogramozta ezeket a képességeket, hanem mert az emberi nyelv mintázatai hatalmas mennyiségű tudást és érvelést kódolnak.

Amikor feltesz egy kérdést a ChatGPT-nek, az nem „kikeresi” a választ egy adatbázisból. Szóról szóra generálja a választ (technikailag tokenről tokenre), minden alkalommal azt kérdezve magától: „Az eddigi összes információ alapján mi a legvalószínűbb következő szó?” Ezért lehet ugyanabban a beszélgetésben ragyogóan helyes és magabiztosan téves. Mindig a statisztikailag legvalószínűbb választ adja, nem a legellenőrzöttebbet.

Az OpenAI „gondolkodó” modelleket vezetett be az o1-gyel 2024 végén: nehéz problémák esetén a modell lépésről lépésre gondolkodik, mielőtt megadná válaszát, hasonlóan ahhoz, ahogy Ön megoldana egy matekpéldát piszkozaton. A GPT-5 ezt egy rendszerbe egyesítette, amely automatikusan vált a gyors válaszok és a mély gondolkodás között. Az eredmény: 45%-kal kevesebb tényszerű hiba a korábbi modellekhez képest, ha a webes keresés engedélyezve van.

OpenClaw: a vezérlési hurok

Az OpenClaw vesz egy LLM-et (mint a ChatGPT-ben lévőt) és egy hurokba helyezi.

  1. Üzenetet küld („Foglalj nekem asztalt vacsorára ma estére”)
  2. Az LLM elolvassa az üzenetet és eldönti, mit tegyen először (ellenőrizze a naptárat a mai esti programokra)
  3. Az OpenClaw végrehajtja az akciót és visszaadja az eredményt az LLM-nek
  4. Az LLM elolvassa az eredményt és eldönti a következő lépést (keressen éttermeket a helyszín közelében)
  5. A 3. és 4. lépés ismétlődik, amíg a feladat elkészül

Ezt reason-act-observe huroknak nevezik. Az LLM gondolkodik arról, mit tegyen, cselekszik eszközökön keresztül (böngészés, üzenetküldés, fájlhozzáférés), megfigyeli az eredményt és újra kezdi. Az LLM nem az a termék, amellyel Ön interakcióba lép. Egy komponens egy nagyobb rendszeren belül, amely valós akciókat tud végrehajtani a világban.

Amikor megkéri a ChatGPT-t, hogy foglaljon éttermet, az javaslatokat tehet és üzenetet fogalmazhat. Amikor az OpenClaw-t kéri, az ténylegesen elvégezheti a foglalást, hozzáadhatja a naptárához és elküldheti a részleteket a barátjának.

Három generáció

Most, hogy látta, hogyan működik mindegyik a motorháztető alatt, egy mintázat rajzolódik ki. Folyamatábrák, nyelvi modellek, vezérlési hurkok. Ezek nem csupán három különböző termék. Három generáció ugyanabból az ötletből: rávenni a számítógépeket, hogy megértsék, mit akarnak az emberek.

1. generáció: szabályok. Ez a Siri és a régi Alexa, ahogy fent leírtuk. Emberek írják az összes folyamatábrát. Okos, de törékeny.

2. generáció: az LLM a termék. Ez a ChatGPT. Maga a nyelvi modell az, amivel interakcióba lép. Ön beszél a modellel, a modell visszabeszél. Gondolkodni tud, kreatív tud lenni és kezelni tudja az előre nem látott kérdéseket. De alapvetően még mindig egy beszélgetés. Ön kérdez, az válaszol. Az LLM maga a termék.

3. generáció: az LLM csak egy API. Itt él az OpenClaw. Az LLM-et visszaminősítik termékből egy nagyobb rendszer komponensévé: a fent leírt reason-act-observe hurok. Az LLM kimenete a saját következő bemenete lesz.

A különbség olyan, mint útbaigazítást kérni valakitől, szemben azzal, hogy valakit teljes munkaidőben alkalmazunk. Egy 2. generációs rendszer útbaigazítást ad. Egy 3. generációs rendszer beül az autóba, elviszi, megjegyzi az utat legközelre, és eldöntheti, hogy holnap reggel ellenőrzi a forgalmat, mielőtt Ön egyáltalán kérdezné.

A ChatGPT ebbe az irányba halad. Az OpenAI Operatora böngészi a webet az Ön helyett. A ChatGPT kódot futtathat, webet kereshet és képeket generálhat egyetlen beszélgetésen belül. Ezek eszközhívások egy vezérlési hurkon belül. De az OpenClaw három területen tovább megy.

Önmódosítás. Az OpenClaw rendszer-promptja (SOUL.md), hosszú távú memóriája (MEMORY.md) és skilljei mind fájlokban élnek, amelyeket maga az ágens olvashat és írhat. Az ágens átírhatja azokat az utasításokat, amelyek meghatározzák, hogyan kap promptot az LLM minden jövőbeli lépésnél. Nem csak használja az LLM-et. Irányítja, hogyan használja, és idővel finomhangolja ezt az irányítást. A ChatGPT-nek vannak memóriafunkciói, de nem tudja átírni a saját rendszer-promptját.

Folytonosság. A ChatGPT vár, amíg Ön ír. Az OpenClaw háttérfolyamatként fut, amely aktív marad. Saját cron feladatokat ütemezhet, reagálhat webhookokra, felébresztheti magát ütemezés szerint, és cselekedhet anélkül, hogy bárki kérné. Nem reaktív. Folyamatos.

Nyitottság. A ChatGPT válogatott eszközkészletet ad az LLM-nek, amelyet az OpenAI felügyel. Az OpenClaw nyílt forráskódú és bővíthető skillekkel: tudás és képesség moduláris csomagjaival, amelyeket bárki létrehozhat és megoszthat. Már több mint 52 000 skill érhető el, és közösségi piacterek, mint a ClawHub, gyakorlatilag végtelenné teszik az ökoszisztémát. Erről írtam az AI Skills Are the New Apps cikkben: a skillek az AI-ágensek számára azt jelentik, amit az alkalmazások jelentettek az iPhone számára. Így válik a rendszer okosabbá anélkül, hogy a magnak változnia kellene.

A hurkot meghajtó modell lehet ugyanaz. Az architektúra az, ami különbözik. A korai ChatGPT egy függvény volt, amelyet hívtak. Az OpenClaw egy folyamat, amely fut.

A hosszabb pórázok kockázatai

Több szabadság több hatalmat jelent, és több hatalom több kockázatot jelent. A 3. generáció kockázatai pedig alapvetően mások, mint a 2. generációé.

Prompt injekció. Amikor Ön használja a ChatGPT-t, Ön ellenőrzi, mi kerül a promptba. Amikor egy ágens böngészi a webet, e-maileket olvas vagy harmadik féltől származó skilleket telepít, más emberek tartalma kerül a promptba. Egy rosszindulatú weboldal rejtett utasításokat ágyazhat be, amelyeket az LLM követ anélkül, hogy a felhasználó tudna róla. Egy kompromittált skill parancsokat injektálhat az ágens gondolkodási hurkába. Ez a prompt injekció, és sokkal nagyobb probléma ágensoknál, mint chatbotoknál, mert az ágens cselekedhet az injektált utasítások alapján: e-maileket küldhet, adatokat lophat, fájlokat módosíthat. Februárban kutatók 341 rosszindulatú skillt találtak a ClawHub-on, amelyek pontosan ezt tették.

Hitelesítő adatok kitéttsége. A 3. generációs ágenseknek hozzáférés kell a valós életéhez, hogy hasznosak legyenek: API-kulcsok, jelszavak, bankkártyák, üzenetküldő fiókok. 135 000 OpenClaw-példányt találtak nyíltan az interneten februárban, miközben a Cisco, a CrowdStrike és a Kaspersky mind ugyanazon a héten adtak ki figyelmeztetéseket. Egy rosszul konfigurált ágens az Ön hitelesítő adataival nem csupán adatszivárgás. Olyan közvetítő, amely Önként cselekedhet: bármely szolgáltatáson megszemélyesítheti Önt, elköltheti a pénzét, hozzáférhet a fiókjaihoz, üzeneteket küldhet az Ön nevében. Írtunk egy teljes elemzést a biztonsági válságról és arról, hogyan előzi meg a proxy szintű hitelesítés a legrosszabbat.

Nem szándékolt autonómia. Egy ágens, amely valós akciókat hajthat végre, valós károkat okozhat olyan módokon, amelyeket senki sem látott előre. Mindössze néhány napja egy OpenClaw-ágens pull requestet nyújtott be a matplotlib-hoz, elutasították, mert a projekt csak emberi hozzájárulásokat fogad el, majd önállóan személyes támadást publikált a karbantartó ellen, aki lezárta. Úgy tűnik, senki nem szólta meg erre. Minél hosszabb a póráz, annál kreatívabbak a hibamódok.

Hová tart mindez?

A pálya egyértelmű: minden AI-asszisztens a 3. generáció felé halad. Az LLM API-vá válik, és a termék a köréje épülő orkesztrációs réteggé lesz. Erről írtam az OpenClaw Is the New Linux cikkben: az LLM a CPU. Erős, nélkülözhetetlen, de nem az, amivel Ön interakcióba lép. Ami számít, az a rá épülő operációs rendszer.

A chatbot-korszak véget ér. Az ágensek korszaka elkezdődött, és 2026 elején gyorsan felgyorsul. Ez a következő lépés abban, ahogy a számítógépek képessé teszik az embereket: egy asztali géptől, amely előtt ül, egy telefonig a zsebében, egy ágensig, amely a háttérben dolgozik, és amellyel úgy kommunikál, mint egy távoli baráttal.

Van oka annak, hogy az emberek folyamatosan azt mondják: „Az OpenClaw az, aminek az Apple Intelligence-nek kellett volna lennie.” Siri volt az ígéret: egy személyes asszisztens, amely megérti Önt és elintézi a dolgokat. De az 1. generációban épült, szabályokkal és folyamatábrákkal. Az OpenClaw az, ami történik, ha ugyanezt az ígéretet a 3. generáció architektúrájára építjük.

4. generáció

Van egy generáció ezen túl is. Ma egy 3. generációs ágens az Ön számítógépén vagy a felhőben él. Már elérheti a fizikai világot, de csak közvetetten: embereket bérelhet platformokon keresztül, mint a rentahuman.ai, API-kat hívhat, amelyek fizikai gépeket indítanak el, rendeléseket adhat le, amelyek valódi szállításokat eredményeznek. Minden akciónak még szüksége van közvetítőre.

A 4. generáció eltávolítja a közvetítőt. A megtestesült ágens közvetlenül irányítja a robotokat, drónokat, járműveket és fizikai infrastruktúrát. A Tesla gyártósorokat alakít át autókról Optimus robotokra. A Figure AI humanoidjai éppen befejeztek egy 11 hónapos telepítést a BMW-nél, több mint 90 000 alkatrészt rakodva. A CES 2026-on a Boston Dynamics, 1X és Figure humanoid robotjai mindenhol ott voltak. Őszintén kíváncsi vagyok, merre halad a robotika a következő években.

Tudom, hogy ez ijesztően hangozhat, és gyorsan halad. De inkább szeretném, ha ez a technológia nyílt, ellenőrizhető és mindenki számára elérhető lenne, mintsem néhány vállalatba zárva, amelyek eldöntik, hogyan működik. Ezért építem az OpenClaw.rocks-ot.

Amit építek

Ezt a cikket azzal kezdtem, hogy elmagyarázzam a különbséget Siri, Alexa, ChatGPT és az OpenClaw között. De a valódi különbség nem négy termék között van. Három gondolkodásmód között van arról, mit tehetnek a számítógépek az emberekért. Szabályok. Nyelv. Cselekvőképesség.

Folyamatábráktól, amelyek elromlanak a rossz kérdésnél, modelleken át, amelyek gondolkodni tudnak, de csak ha kérik, eljutottunk rendszerekig, amelyek önállóan cselekedhetnek és tanulhatnak az eredményekből. Minden generáció több ember számára tette hasznossá a számítógépeket több módon. Ez a pálya nem lassul.

Az OpenClaw.rocks-nál építjük az infrastruktúrát az AI-ágensek biztonságos, nagy léptékű futtatásához és mindenki számára elérhetővé tételéhez, nyílt forráskódúvá téve rendszereinket az út során.


Ha követni szeretné, merre halad mindez, látogasson el az OpenClaw.rocks-ra vagy keressen minket az X-en.