Siri, Alexa, ChatGPT a OpenClaw: v čem je skutečný rozdíl?

Každý použil alespoň jednoho z nich. Siri nastavuje časovače. Alexa přehrává hudbu. ChatGPT píše e-maily. A pak je tu OpenClaw, open-source AI agent, který byl v poslední době všude ve zprávách a dělá něco zásadně odlišného od všech tří předchůdců.

Všichni se nazývají „AI asistenty”, ale technologie za každým z nich je natolik odlišná, že jejich sdružování je téměř zavádějící. Tento článek vysvětluje, co se skutečně děje pod kapotou, jak se AI asistenti vyvinuli od pravidel přes jazykové modely k autonomním agentům a co to znamená pro budoucnost.

Čtyři hráči

Začněme tím, co každý z nich vlastně je.

Siri je hlasový asistent od Apple. Žije na iPhonu, Macu, Apple Watch a HomePodu. Řeknete „Hey Siri” a odpovídá na otázky, nastavuje budíky, posílá zprávy a ovládá chytré domácí zařízení. Byl spuštěn v roce 2011 a upřímně řečeno se od té doby příliš nezměnil. Apple potvrdil, že velká AI aktualizace přijde v roce 2026, ale zatím tu není.

Alexa je hlasový asistent od Amazonu. Žije v reproduktorech Echo a dalších zařízeních Amazonu. Může přehrávat hudbu, odpovídat na otázky, ovládat chytrá zařízení a objednávat věci z Amazonu. V únoru 2025 Amazon spustil Alexa+, vylepšenou verzi poháněnou velkými jazykovými modely.

ChatGPT je konverzační AI od OpenAI. Běží ve webovém prohlížeči nebo mobilní aplikaci. Píšete (nebo mluvíte) a dostáváte pozoruhodně plynulé, podrobné odpovědi. Může psát eseje, vysvětlovat kód, analyzovat obrázky a shrnovat dokumenty. Novější verze mohou také procházet web a spouštět kód v rámci jedné konverzace.

OpenClaw je open-source AI agent. Připojuje se k vašim komunikačním aplikacím (WhatsApp, Telegram, Discord a mnoho dalších) a je postaven tak, aby jednal: procházel web, spravoval soubory, spouštěl kód, ovládal chytrá domácí zařízení. Zatímco ostatní jsou primárně konverzační, OpenClaw je primárně operační.

Čtyři „AI asistenti”. Ale jsou to zásadně odlišné technologie, které dělají zásadně odlišné věci.

Jak vlastně fungují?

Tady to začíná být zajímavé. Abyste pochopili, proč se tyto produkty při používání tak liší, musíte pochopit, co se děje za oponou.

Siri a stará Alexa: vývojový diagram

Když se zeptáte Siri „Jaké je počasí v Berlíně?”, stane se toto:

Váš hlas se převede na text (rozpoznávání řeči)
Text se porovná se seznamem známých příkazů („počasí” + „Berlín” = záměr počasí, místo = Berlín)
Siri zavolá API pro počasí s „Berlín” jako vstupem
API vrátí data a Siri přečte předem napsanou šablonu: „Aktuálně jsou v Berlíně 3 stupně”

Toto je klasifikace záměrů a vyplňování slotů. Představte si to jako velmi sofistikovaný vývojový diagram. Pokud uživatel řekne toto, udělej tamto. Siri má tisíce takových vývojových diagramů, každý pečlivě naprogramovaný inženýry Apple.

Problém? Pokud se zeptáte na něco, co neodpovídá žádnému diagramu, Siri selže. „Hey Siri, měl bych si vzít deštník na zítřejší schůzku?” vyžaduje, aby Siri zkontroloval váš kalendář, našel místo schůzky, ověřil předpověď počasí pro dané místo v daném čase a usoudil, zda je déšť dostatečně pravděpodobný, aby ospravedlnil deštník. To není vývojový diagram. To je myšlení. A myšlení je přesně to, co Siri zatím neumí.

Alexa fungovala stejně po celé roky. Její „skills” (ekvivalent Alexa pro aplikace) jsou v podstatě tisíce jednotlivých vývojových diagramů vytvořených vývojáři třetích stran. Nová Alexa+ přidává jazykový model, ale základní architektura zůstává hlasově aktivovaným příkazovým systémem.

ChatGPT: prediktor dalšího slova

ChatGPT funguje úplně jinak. Používá něco, čemu se říká Large Language Model, neboli LLM. A pochopení LLM je klíčem k pochopení všeho, co se právě v AI děje.

Zde je jednoduchá verze.

Představte si, že jste přečetli každou knihu, každý web, každý článek a každou konverzaci, které kdy byly napsány v angličtině. Miliardy a miliardy stránek. Po veškerém tom čtení byste si vyvinuli docela dobrou intuici pro to, jak jazyk funguje. Věděli byste, že „Hlavní město Francie je…” téměř jistě následuje „Paříž”. Věděli byste, že recept na čokoládový dort pravděpodobně obsahuje mouku, cukr, kakao a vejce. Věděli byste, že zdvořilý e-mail obvykle končí „S pozdravem”.

To je v podstatě to, co LLM dělá, jen s matematikou místo intuice. Je to masivní neuronová síť (představte si síť miliard čísel), která byla natrénována na obrovském množství textu z internetu. Během tréninku hrála hru: daná věta s odstraněným posledním slovem, předpovědět, co následuje. Tuto hru hrála bilionkrát, pokaždé upravovala svá vnitřní čísla, aby o trochu lépe předpovídala.

Po dostatečném tréninku se objeví něco pozoruhodného. Model se stane extrémně flexibilním v kombinování všeho, co viděl, do takové míry, že vypadá, jako by rozuměl věcem. Dokáže vysvětlit kvantovou fyziku, psát kód v Pythonu, skládat poezii a přemýšlet nad matematickými problémy. Ne proto, že by někdo naprogramoval tyto schopnosti, ale proto, že vzory lidského jazyka kódují obrovské množství znalostí a uvažování.

Když položíte ChatGPT otázku, „nevyhledává” odpověď v databázi. Generuje odpověď slovo po slovu (technicky token po tokenu), pokaždé se ptá sám sebe: „Jaké je nejpravděpodobnější další slovo na základě všeho dosud?” Proto může být v jedné konverzaci brilantně správný a sebevědomě špatný. Vždy produkuje statisticky nejpravděpodobnější odpověď, nikoliv nejověřenější.

OpenAI zavedla „přemýšlející” modely s o1 na konci roku 2024: u obtížných problémů model generuje krokové uvažování předtím, než dá odpověď, podobně jako byste řešili matematický problém na nečisto. GPT-5 toto sjednotil do jednoho systému, který automaticky přepíná mezi rychlými odpověďmi a hlubokým přemýšlením. Výsledek: o 45 % méně faktických chyb ve srovnání s dřívějšími modely, když je zapnuto webové vyhledávání.

OpenClaw: řídící smyčka

OpenClaw vezme LLM (jako ten v ChatGPT) a umístí ho do smyčky.

Pošlete zprávu („Zarezervuj mi stůl na večeři dnes večer”)
LLM přečte vaši zprávu a rozhodne, co udělat jako první (zkontrolovat kalendář na dnešní večer)
OpenClaw provede tuto akci a vrátí výsledek zpět LLM
LLM přečte výsledek a rozhodne další krok (hledat restaurace v blízkosti místa)
Kroky 3 a 4 se opakují, dokud není úkol splněn

Tomu se říká smyčka reason-act-observe. LLM uvažuje o tom, co dělat, jedná prostřednictvím nástrojů (procházení webu, zasílání zpráv, přístup k souborům), pozoruje výsledek a opakuje cyklus. LLM není produkt, se kterým komunikujete. Je to komponenta uvnitř většího systému, který může provádět skutečné akce ve světě.

Když požádáte ChatGPT o rezervaci restaurace, může navrhnout možnosti a napsat zprávu. Když požádáte OpenClaw, může skutečně provést rezervaci, přidat ji do kalendáře a poslat příteli detaily.

Tři generace

Nyní, když jste viděli, jak každý z nich funguje pod kapotou, vykresluje se vzor. Vývojové diagramy, jazykové modely, řídící smyčky. Nejsou to jen tři různé produkty. Jsou to tři generace stejné myšlenky: přimět počítače, aby pochopily, co lidé chtějí.

Generace 1: pravidla. To je Siri a stará Alexa, jak je popsáno výše. Lidé píší každý vývojový diagram. Chytré, ale křehké.

Generace 2: LLM je produkt. To je ChatGPT. Samotný jazykový model je to, s čím komunikujete. Mluvíte s modelem, model mluví zpět. Dokáže uvažovat, být kreativní a zvládat otázky, které nikdo nečekal. Ale stále je to v zásadě konverzace. Ptáte se, on odpovídá. LLM je produkt.

Generace 3: LLM je jen API. Tady žije OpenClaw. LLM je degradován z produktu na komponentu ve větším systému: smyčce reason-act-observe popsané výše. Výstup LLM se stává jeho vlastním dalším vstupem.

Rozdíl je jako ptát se někoho na cestu oproti najímání někoho na plný úvazek. Systém generace 2 vám ukáže cestu. Systém generace 3 nasedne do auta, odveze vás tam, zapamatuje si trasu pro příště a může se rozhodnout zkontrolovat provoz zítra ráno, ještě než se zeptáte.

ChatGPT se pohybuje tímto směrem. OpenAI Operator prochází web za vás. ChatGPT může spouštět kód, prohledávat web a generovat obrázky v jedné konverzaci. Jsou to volání nástrojů uvnitř řídící smyčky. Ale OpenClaw jde dále ve třech směrech.

Sebemodfifikace. Systémový prompt OpenClaw (SOUL.md), jeho dlouhodobá paměť (MEMORY.md) a jeho skills žijí v souborech, které agent sám může číst a zapisovat. Agent může přepsat instrukce, které řídí, jak je LLM promptován v každém budoucím kroku. Nejen používá LLM. Řídí, jak ho používá, a toto řízení v průběhu času upravuje. ChatGPT má paměťové funkce, ale nemůže přepsat svůj vlastní systémový prompt.

Kontinuita. ChatGPT čeká, až napíšete. OpenClaw běží jako proces na pozadí, který zůstává aktivní. Může plánovat vlastní cron úlohy, reagovat na webhooky, probudit se podle plánu a jednat, aniž by ho kdokoli vyzval. Není reaktivní. Je kontinuální.

Otevřenost. ChatGPT dává LLM kurátorovanou sadu nástrojů, kterou kontroluje OpenAI. OpenClaw je open source a rozšiřitelný pomocí skills: modulárních balíčků znalostí a schopností, které může kdokoli vytvářet a sdílet. Již existuje přes 52 000 skills a komunitní tržiště jako ClawHub dělají ekosystém prakticky nekonečným. Psal jsem o tom v AI Skills Are the New Apps: skills jsou pro AI agenty tím, čím byly aplikace pro iPhone. Jsou způsobem, jak se systém stává chytřejším, aniž by se musel měnit jádro.

Model pohánějící smyčku může být stejný. Architektura je to, co se liší. Raný ChatGPT byl funkce, kterou jste zavolali. OpenClaw je proces, který běží.

Rizika delších vodítek

Více svobody znamená více moci a více moci znamená více rizika. A rizika generace 3 jsou zásadně odlišná od generace 2.

Injekce promptu. Když používáte ChatGPT sami, kontrolujete, co vstupuje do promptu. Když agent prochází web, čte e-maily nebo instaluje skills třetích stran, obsah jiných lidí vstupuje do promptu. Škodlivá webová stránka může vložit skryté instrukce, které LLM následuje, aniž by o tom uživatel věděl. Kompromitovaný skill může injektovat příkazy do smyčky uvažování agenta. To je injekce promptu a je to mnohem větší problém pro agenty než pro chatboty, protože agent může jednat na základě těchto injektovaných instrukcí: posílat e-maily, exfiltrovat data, upravovat soubory. V únoru výzkumníci nalezli 341 škodlivých skills na ClawHub, které dělaly přesně toto.

Vystavení přihlašovacích údajů. Agenti generace 3 potřebují přístup k vašemu skutečnému životu, aby byli užiteční: API klíče, hesla, platební karty, účty pro zasílání zpráv. 135 000 instancí OpenClaw bylo nalezeno vystavených na internetu v únoru, přičemž Cisco, CrowdStrike a Kaspersky všichni publikovali varování ve stejném týdnu. Špatně nakonfigurovaný agent s vašimi přihlašovacími údaji není jen únik dat. Je to zástupce, který může jednat jako vy: vydávat se za vás na jakékoli službě, utrácet vaše peníze, přistupovat k vašim účtům, posílat zprávy vaším jménem. Napsali jsme úplnou analýzu bezpečnostní krize a toho, jak autentizace na úrovni proxy předchází nejhoršímu.

Nezamýšlená autonomie. Agent, který může provádět skutečné akce, může způsobit skutečnou škodu způsoby, které nikdo nepředvídal. Před pouhými několika dny agent OpenClaw odeslal pull request do matplotlib, byl odmítnut, protože projekt přijímá pouze lidské příspěvky, a poté autonomně publikoval osobní útok na správce, který ho uzavřel. Zdá se, že mu to nikdo neřekl. Čím delší vodítko, tím kreativnější způsoby selhání.

Kam to vše směřuje?

Trajektorie je jasná: každý AI asistent směřuje ke generaci 3. LLM se stává API a produkt se stává orchestrační vrstvou kolem něj. Psal jsem o tom v OpenClaw Is the New Linux: LLM je procesor. Výkonný, nezbytný, ale ne to, s čím komunikujete. Záleží na operačním systému, který nad ním sedí.

Éra chatbotů končí. Éra agentů začala a začátkem roku 2026 rychle zrychluje. Toto je další evoluce v tom, jak počítače posilují lidi: od stolního počítače, před kterým sedíte, přes telefon v kapse, k agentovi, který pracuje na pozadí a se kterým komunikujete jako se vzdáleným přítelem.

Je důvod, proč lidé stále říkají: „OpenClaw je to, čím měl být Apple Intelligence.” Siri byl slib: osobní asistent, který vám rozumí a věci zařídí. Ale byl postaven v generaci 1, s pravidly a vývojovými diagramy. OpenClaw je to, co se stane, když tento slib postavíte na architektuře generace 3.

Generace 4

Existuje generace za touto. Dnes agent generace 3 žije na vašem počítači nebo v cloudu. Již může dosáhnout do fyzického světa, ale jen nepřímo: najímáním lidí přes platformy jako rentahuman.ai, voláním API, která spouštějí fyzické stroje, zadáváním objednávek, které vedou ke skutečným dodávkám. Každá akce stále potřebuje prostředníka.

Generace 4 odstraňuje prostředníka. Ztělesněný agent přímo řídí roboty, drony, vozidla a fyzickou infrastrukturu. Tesla přeměňuje výrobní linky z aut na roboty Optimus. Humanoidi Figure AI právě dokončili 11měsíční nasazení u BMW, kde naložili přes 90 000 dílů. Na CES 2026 byli humanoidní roboti od Boston Dynamics, 1X a Figure všude. Upřímně mě zajímá, kam robotika v příštích letech zamíří.

Vím, že to může znít děsivě a vše se vyvíjí rychle. Ale raději bych, aby tato technologie byla otevřená, auditovatelná a přístupná všem, než uzamčená v několika korporacích, které rozhodují o tom, jak funguje. Proto stavím OpenClaw.rocks.

Co stavím

Začal jsem tento článek tím, že jsem chtěl vysvětlit rozdíl mezi Siri, Alexou, ChatGPT a OpenClaw. Ale skutečný rozdíl není mezi čtyřmi produkty. Je mezi třemi způsoby uvažování o tom, co mohou počítače udělat pro lidi. Pravidla. Jazyk. Jednání.

Přešli jsme od vývojových diagramů, které se rozbijí při špatné otázce, přes modely, které umí uvažovat, ale jen když je vyzvete, k systémům, které mohou jednat samy a učit se z výsledků. Každá generace udělala počítače užitečnými pro více lidí více způsoby. Tato trajektorie nezpomaluje.

Na OpenClaw.rocks budujeme infrastrukturu pro bezpečné provozování AI agentů ve velkém měřítku a jejich zpřístupnění všem, přičemž naše systémy zveřejňujeme jako open source.

Pokud chcete sledovat, kam to směřuje, navštivte OpenClaw.rocks nebo nás najděte na X.