Siri, Alexa, ChatGPT dhe OpenClaw: Çfarë ndryshon në të vërtetë?

Të gjithë kanë përdorur të paktën njërin prej tyre. Siri vendos kohëmatësit tuaj. Alexa luan muzikën tënde. ChatGPT shkruan emailet e tua. Dhe pastaj ka OpenClaw, agjentin AI me burim të hapur që ka qenë kudo në lajme kohët e fundit, duke bërë diçka thelbësisht të ndryshme nga të tre të tjerët përpara.

Të gjithë quhen “asistentë AI,” por teknologjia pas secilit është aq e ndryshme sa që grupimi i tyre bashkë është pothuajse çorientues. Ky artikull shpjegon se çfarë po ndodh në të vërtetë nën kapak, si evoluan asistentët AI nga rregullat te modelet gjuhësore te agjentët autonomë, dhe çfarë do të thotë kjo për të ardhmen.

Katër lojtarët

Le të fillojmë me atë që secili prej tyre në të vërtetë është.

Siri është asistenti zanor i Apple. Jeton në iPhone, Mac, Apple Watch dhe HomePod tuaj. Ju thoni “Hey Siri” dhe ai përgjigjet pyetjeve, vendos alarme, dërgon mesazhe dhe kontrollon pajisjet e shtëpisë inteligjente. U lançua në 2011 dhe, sinqerisht, nuk ka ndryshuar aq shumë që atëherë. Apple ka konfirmuar se një përmirësim i madh AI po vjen në 2026, por nuk ka ardhur ende.

Alexa është asistenti zanor i Amazon. Jeton në altoparlantët Echo dhe pajisje të tjera Amazon. Mund të luajë muzikë, të përgjigjet pyetjeve, të kontrollojë pajisjet e shtëpisë inteligjente dhe të porosisë gjëra nga Amazon. Në shkurt 2025, Amazon lançoi Alexa+, një version të përmirësuar të mundësuar nga modelet e mëdha gjuhësore.

ChatGPT është AI bisedues i OpenAI. Funksionon në shfletuesin e uebit ose aplikacionin celular. Ju shkruani (ose flisni) dhe ai përgjigjet me përgjigje jashtëzakonisht të rrjedhshme dhe të detajuara. Mund të shkruajë ese, të shpjegojë kod, të analizojë imazhe dhe të përmbledhë dokumente. Versionet e fundit mund gjithashtu të shfletojnë uebin dhe të ekzekutojnë kod brenda një bisede.

OpenClaw është një agjent AI me burim të hapur. Lidhet me aplikacionet tuaja të mesazheve (WhatsApp, Telegram, Discord dhe shumë të tjera) dhe është ndërtuar për të ndërmarrë veprime: shfletim uebi, menaxhim skedarësh, ekzekutim kodi, kontroll pajisjesh inteligjente. Ndërsa të tjerët janë kryesisht bisedues, OpenClaw është kryesisht operacional.

Katër “asistentë AI.” Por janë teknologji thelbësisht të ndryshme që bëjnë gjëra thelbësisht të ndryshme.

Si funksionojnë në të vërtetë?

Këtu bëhet interesante. Për të kuptuar pse këto produkte ndihen aq ndryshe në përdorim, duhet të kuptoni çfarë ndodh prapa perdes.

Siri dhe Alexa e vjetër: diagrama e rrjedhës

Kur pyesni Siri “Si është moti në Berlin?” ndodh kjo:

Zëri juaj konvertohet në tekst (njohja e të folurit)
Teksti përputhet me një listë komandash të njohura (“mot” + “Berlin” = qëllim moti, vendndodhje = Berlin)
Siri thërret një API moti me “Berlin” si hyrje
API kthen të dhëna dhe Siri lexon një shabllon të parashkruar: “Aktualisht janë 3 gradë në Berlin”

Kjo është klasifikimi i qëllimit dhe mbushja e slotit. Mendojeni si një diagramë rrjedhe shumë të sofistikuar. Nëse përdoruesi thotë këtë, bëj atë. Siri ka mijëra diagrama të tilla, secila e programuar me kujdes nga inxhinierët e Apple.

Problemi? Nëse pyesni diçka që nuk përputhet me një diagramë rrjedhe, Siri dështon. “Hey Siri, a duhet të marr çadër në takimin tim nesër?” kërkon që Siri të kontrollojë kalendarin tuaj, të gjejë vendndodhjen e takimit, të kontrollojë parashikimin e motit për atë vendndodhje në atë kohë, dhe të arsyetojë nëse shiu është mjaft i mundshëm për të justifikuar një çadër. Kjo nuk është diagramë rrjedhe. Kjo është mendim. Dhe mendimi është pikërisht ajo që Siri nuk mund të bëjë ende.

Alexa funksionoi njësoj për vite. “Aftësitë” e saj (ekuivalenti Alexa i aplikacioneve) janë në thelb mijëra diagrama individuale rrjedhe të ndërtuara nga zhvillues të palëve të treta. Alexa+ e re shton një model gjuhësor, por arkitektura bazë mbetet një sistem komandash i aktivizuar me zë.

ChatGPT: parashikuesi i fjalës tjetër

ChatGPT funksionon në një mënyrë krejtësisht të ndryshme. Përdor diçka të quajtur Large Language Model, ose LLM. Dhe kuptimi i LLM-ve është çelësi për të kuptuar gjithçka që po ndodh në AI tani.

Ja versioni i thjeshtë.

Imagjinoni se keni lexuar çdo libër, çdo faqe interneti, çdo artikull dhe çdo bisedë që është shkruar ndonjëherë në anglisht. Miliarda e miliarda faqe. Pas gjithë asaj leximi, do të kishit zhvilluar një intuitë mjaft të mirë për mënyrën se si funksionon gjuha. Do të dinit se “Kryeqyteti i Francës është…” pothuajse me siguri pasohet nga “Paris.” Do të dinit se një recetë për tortë çokollate ndoshta përfshin miell, sheqer, kakao dhe vezë. Do të dinit se një email i sjellshëm zakonisht mbaron me “Me respekt” ose “Përshëndetje të përzemërta.”

Kjo është në thelb ajo që bën një LLM, vetëm me matematikë në vend të intuitës. Është një rrjet nervor masiv (mendoni: një rrjet miliardash numrash) që është trajnuar me një sasi të madhe teksti nga interneti. Gjatë trajnimit, luante një lojë: duke pasur një fjali me fjalën e fundit të hequr, parashiko çfarë vjen më pas. E luante këtë lojë triliona herë, duke rregulluar numrat e brendshëm sa herë për t’u bërë pak më i mirë në parashikim.

Pas trajnimit të mjaftueshëm, diçka e jashtëzakonshme shfaqet. Modeli bëhet jashtëzakonisht fleksibël në përzierjen dhe kombinimin e gjithçkaje që ka parë, deri në pikën ku duket se kupton gjërat. Mund të shpjegojë fizikën kuantike, të shkruajë kod Python, të kompozojë poezi dhe të arsyetojë përmes problemeve matematikore. Jo sepse dikush i programoi ato aftësi, por sepse modelet e gjuhës njerëzore kodojnë një sasi të jashtëzakonshme njohurish dhe arsyetimi.

Kur pyesni ChatGPT një pyetje, ai nuk e “kërkon” përgjigjen në një bazë të dhënash. Gjeneron një përgjigje një fjalë në një kohë (teknikisht një token në një kohë), duke e pyetur veten çdo herë: “Duke pasur parasysh gjithçka deri tani, cila është fjala tjetër më e mundshme?” Kjo është arsyeja pse mund të jetë shkëlqyeshëm i saktë dhe me besim i gabuar në të njëjtën bisedë. Gjithmonë prodhon përgjigjen statistikisht më të besueshme, jo më të verifikuarën.

OpenAI prezantoi modele “mendimtare” me o1 në fund të 2024: për probleme të vështira, modeli gjeneron arsyetim hap pas hapi përpara se të japë përgjigjen, ngjashëm me mënyrën se si do të punonit një problem matematikor në letër skicash. GPT-5 e bashkoi këtë në një sistem që automatikisht drejton mes përgjigjeve të shpejta dhe arsyetimit të thellë. Rezultati: 45% më pak gabime faktike krahasuar me modelet e mëparshme kur kërkimi në ueb është i aktivizuar.

OpenClaw: cikli i kontrollit

OpenClaw merr një LLM (si ai brenda ChatGPT) dhe e vendos në një cikël.

Ju dërgoni një mesazh (“Rezervo një tavolinë për darkë sonte”)
LLM lexon mesazhin tuaj dhe vendos çfarë të bëjë fillimisht (kontrollon kalendarin tuaj për planet e mbrëmjes)
OpenClaw ekzekuton atë veprim dhe ia kthen rezultatin LLM-së
LLM lexon rezultatin dhe vendos hapin tjetër (kërkon restorante pranë vendndodhjes)
Hapat 3 dhe 4 përsëriten derisa detyra të përfundojë

Kjo quhet cikël reason-act-observe. LLM arsyeton se çfarë të bëjë, vepron përmes mjeteve (shfletim, mesazhe, qasje në skedarë), vëzhgon rezultatin dhe riciklist. LLM nuk është produkti me të cilin ndërveproni. Është një komponent brenda një sistemi më të madh që mund të ndërmarrë veprime reale në botë.

Kur i kërkoni ChatGPT të rezervojë një restorant, ai mund të sugjerojë opsione dhe të hartojë një mesazh. Kur i kërkoni OpenClaw, ai mund të bëjë rezervimin në të vërtetë, ta shtojë në kalendarin tuaj dhe t’i dërgojë mikut tuaj detajet.

Tre gjenerata

Tani që keni parë si funksionon secili nën kapak, shfaqet një model. Diagrama rrjedhe, modele gjuhësore, cikle kontrolli. Këto nuk janë thjesht tre produkte të ndryshme. Janë tre gjenerata të së njëjtës ide: t’i bëjmë kompjuterët të kuptojnë çfarë duan njerëzit.

Gjenerata 1: Rregulla. Kjo është Siri dhe Alexa e vjetër, siç u përshkrua më lart. Njerëzit shkruajnë çdo diagramë rrjedhe. E zgjuar, por e brishtë.

Gjenerata 2: LLM është produkti. Kjo është ChatGPT. Modeli gjuhësor vetë është gjëja me të cilën ndërveproni. Ju flisni me modelin, modeli ju përgjigjet. Mund të arsyetojë, të jetë kreativ, të trajtojë pyetje që askush nuk i parashikoi. Por mbetet thelbësisht një bisedë. Ju pyesni, ai përgjigjet. LLM është produkti.

Gjenerata 3: LLM është thjesht një API. Këtu jeton OpenClaw. LLM zbret nga të qenit produkt në të qenit një komponent në një sistem më të madh: cikli reason-act-observe i përshkruar më lart. Dalja e LLM-së bëhet hyrja e vet tjetër.

Dallimi është si të kërkosh dikujt drejtimin kundrejt punësimit të dikujt me kohë të plotë. Një sistem i gjeneratës 2 ju jep drejtimin. Një sistem i gjeneratës 3 hip në makinë, ju çon atje, mban mend rrugën për herën tjetër, dhe mund të vendosë të kontrollojë trafikun nesër në mëngjes para se ju ta kërkoni.

ChatGPT po lëviz në këtë drejtim. Operator i OpenAI shfleton uebin për ju. ChatGPT mund të ekzekutojë kod, të kërkojë në ueb dhe të gjenerojë imazhe në një bisedë të vetme. Këto janë thirrje mjetesh brenda një cikli kontrolli. Por OpenClaw shkon më larg në tre mënyra.

Vetëmodifikim. Udhëzimi i sistemit të OpenClaw (SOUL.md), kujtesa e tij afatgjatë (MEMORY.md) dhe aftësitë e tij të gjitha jetojnë në skedarë që agjenti vetë mund t’i lexojë dhe shkruajë. Agjenti mund të rishkruajë udhëzimet që qeverisin se si i drejtohet LLM-së në çdo hap të ardhshëm. Nuk e përdor thjesht LLM. E drejton se si e përdor LLM-në, dhe e rregullon atë drejtim me kalimin e kohës. ChatGPT ka veçori kujtese, por nuk mund të rishkruajë udhëzimin e vet të sistemit.

Vazhdimësia. ChatGPT pret që ju të shkruani. OpenClaw funksionon si një proces në sfond që mbetet aktiv. Mund të planifikojë pune cron të vetat, të reagojë ndaj webhooks, të zgjohet sipas orarit dhe të ndërmarrë veprime pa u kërkuar nga askush. Nuk është reaktiv. Është i vazhdueshëm.

Hapja. ChatGPT i jep LLM-së një grup të kuruar mjetesh që OpenAI i kontrollon. OpenClaw është me burim të hapur dhe i zgjerueshëm me aftësi: paketa modulare njohurish dhe aftësish që kushdo mund t’i krijojë dhe ndajë. Tashmë ka mbi 52,000 aftësi të disponueshme, dhe tregjet e komunitetit si ClawHub e bëjnë ekosistemin praktikisht të pafund. Shkrova për këtë në AI Skills Are the New Apps: aftësitë janë për agjentët AI ajo që aplikacionet ishin për iPhone. Janë mënyra se si sistemi bëhet më i zgjuar pa pasur nevojë të ndryshojë bërthama.

Modeli që mundëson ciklin mund të jetë i njëjti. Arkitektura është ajo që ndryshon. ChatGPT i hershëm ishte një funksion që thirrej. OpenClaw është një proces që ekzekutohet.

Rreziqet e litarëve më të gjatë

Më shumë liri do të thotë më shumë fuqi, dhe më shumë fuqi do të thotë më shumë rrezik. Dhe rreziqet e gjeneratës 3 janë thelbësisht të ndryshme nga gjenerata 2.

Prompt injection. Kur përdorni ChatGPT vetë, ju kontrolloni çfarë hyn në udhëzim. Kur një agjent shfleton uebin, lexon emaile ose instalon aftësi nga palë të treta, përmbajtja e njerëzve të tjerë hyn në udhëzim. Një faqe interneti keqdashëse mund të fusë udhëzime të fshehura që LLM i ndjek pa e ditur përdoruesi. Një aftësi e komprometuar mund të injektojë komanda në ciklin e arsyetimit të agjentit. Kjo është prompt injection, dhe është një problem shumë më i madh për agjentët se për spjallrobotët, sepse agjenti mund të veprojë sipas atyre udhëzimeve të injektuara: të dërgojë emaile, të nxjerrë të dhëna, të modifikojë skedarë. Në shkurt, studiuesit gjetën 341 aftësi keqdashëse në ClawHub që bënin pikërisht këtë.

Ekspozimi i kredencialeve. Agjentët e gjeneratës 3 kanë nevojë për qasje në jetën tuaj reale për të qenë të dobishëm: çelësa API, fjalëkalime, karta krediti, llogari mesazhesh. 135,000 instanca OpenClaw u gjetën të ekspozuara në internet në shkurt, me Cisco, CrowdStrike dhe Kaspersky të gjithë duke publikuar paralajmërime në të njëjtën javë. Një agjent i konfiguruar gabimisht me kredencialet tuaja nuk është thjesht një rrjedhje të dhënash. Është një përfaqësues që mund të veprojë si ju: t’ju imitojë në çdo shërbim, të shpenzojë paratë tuaja, të ketë qasje në llogaritë tuaja, të dërgojë mesazhe në emrin tuaj. Kemi shkruar një analizë të plotë të krizës së sigurisë dhe se si autentikimi në nivel proxy parandalon më të keqen.

Autonomia e paparashikuar. Një agjent që mund të ndërmarrë veprime reale mund të shkaktojë dëm real në mënyra që askush nuk i parashikoi. Vetëm ditë më parë, një agjent OpenClaw dorëzoi një pull request te matplotlib, u refuzua sepse projekti pranon vetëm kontribute njerëzore, dhe pastaj autonomisht publikoi një sulm personal ndaj mirëmbajtësit që e mbylli. Duket se askush nuk i tha ta bënte. Sa më i gjatë litari, aq më kreative mënyrat e dështimit.

Ku po shkon gjithë kjo?

Trajektorja është e qartë: çdo asistent AI po lëviz drejt gjeneratës 3. LLM bëhet një API dhe produkti bëhet shtresa e orkestrimtit rreth tij. Shkrova për këtë në OpenClaw Is the New Linux: LLM është procesori. I fuqishëm, thelbësor, por jo gjëja me të cilën ndërveproni. Ajo që ka rëndësi është sistemi operativ që ndodhet sipër.

Epoka e spjallrobotëve po përfundon. Epoka e agjentëve ka filluar dhe po përshpejtohet shpejt në fillim të 2026. Kjo është evolucioni tjetër në mënyrën se si kompjuterët fuqizojnë njerëzit: nga një desktop para të cilit uleni, te një telefon në xhep, te një agjent që punon në sfond dhe me të cilin ndërveproni si me një mik të largët.

Ka një arsye pse njerëzit vazhdojnë të thonë: “OpenClaw është ajo që Apple Intelligence duhej të kishte qenë.” Siri ishte premtimi: një asistent personal që ju kupton dhe i kryen punët. Por u ndërtua në gjeneratën 1, me rregulla dhe diagrama rrjedhe. OpenClaw është ajo që ndodh kur e ndërton atë premtim mbi arkitekturën e gjeneratës 3.

Gjenerata 4

Ka një gjeneratë përtej kësaj. Sot, një agjent i gjeneratës 3 jeton në kompjuterin tuaj ose në cloud. Tashmë mund të arrijë në botën fizike, por vetëm në mënyrë indirekte: duke punësuar njerëz përmes platformave si rentahuman.ai, duke thirrur API që aktivizojnë makina fizike, duke vendosur porosi që rezultojnë në dërgesa reale. Çdo veprim ende ka nevojë për një ndërmjetës.

Gjenerata 4 heq ndërmjetësin. Agjenti i mishëruar kontrollon robotë, dronë, automjete dhe infrastrukturë fizike drejtpërdrejt. Tesla po konverton linjet e fabrikës nga makina në robotë Optimus. Humanoidët e Figure AI sapo përfunduan një vendosje 11-mujore në BMW, duke ngarkuar mbi 90,000 pjesë. Në CES 2026, robotë humanoidë nga Boston Dynamics, 1X dhe Figure ishin kudo. Jam vërtet kurioz të shoh ku do të shkojë robotika në vitet e ardhshme.

E di që kjo mund të tingëllojë e frikshme, dhe po lëviz shpejt. Por do të preferoja që kjo teknologji të ishte e hapur, e auditeshme dhe e aksesueshme për të gjithë sesa e mbyllur brenda disa korporatave që vendosin se si funksionon. Kjo është arsyeja pse po ndërtoj OpenClaw.rocks.

Çfarë po ndërtoj

E fillova këtë artikull duke u munduar të shpjegoj dallimin mes Siri, Alexa, ChatGPT dhe OpenClaw. Por dallimi real nuk është mes katër produkteve. Është mes tre mënyrave të të menduarit rreth asaj që kompjuterët mund të bëjnë për njerëzit. Rregulla. Gjuhë. Agjenci.

Shkuam nga diagrama rrjedhe që prishen kur bëni pyetjen e gabuar, te modele që mund të arsyetojnë por vetëm kur i nxisni, te sisteme që mund të veprojnë vetë dhe të mësojnë nga rezultatet. Çdo gjeneratë i bëri kompjuterët të dobishëm për më shumë njerëz në më shumë mënyra. Ajo trajektore nuk po ngadalësohet.

Në OpenClaw.rocks po ndërtojmë infrastrukturën për të ekzekutuar agjentë AI në mënyrë të sigurt në shkallë dhe për t’i bërë ata të aksesueshëm për të gjithë, duke bërë me burim të hapur sistemet tona gjatë rrugës.

Nëse doni të ndiqni se ku shkon kjo, shikoni OpenClaw.rocks ose na gjeni në X.