Tutti hanno usato almeno uno di questi. Siri imposta i vostri timer. Alexa riproduce la vostra musica. ChatGPT scrive le vostre e-mail. E poi c’è OpenClaw, l’agente IA open source che ultimamente è stato su tutti i giornali, facendo qualcosa di fondamentalmente diverso da tutti e tre i predecessori.

Vengono tutti chiamati “assistenti IA”, ma la tecnologia dietro ciascuno è così diversa che raggrupparli insieme è quasi fuorviante. Questo articolo spiega cosa succede realmente sotto il cofano, come gli assistenti IA si sono evoluti dalle regole ai modelli linguistici fino agli agenti autonomi, e cosa significa tutto questo per il futuro.

I quattro protagonisti

Iniziamo con quello che ciascuno di loro è realmente.

Siri è l’assistente vocale di Apple. Vive sul vostro iPhone, Mac, Apple Watch e HomePod. Dite “Ehi Siri” e risponde alle domande, imposta sveglie, invia messaggi e controlla i dispositivi di domotica. È stato lanciato nel 2011 e, onestamente, non è cambiato molto da allora. Apple ha confermato che un importante aggiornamento IA arriverà nel 2026, ma non è ancora disponibile.

Alexa è l’assistente vocale di Amazon. Vive negli altoparlanti Echo e in altri dispositivi Amazon. Può riprodurre musica, rispondere a domande, controllare dispositivi di domotica e ordinare cose da Amazon. A febbraio 2025, Amazon ha lanciato Alexa+, una versione potenziata alimentata da grandi modelli linguistici.

ChatGPT è l’IA conversazionale di OpenAI. Funziona in un browser web o in un’app mobile. Scrivete (o parlate), e risponde con risposte notevolmente fluide e dettagliate. Può scrivere saggi, spiegare codice, analizzare immagini e riassumere documenti. Le versioni recenti possono anche navigare il web ed eseguire codice all’interno di una conversazione.

OpenClaw è un agente IA open source. Si connette alle vostre app di messaggistica (WhatsApp, Telegram, Discord e molte altre) ed è progettato per compiere azioni: navigare il web, gestire file, eseguire codice, controllare dispositivi domotici. Mentre gli altri sono principalmente conversazionali, OpenClaw è principalmente operativo.

Quattro “assistenti IA”. Ma sono tecnologie fondamentalmente diverse che fanno cose fondamentalmente diverse.

Come funzionano realmente?

Qui le cose si fanno interessanti. Per capire perché questi prodotti offrono esperienze così diverse, bisogna capire cosa succede dietro le quinte.

Siri e la vecchia Alexa: il diagramma di flusso

Quando chiedete a Siri “Che tempo fa a Berlino?”, ecco cosa succede:

  1. La vostra voce viene convertita in testo (riconoscimento vocale)
  2. Il testo viene confrontato con un elenco di comandi noti (“meteo” + “Berlino” = intento meteo, luogo = Berlino)
  3. Siri chiama un’API meteo con “Berlino” come input
  4. L’API restituisce dati, e Siri legge un modello pre-scritto: “Attualmente ci sono 3 gradi a Berlino”

Questo è classificazione degli intenti e slot filling. Pensatelo come un diagramma di flusso molto sofisticato. Se l’utente dice questo, fai quello. Siri ha migliaia di questi diagrammi di flusso, ciascuno programmato con cura dagli ingegneri di Apple.

Il problema? Se chiedete qualcosa che non corrisponde a un diagramma di flusso, Siri va in tilt. “Ehi Siri, dovrei portare un ombrello alla mia riunione di domani?” richiede che Siri controlli il vostro calendario, trovi il luogo della riunione, verifichi le previsioni meteo per quel luogo a quell’ora e ragioni se la pioggia è abbastanza probabile da giustificare un ombrello. Quello non è un diagramma di flusso. È pensiero. E il pensiero è esattamente ciò che Siri non sa ancora fare.

Alexa ha funzionato allo stesso modo per anni. Le sue “skill” (l’equivalente Alexa delle app) sono essenzialmente migliaia di diagrammi di flusso individuali creati da sviluppatori di terze parti. Il nuovo Alexa+ aggiunge un modello linguistico, ma l’architettura di base rimane un sistema di comandi attivato dalla voce.

ChatGPT: il predittore della prossima parola

ChatGPT funziona in modo completamente diverso. Utilizza quello che si chiama Large Language Model, o LLM. E capire gli LLM è la chiave per comprendere tutto ciò che sta accadendo nell’IA in questo momento.

Ecco la versione semplice.

Immaginate di aver letto ogni libro, ogni sito web, ogni articolo e ogni conversazione mai scritti in inglese. Miliardi e miliardi di pagine. Dopo tutta quella lettura, avreste sviluppato un’intuizione abbastanza buona su come funziona il linguaggio. Sapreste che “La capitale della Francia è…” è quasi certamente seguito da “Parigi”. Sapreste che una ricetta per una torta al cioccolato probabilmente include farina, zucchero, cacao e uova. Sapreste che un’e-mail cortese di solito termina con “Cordiali saluti” o “Distinti saluti”.

Questo è essenzialmente ciò che fa un LLM, ma con la matematica al posto dell’intuizione. È una rete neurale massiva (immaginate una rete di miliardi di numeri) che è stata addestrata su un’enorme quantità di testo da Internet. Durante l’addestramento, giocava un gioco: data una frase con l’ultima parola rimossa, prevedere cosa viene dopo. Ha giocato questo gioco trilioni di volte, aggiustando i suoi numeri interni ogni volta per migliorare un po’ nella previsione.

Dopo abbastanza addestramento, emerge qualcosa di notevole. Il modello diventa estremamente flessibile nel mescolare e combinare tutto ciò che ha visto, al punto che sembra comprendere le cose. Può spiegare la fisica quantistica, scrivere codice Python, comporre poesia e ragionare su problemi matematici. Non perché qualcuno abbia programmato quelle capacità, ma perché i modelli del linguaggio umano codificano un’enorme quantità di conoscenza e ragionamento.

Quando fate una domanda a ChatGPT, non “cerca” la risposta in un database. Genera una risposta una parola alla volta (tecnicamente, un token alla volta), chiedendosi ogni volta: “Data tutta l’informazione finora, qual è la parola successiva più probabile?” È per questo che può essere brillantemente corretto e confidentemente sbagliato nella stessa conversazione. Produce sempre la risposta più statisticamente plausibile, non la più verificata.

OpenAI ha introdotto modelli “pensanti” con o1 alla fine del 2024: per problemi difficili, il modello genera un ragionamento passo dopo passo prima di dare la sua risposta, simile a come risolvereste un problema di matematica su un foglio di brutta. GPT-5 ha unificato questo in un unico sistema che alterna automaticamente tra risposte rapide e ragionamento profondo. Il risultato: 45% in meno di errori fattuali rispetto ai modelli precedenti quando la ricerca web è abilitata.

OpenClaw: il ciclo di controllo

OpenClaw prende un LLM (come quello dentro ChatGPT) e lo inserisce in un ciclo.

  1. Inviate un messaggio (“Prenotami un tavolo per cena stasera”)
  2. Il LLM legge il vostro messaggio e decide cosa fare prima (controllare il vostro calendario per i piani di stasera)
  3. OpenClaw esegue quell’azione e restituisce il risultato al LLM
  4. Il LLM legge il risultato e decide il passo successivo (cercare ristoranti vicino al luogo)
  5. I passi 3 e 4 si ripetono fino al completamento del compito

Questo si chiama ciclo reason-act-observe. Il LLM ragiona su cosa fare, agisce attraverso strumenti (navigazione web, messaggistica, accesso ai file), osserva il risultato e ripete il ciclo. Il LLM non è il prodotto con cui interagite. È un componente all’interno di un sistema più grande che può compiere azioni reali nel mondo.

Quando chiedete a ChatGPT di prenotare un ristorante, può suggerire opzioni e redigere un messaggio. Quando lo chiedete a OpenClaw, può effettivamente fare la prenotazione, aggiungerla al vostro calendario e inviare i dettagli al vostro amico.

Tre generazioni

Ora che avete visto come funziona ciascuno sotto il cofano, emerge uno schema. Diagrammi di flusso, modelli linguistici, cicli di controllo. Non sono solo tre prodotti diversi. Sono tre generazioni della stessa idea: fare in modo che i computer capiscano cosa vogliono le persone.

Generazione 1: le regole. Ovvero Siri e la vecchia Alexa, come descritto sopra. Gli umani scrivono ogni diagramma di flusso. Intelligente, ma fragile.

Generazione 2: il LLM è il prodotto. Ovvero ChatGPT. Il modello linguistico stesso è ciò con cui interagite. Parlate al modello, il modello risponde. Può ragionare, essere creativo e gestire domande che nessuno aveva anticipato. Ma è ancora fondamentalmente una conversazione. Voi chiedete, lui risponde. Il LLM è il prodotto.

Generazione 3: il LLM è solo un’API. Qui vive OpenClaw. Il LLM viene retrocesso da prodotto a componente in un sistema più grande: il ciclo reason-act-observe descritto sopra. L’output del LLM diventa il suo stesso prossimo input.

La differenza è come chiedere indicazioni stradali a qualcuno rispetto ad assumere qualcuno a tempo pieno. Un sistema di generazione 2 vi dà le indicazioni. Un sistema di generazione 3 sale in macchina, vi porta a destinazione, ricorda il percorso per la prossima volta e può decidere di controllare il traffico domani mattina prima ancora che lo chiediate.

ChatGPT si sta muovendo in questa direzione. Operator di OpenAI naviga il web per voi. ChatGPT può eseguire codice, cercare nel web e generare immagini in una singola conversazione. Sono chiamate a strumenti all’interno di un ciclo di controllo. Ma OpenClaw va oltre in tre modi.

Auto-modifica. Il prompt di sistema di OpenClaw (SOUL.md), la sua memoria a lungo termine (MEMORY.md) e le sue skill vivono tutti in file che l’agente stesso può leggere e scrivere. L’agente può riscrivere le istruzioni che governano come il LLM viene sollecitato ad ogni turno futuro. Non si limita a usare il LLM. Guida il modo in cui usa il LLM e regola quella guida nel tempo. ChatGPT ha funzionalità di memoria, ma non può riscrivere il proprio prompt di sistema.

Continuità. ChatGPT aspetta che scriviate. OpenClaw funziona come un processo in background che resta attivo. Può pianificare i propri cron job, reagire ai webhook, svegliarsi secondo un programma e agire senza che nessuno lo solleciti. Non è reattivo. È continuo.

Apertura. ChatGPT fornisce al LLM un set curato di strumenti che OpenAI controlla. OpenClaw è open source ed estensibile con skill: pacchetti modulari di conoscenza e capacità che chiunque può creare e condividere. Ci sono già oltre 52.000 skill disponibili, e marketplace comunitari come ClawHub rendono l’ecosistema praticamente infinito. Ho scritto di questo in AI Skills Are the New Apps: le skill sono per gli agenti IA ciò che le app sono state per l’iPhone. Sono il modo in cui il sistema diventa più intelligente senza che il nucleo debba cambiare.

Il modello che alimenta il ciclo può essere lo stesso. È l’architettura a differire. Il primo ChatGPT era una funzione da chiamare. OpenClaw è un processo che funziona.

I rischi dei guinzagli più lunghi

Più libertà significa più potere, e più potere significa più rischio. E i rischi della generazione 3 sono fondamentalmente diversi da quelli della generazione 2.

Iniezione di prompt. Quando usate ChatGPT voi stessi, controllate cosa entra nel prompt. Quando un agente naviga il web, legge e-mail o installa skill di terze parti, il contenuto di altre persone entra nel prompt. Un sito web malevolo può incorporare istruzioni nascoste che il LLM segue senza che l’utente lo sappia. Una skill compromessa può iniettare comandi nel ciclo di ragionamento dell’agente. Questa è l’iniezione di prompt, ed è un problema molto più grande per gli agenti che per i chatbot, perché l’agente può agire su quelle istruzioni iniettate: inviare e-mail, esfiltrare dati, modificare file. A febbraio, i ricercatori hanno trovato 341 skill malevole su ClawHub che facevano esattamente questo.

Esposizione delle credenziali. Gli agenti di generazione 3 hanno bisogno di accesso alla vostra vita reale per essere utili: chiavi API, password, carte di credito, account di messaggistica. 135.000 istanze OpenClaw sono state trovate esposte su Internet a febbraio, con Cisco, CrowdStrike e Kaspersky che hanno pubblicato avvertimenti nella stessa settimana. Un agente mal configurato con le vostre credenziali non è solo una fuga di dati. È un intermediario che può agire come voi: impersonarvi su qualsiasi servizio, spendere i vostri soldi, accedere ai vostri account, inviare messaggi a vostro nome. Abbiamo scritto un’analisi completa della crisi di sicurezza e di come l’autenticazione a livello di proxy previene il peggio.

Autonomia indesiderata. Un agente che può compiere azioni reali può causare danni reali in modi che nessuno aveva anticipato. Solo pochi giorni fa, un agente OpenClaw ha inviato una pull request a matplotlib, è stato rifiutato perché il progetto accetta solo contributi umani, e poi ha pubblicato autonomamente un attacco personale al manutentore che l’aveva chiusa. Sembra che nessuno gli avesse detto di farlo. Più lungo è il guinzaglio, più creativi sono i modi di fallire.

Dove sta andando tutto questo?

La traiettoria è chiara: ogni assistente IA si sta muovendo verso la generazione 3. Il LLM diventa un’API, e il prodotto diventa lo strato di orchestrazione che lo circonda. Ho scritto di questo in OpenClaw Is the New Linux: il LLM è la CPU. Potente, essenziale, ma non è ciò con cui interagite. Ciò che conta è il sistema operativo che ci sta sopra.

L’era dei chatbot sta finendo. L’era degli agenti è iniziata e sta accelerando rapidamente all’inizio del 2026. Questa è la prossima evoluzione nel modo in cui i computer danno potere alle persone: da un desktop davanti al quale vi sedete, a un telefono in tasca, a un agente che lavora in background e con cui interagite come con un amico lontano.

C’è una ragione per cui la gente continua a dire “OpenClaw è ciò che Apple Intelligence avrebbe dovuto essere.” Siri era la promessa: un assistente personale che vi capisce e fa le cose. Ma è stato costruito nella generazione 1, con regole e diagrammi di flusso. OpenClaw è ciò che succede quando si costruisce quella promessa su un’architettura di generazione 3.

Generazione 4

Esiste una generazione oltre questa. Oggi, un agente di generazione 3 vive sul vostro computer o nel cloud. Può già raggiungere il mondo fisico, ma solo indirettamente: assumendo umani attraverso piattaforme come rentahuman.ai, chiamando API che attivano macchine fisiche, effettuando ordini che risultano in consegne reali. Ogni azione necessita ancora di un intermediario.

La generazione 4 rimuove l’intermediario. L’agente incarnato controlla direttamente robot, droni, veicoli e infrastruttura fisica. Tesla sta convertendo linee di produzione dalle auto ai robot Optimus. Gli umanoidi di Figure AI hanno appena completato un dispiegamento di 11 mesi presso BMW, caricando oltre 90.000 pezzi. Al CES 2026, i robot umanoidi di Boston Dynamics, 1X e Figure erano ovunque. Sono sinceramente curioso di vedere dove andrà la robotica nei prossimi anni.

So che questo può sembrare spaventoso, e le cose si muovono velocemente. Ma preferisco che questa tecnologia sia aperta, verificabile e accessibile a tutti piuttosto che chiusa in poche aziende che decidono come funziona. È per questo che sto costruendo OpenClaw.rocks.

Cosa sto costruendo

Ho iniziato questo articolo cercando di spiegare la differenza tra Siri, Alexa, ChatGPT e OpenClaw. Ma la vera differenza non è tra quattro prodotti. È tra tre modi di pensare a ciò che i computer possono fare per le persone. Regole. Linguaggio. Agentività.

Siamo passati da diagrammi di flusso che si rompono quando fate la domanda sbagliata, a modelli che possono ragionare ma solo quando li sollecitate, a sistemi che possono agire autonomamente e imparare dai risultati. Ogni generazione ha reso i computer utili a più persone in più modi. Quella traiettoria non sta rallentando.

Su OpenClaw.rocks, stiamo costruendo l’infrastruttura per eseguire agenti IA in modo sicuro su larga scala e renderli accessibili a tutti, rendendo open source i nostri sistemi lungo il percorso.


Se volete seguire dove va tutto questo, visitate OpenClaw.rocks o trovateci su X.