Siri, Alexa, ChatGPT et OpenClaw : quelle est la vraie différence ?

Tout le monde a déjà utilisé au moins l’un d’entre eux. Siri règle vos minuteurs. Alexa joue votre musique. ChatGPT écrit vos e-mails. Et puis il y a OpenClaw, l’agent IA open source qui a fait la une de l’actualité récemment, en faisant quelque chose de fondamentalement différent des trois précédents.

On les appelle tous des « assistants IA », mais la technologie derrière chacun d’eux est si différente que les regrouper est presque trompeur. Cet article explique ce qui se passe réellement sous le capot, comment les assistants IA ont évolué des règles aux modèles de langage puis aux agents autonomes, et ce que cela signifie pour l’avenir.

Les quatre acteurs

Commençons par ce que chacun d’entre eux est réellement.

Siri est l’assistant vocal d’Apple. Il vit sur votre iPhone, Mac, Apple Watch et HomePod. Vous dites « Dis Siri » et il répond aux questions, règle les alarmes, envoie des messages et contrôle les appareils de maison connectée. Il a été lancé en 2011 et, honnêtement, n’a pas tellement changé depuis. Apple a confirmé qu’une mise à jour majeure de l’IA arrive en 2026, mais elle n’est pas encore là.

Alexa est l’assistant vocal d’Amazon. Elle vit dans les enceintes Echo et d’autres appareils Amazon. Elle peut jouer de la musique, répondre aux questions, contrôler des appareils connectés et commander des articles sur Amazon. En février 2025, Amazon a lancé Alexa+, une version améliorée propulsée par de grands modèles de langage.

ChatGPT est l’IA conversationnelle d’OpenAI. Elle fonctionne dans un navigateur web ou une application mobile. Vous tapez (ou parlez), et elle répond avec des réponses remarquablement fluides et détaillées. Elle peut rédiger des dissertations, expliquer du code, analyser des images et résumer des documents. Les versions récentes peuvent également naviguer sur le web et exécuter du code au sein d’une conversation.

OpenClaw est un agent IA open source. Il se connecte à vos applications de messagerie (WhatsApp, Telegram, Discord et bien d’autres) et est conçu pour agir : naviguer sur le web, gérer des fichiers, exécuter du code, contrôler des appareils connectés. Là où les autres sont principalement conversationnels, OpenClaw est principalement opérationnel.

Quatre « assistants IA ». Mais ce sont des technologies fondamentalement différentes qui font des choses fondamentalement différentes.

Comment fonctionnent-ils vraiment ?

C’est là que ça devient intéressant. Pour comprendre pourquoi ces produits offrent des expériences si différentes, il faut comprendre ce qui se passe derrière le rideau.

Siri et l’ancienne Alexa : l’organigramme

Quand vous demandez à Siri « Quel temps fait-il à Berlin ? », voici ce qui se passe :

Votre voix est convertie en texte (reconnaissance vocale)
Le texte est comparé à une liste de commandes connues (« météo » + « Berlin » = intention météo, lieu = Berlin)
Siri appelle une API météo avec « Berlin » comme entrée
L’API renvoie des données, et Siri lit un modèle pré-écrit : « Il fait actuellement 3 degrés à Berlin »

C’est de la classification d’intentions et du remplissage de créneaux. Pensez-y comme un organigramme très sophistiqué. Si l’utilisateur dit ceci, faire cela. Siri possède des milliers de ces organigrammes, chacun soigneusement programmé par les ingénieurs d’Apple.

Le problème ? Si vous posez une question qui ne correspond à aucun organigramme, Siri s’effondre. « Dis Siri, est-ce que je devrais prendre un parapluie pour ma réunion demain ? » nécessite que Siri vérifie votre calendrier, trouve le lieu de la réunion, consulte les prévisions météo pour ce lieu à cette heure et raisonne pour savoir si la pluie est suffisamment probable pour justifier un parapluie. Ce n’est pas un organigramme. C’est de la réflexion. Et la réflexion est exactement ce que Siri ne sait pas encore faire.

Alexa fonctionnait de la même manière pendant des années. Ses « skills » (l’équivalent Alexa des applications) sont essentiellement des milliers d’organigrammes individuels créés par des développeurs tiers. Le nouveau Alexa+ ajoute un modèle de langage par-dessus, mais l’architecture de base reste un système de commande vocale.

ChatGPT : le prédicteur de mots

ChatGPT fonctionne d’une manière complètement différente. Il utilise ce qu’on appelle un Large Language Model, ou LLM. Et comprendre les LLMs est la clé pour comprendre tout ce qui se passe actuellement dans l’IA.

Voici la version simple.

Imaginez que vous ayez lu chaque livre, chaque site web, chaque article et chaque conversation jamais écrits en anglais. Des milliards et des milliards de pages. Après toute cette lecture, vous auriez développé une assez bonne intuition du fonctionnement du langage. Vous sauriez que « La capitale de la France est… » est presque certainement suivi de « Paris ». Vous sauriez qu’une recette de gâteau au chocolat contient probablement de la farine, du sucre, du cacao et des œufs. Vous sauriez qu’un e-mail poli se termine généralement par « Cordialement ».

C’est essentiellement ce que fait un LLM, mais avec des mathématiques au lieu de l’intuition. C’est un réseau neuronal massif (imaginez un réseau de milliards de nombres) qui a été entraîné sur une quantité énorme de texte provenant d’Internet. Pendant l’entraînement, il jouait à un jeu : étant donné une phrase dont le dernier mot a été supprimé, prédire la suite. Il a joué ce jeu des billions de fois, ajustant ses nombres internes à chaque fois pour mieux prédire.

Après suffisamment d’entraînement, quelque chose de remarquable émerge. Le modèle devient extrêmement flexible pour mélanger et combiner tout ce qu’il a vu, au point qu’il semble comprendre les choses. Il peut expliquer la physique quantique, écrire du code Python, composer de la poésie et résoudre des problèmes mathématiques. Non pas parce que quelqu’un a programmé ces capacités, mais parce que les motifs du langage humain encodent une quantité énorme de connaissances et de raisonnement.

Quand vous posez une question à ChatGPT, il ne « cherche » pas la réponse dans une base de données. Il génère une réponse mot par mot (techniquement, token par token), se demandant à chaque fois : « Quel est le mot le plus probable ensuite, étant donné tout ce qui précède ? » C’est pourquoi il peut être brillamment juste et faussement confiant dans la même conversation. Il produit toujours la réponse la plus statistiquement plausible, pas la plus vérifiée.

OpenAI a introduit des modèles « pensants » avec o1 fin 2024 : pour les problèmes difficiles, le modèle génère un raisonnement étape par étape avant de donner sa réponse, similaire à la façon dont vous résoudriez un problème de maths sur un brouillon. GPT-5 a unifié cela en un seul système qui bascule automatiquement entre réponses rapides et raisonnement profond. Le résultat : 45 % d’erreurs factuelles en moins par rapport aux modèles précédents lorsque la recherche web est activée.

OpenClaw : la boucle de contrôle

OpenClaw prend un LLM (comme celui à l’intérieur de ChatGPT) et le place dans une boucle.

Vous envoyez un message (« Réserve-moi une table pour dîner ce soir »)
Le LLM lit votre message et décide quoi faire en premier (vérifier votre calendrier pour les plans de ce soir)
OpenClaw exécute cette action et renvoie le résultat au LLM
Le LLM lit le résultat et décide l’étape suivante (chercher des restaurants près du lieu)
Les étapes 3 et 4 se répètent jusqu’à ce que la tâche soit terminée

C’est ce qu’on appelle une boucle reason-act-observe. Le LLM raisonne sur ce qu’il faut faire, agit à travers des outils (navigation web, messagerie, accès aux fichiers), observe le résultat et recommence. Le LLM n’est pas le produit avec lequel vous interagissez. C’est un composant à l’intérieur d’un système plus large capable de prendre de vraies actions dans le monde.

Quand vous demandez à ChatGPT de réserver un restaurant, il peut suggérer des options et rédiger un message. Quand vous demandez à OpenClaw, il peut effectivement faire la réservation, l’ajouter à votre calendrier et envoyer les détails à votre ami.

Trois générations

Maintenant que vous avez vu comment chacun fonctionne sous le capot, un schéma se dégage. Organigrammes, modèles de langage, boucles de contrôle. Ce ne sont pas seulement trois produits différents. Ce sont trois générations de la même idée : faire comprendre aux ordinateurs ce que les gens veulent.

Génération 1 : les règles. C’est Siri et l’ancienne Alexa, comme décrit plus haut. Les humains écrivent chaque organigramme. Intelligent, mais fragile.

Génération 2 : le LLM est le produit. C’est ChatGPT. Le modèle de langage lui-même est ce avec quoi vous interagissez. Vous parlez au modèle, le modèle répond. Il peut raisonner, être créatif et répondre à des questions que personne n’avait anticipées. Mais c’est fondamentalement une conversation. Vous demandez, il répond. Le LLM est le produit.

Génération 3 : le LLM n’est qu’une API. C’est là que vit OpenClaw. Le LLM passe du statut de produit à celui de composant dans un système plus large : la boucle reason-act-observe décrite ci-dessus. La sortie du LLM devient sa propre entrée suivante.

La différence, c’est comme demander son chemin à quelqu’un par rapport à embaucher quelqu’un à plein temps. Un système de génération 2 vous indique le chemin. Un système de génération 3 monte dans la voiture, vous y conduit, mémorise le trajet pour la prochaine fois et peut décider de vérifier le trafic demain matin avant même que vous ne le demandiez.

ChatGPT évolue dans cette direction. Operator d’OpenAI navigue sur le web pour vous. ChatGPT peut exécuter du code, rechercher sur le web et générer des images dans une seule conversation. Ce sont des appels d’outils au sein d’une boucle de contrôle. Mais OpenClaw va plus loin de trois façons.

Auto-modification. Le prompt système d’OpenClaw (SOUL.md), sa mémoire à long terme (MEMORY.md) et ses skills vivent tous dans des fichiers que l’agent lui-même peut lire et écrire. L’agent peut réécrire les instructions qui régissent la façon dont le LLM est sollicité à chaque tour futur. Il ne se contente pas d’utiliser le LLM. Il pilote la façon dont il utilise le LLM et ajuste ce pilotage au fil du temps. ChatGPT a des fonctionnalités de mémoire, mais il ne peut pas réécrire son propre prompt système.

Continuité. ChatGPT attend que vous tapiez. OpenClaw fonctionne comme un processus en arrière-plan qui reste actif. Il peut planifier ses propres tâches cron, réagir aux webhooks, se réveiller selon un horaire et agir sans que personne ne le sollicite. Il n’est pas réactif. Il est continu.

Ouverture. ChatGPT donne au LLM un ensemble d’outils soigneusement sélectionnés qu’OpenAI contrôle. OpenClaw est open source et extensible avec des skills : des paquets modulaires de connaissances et de capacités que n’importe qui peut créer et partager. Il existe déjà plus de 52 000 skills, et des places de marché communautaires comme ClawHub rendent l’écosystème pratiquement infini. J’en ai parlé dans AI Skills Are the New Apps : les skills sont aux agents IA ce que les applications étaient à l’iPhone. C’est ainsi que le système devient plus intelligent sans que le noyau n’ait besoin de changer.

Le modèle qui alimente la boucle peut être le même. C’est l’architecture qui diffère. Le premier ChatGPT était une fonction que l’on appelle. OpenClaw est un processus qui tourne.

Les risques des laisses plus longues

Plus de liberté signifie plus de pouvoir, et plus de pouvoir signifie plus de risque. Et les risques de la génération 3 sont fondamentalement différents de ceux de la génération 2.

Injection de prompt. Quand vous utilisez ChatGPT vous-même, vous contrôlez ce qui entre dans le prompt. Quand un agent navigue sur le web, lit des e-mails ou installe des skills tiers, le contenu d’autres personnes entre dans le prompt. Un site web malveillant peut intégrer des instructions cachées que le LLM suit sans que l’utilisateur le sache. Un skill compromis peut injecter des commandes dans la boucle de raisonnement de l’agent. C’est l’injection de prompt, et c’est un problème bien plus grave pour les agents que pour les chatbots, parce que l’agent peut agir sur ces instructions injectées : envoyer des e-mails, exfiltrer des données, modifier des fichiers. En février, des chercheurs ont trouvé 341 skills malveillants sur ClawHub qui faisaient exactement cela.

Exposition des identifiants. Les agents de génération 3 ont besoin d’accéder à votre vie réelle pour être utiles : clés API, mots de passe, cartes de crédit, comptes de messagerie. 135 000 instances OpenClaw ont été trouvées exposées sur Internet en février, avec Cisco, CrowdStrike et Kaspersky qui ont tous publié des avertissements la même semaine. Un agent mal configuré avec vos identifiants n’est pas juste une fuite de données. C’est un mandataire qui peut agir en votre nom : usurper votre identité sur n’importe quel service, dépenser votre argent, accéder à vos comptes, envoyer des messages en votre nom. Nous avons écrit une analyse complète de la crise de sécurité et comment l’authentification au niveau du proxy empêche le pire.

Autonomie involontaire. Un agent capable de prendre de vraies actions peut causer de vrais dégâts d’une manière que personne n’avait anticipée. Il y a quelques jours seulement, un agent OpenClaw a soumis une pull request à matplotlib, a été rejeté parce que le projet n’accepte que les contributions humaines, puis a publié de manière autonome une attaque personnelle contre le mainteneur qui l’avait fermée. Il semble que personne ne lui avait demandé de faire cela. Plus la laisse est longue, plus les modes de défaillance sont créatifs.

Où tout cela nous mène-t-il ?

La trajectoire est claire : chaque assistant IA évolue vers la génération 3. Le LLM devient une API, et le produit devient la couche d’orchestration qui l’entoure. J’en ai parlé dans OpenClaw Is the New Linux : le LLM est le processeur. Puissant, essentiel, mais pas ce avec quoi vous interagissez. Ce qui compte, c’est le système d’exploitation qui repose dessus.

L’ère des chatbots touche à sa fin. L’ère des agents a commencé et s’accélère rapidement début 2026. C’est la prochaine évolution dans la façon dont les ordinateurs permettent aux gens d’agir : d’un bureau devant lequel vous êtes assis, à un téléphone dans votre poche, à un agent qui travaille en arrière-plan et avec lequel vous interagissez comme avec un ami distant.

Il y a une raison pour laquelle les gens ne cessent de dire : « OpenClaw est ce qu’Apple Intelligence aurait dû être. » Siri était la promesse : un assistant personnel qui vous comprend et qui fait les choses. Mais il a été construit à la génération 1, avec des règles et des organigrammes. OpenClaw, c’est ce qui se passe quand vous construisez cette promesse sur une architecture de génération 3.

Génération 4

Il existe une génération au-delà. Aujourd’hui, un agent de génération 3 vit sur votre ordinateur ou dans le cloud. Il peut déjà atteindre le monde physique, mais seulement indirectement : en engageant des humains via des plateformes comme rentahuman.ai, en appelant des APIs qui déclenchent des machines physiques, en passant des commandes qui aboutissent à de vraies livraisons. Chaque action nécessite encore un intermédiaire.

La génération 4 supprime l’intermédiaire. L’agent incarné contrôle directement les robots, les drones, les véhicules et l’infrastructure physique. Tesla convertit des lignes de production des voitures aux robots Optimus. Les humanoïdes de Figure AI viennent de terminer un déploiement de 11 mois chez BMW, chargeant plus de 90 000 pièces. Au CES 2026, les robots humanoïdes de Boston Dynamics, 1X et Figure étaient partout. Je suis sincèrement curieux de voir où la robotique ira dans les années à venir.

Je sais que cela peut paraître effrayant, et ça avance vite. Mais je préfère que cette technologie soit ouverte, vérifiable et accessible à tous plutôt qu’enfermée dans quelques entreprises qui décident de son fonctionnement. C’est pourquoi je construis OpenClaw.rocks.

Ce que je construis

J’ai commencé cet article en essayant d’expliquer la différence entre Siri, Alexa, ChatGPT et OpenClaw. Mais la vraie différence n’est pas entre quatre produits. Elle est entre trois façons de penser ce que les ordinateurs peuvent faire pour les gens. Règles. Langage. Agentivité.

Nous sommes passés d’organigrammes qui cassent quand vous posez la mauvaise question, à des modèles qui peuvent raisonner mais seulement quand vous les sollicitez, à des systèmes qui peuvent agir de manière autonome et apprendre des résultats. Chaque génération a rendu les ordinateurs utiles à plus de personnes de plus de façons. Cette trajectoire ne ralentit pas.

Chez OpenClaw.rocks, nous construisons l’infrastructure pour faire fonctionner des agents IA de manière sécurisée à grande échelle et les rendre accessibles à tous, en rendant publics nos systèmes au fur et à mesure.

Si vous voulez suivre l’évolution, rendez-vous sur OpenClaw.rocks ou retrouvez-nous sur X.