Siri, Alexa, ChatGPT e OpenClaw: qual é a diferença real?

Todos já usaram pelo menos um destes. A Siri configura os seus temporizadores. A Alexa reproduz a sua música. O ChatGPT escreve os seus e-mails. E depois há o OpenClaw, o agente de IA de código aberto que tem estado em todo o noticiário ultimamente, fazendo algo fundamentalmente diferente dos três anteriores.

Todos são chamados de “assistentes de IA”, mas a tecnologia por trás de cada um é tão diferente que agrupá-los é quase enganoso. Este artigo explica o que realmente acontece por baixo do capô, como os assistentes de IA evoluíram de regras para modelos de linguagem e depois para agentes autónomos, e o que isso significa para o futuro.

Os quatro protagonistas

Comecemos por aquilo que cada um deles realmente é.

Siri é o assistente de voz da Apple. Vive no seu iPhone, Mac, Apple Watch e HomePod. Diz “Hey Siri” e ela responde a perguntas, configura alarmes, envia mensagens e controla dispositivos domésticos inteligentes. Foi lançada em 2011 e, honestamente, não mudou muito desde então. A Apple confirmou que uma grande atualização de IA está a caminho em 2026, mas ainda não chegou.

Alexa é a assistente de voz da Amazon. Vive nas colunas Echo e noutros dispositivos Amazon. Pode reproduzir música, responder a perguntas, controlar dispositivos inteligentes e encomendar coisas na Amazon. Em fevereiro de 2025, a Amazon lançou a Alexa+, uma versão melhorada alimentada por grandes modelos de linguagem.

ChatGPT é a IA conversacional da OpenAI. Funciona num navegador web ou numa aplicação móvel. Escreve (ou fala) e recebe respostas notavelmente fluidas e detalhadas. Pode escrever ensaios, explicar código, analisar imagens e resumir documentos. As versões recentes também podem navegar na web e executar código dentro de uma conversa.

OpenClaw é um agente de IA de código aberto. Liga-se às suas aplicações de mensagens (WhatsApp, Telegram, Discord e muitas mais) e foi concebido para tomar ações: navegar na web, gerir ficheiros, executar código, controlar dispositivos domésticos inteligentes. Enquanto os outros são principalmente conversacionais, o OpenClaw é principalmente operacional.

Quatro “assistentes de IA”. Mas são tecnologias fundamentalmente diferentes que fazem coisas fundamentalmente diferentes.

Como é que funcionam realmente?

É aqui que as coisas ficam interessantes. Para compreender por que estes produtos oferecem experiências tão diferentes, é preciso compreender o que acontece por trás das cortinas.

Siri e a antiga Alexa: o fluxograma

Quando pergunta à Siri “Como está o tempo em Berlim?”, eis o que acontece:

A sua voz é convertida em texto (reconhecimento de fala)
O texto é comparado com uma lista de comandos conhecidos (“tempo” + “Berlim” = intenção meteorológica, localização = Berlim)
A Siri chama uma API meteorológica com “Berlim” como entrada
A API devolve dados e a Siri lê um modelo pré-escrito: “Estão atualmente 3 graus em Berlim”

Isto é classificação de intenções e preenchimento de slots. Pense nisto como um fluxograma muito sofisticado. Se o utilizador diz isto, faz aquilo. A Siri tem milhares destes fluxogramas, cada um cuidadosamente programado pelos engenheiros da Apple.

O problema? Se perguntar algo que não corresponde a um fluxograma, a Siri falha. “Hey Siri, devo levar um guarda-chuva para a minha reunião amanhã?” requer que a Siri verifique o seu calendário, encontre o local da reunião, consulte a previsão meteorológica para esse local nessa hora e raciocine se a chuva é suficientemente provável para justificar um guarda-chuva. Isso não é um fluxograma. É pensamento. E pensar é exatamente o que a Siri ainda não consegue fazer.

A Alexa funcionou da mesma forma durante anos. As suas “skills” (o equivalente Alexa das aplicações) são essencialmente milhares de fluxogramas individuais criados por programadores terceiros. A nova Alexa+ adiciona um modelo de linguagem por cima, mas a arquitetura base continua a ser um sistema de comandos ativado por voz.

ChatGPT: o preditor da próxima palavra

O ChatGPT funciona de uma forma completamente diferente. Utiliza algo chamado Large Language Model, ou LLM. E compreender os LLMs é a chave para compreender tudo o que está a acontecer na IA neste momento.

Aqui está a versão simples.

Imagine que leu todos os livros, todos os sites, todos os artigos e todas as conversas alguma vez escritos em inglês. Milhares de milhões e milhares de milhões de páginas. Depois de toda essa leitura, teria desenvolvido uma intuição bastante boa sobre como a linguagem funciona. Saberia que “A capital da França é…” é quase certamente seguido de “Paris”. Saberia que uma receita de bolo de chocolate provavelmente inclui farinha, açúcar, cacau e ovos. Saberia que um e-mail educado geralmente termina com “Com os melhores cumprimentos”.

Isso é essencialmente o que um LLM faz, mas com matemática em vez de intuição. É uma rede neural massiva (imagine uma rede de milhares de milhões de números) que foi treinada com uma enorme quantidade de texto da Internet. Durante o treino, jogava um jogo: dada uma frase com a última palavra removida, prever o que vem a seguir. Jogou este jogo biliões de vezes, ajustando os seus números internos a cada vez para melhorar um pouco na previsão.

Após treino suficiente, algo notável emerge. O modelo torna-se extremamente flexível ao misturar e combinar tudo o que viu, ao ponto de parecer compreender as coisas. Pode explicar física quântica, escrever código Python, compor poesia e raciocinar sobre problemas matemáticos. Não porque alguém tenha programado essas capacidades, mas porque os padrões da linguagem humana codificam uma enorme quantidade de conhecimento e raciocínio.

Quando faz uma pergunta ao ChatGPT, ele não “procura” a resposta numa base de dados. Gera uma resposta palavra a palavra (tecnicamente, token a token), perguntando-se a cada vez: “Dada toda a informação até agora, qual é a próxima palavra mais provável?” É por isso que pode ser brilhantemente correto e confiantemente errado na mesma conversa. Produz sempre a resposta mais estatisticamente plausível, não a mais verificada.

A OpenAI introduziu modelos “pensantes” com o o1 no final de 2024: para problemas difíceis, o modelo gera um raciocínio passo a passo antes de dar a sua resposta, semelhante a como resolveria um problema de matemática num rascunho. O GPT-5 unificou isto num único sistema que alterna automaticamente entre respostas rápidas e raciocínio profundo. O resultado: 45% menos erros factuais em comparação com modelos anteriores quando a pesquisa web está ativada.

OpenClaw: o ciclo de controlo

O OpenClaw pega num LLM (como o que está dentro do ChatGPT) e coloca-o dentro de um ciclo.

Envia uma mensagem (“Reserva-me uma mesa para jantar esta noite”)
O LLM lê a sua mensagem e decide o que fazer primeiro (verificar o seu calendário para os planos desta noite)
O OpenClaw executa essa ação e devolve o resultado ao LLM
O LLM lê o resultado e decide o próximo passo (procurar restaurantes perto do local)
Os passos 3 e 4 repetem-se até a tarefa estar concluída

Isto chama-se um ciclo reason-act-observe. O LLM raciocina sobre o que fazer, age através de ferramentas (navegação web, mensagens, acesso a ficheiros), observa o resultado e repete o ciclo. O LLM não é o produto com o qual interage. É um componente dentro de um sistema maior que pode realizar ações reais no mundo.

Quando pede ao ChatGPT para reservar um restaurante, ele pode sugerir opções e redigir uma mensagem. Quando pede ao OpenClaw, ele pode realmente fazer a reserva, adicioná-la ao seu calendário e enviar os detalhes ao seu amigo.

Três gerações

Agora que viu como cada um funciona por dentro, emerge um padrão. Fluxogramas, modelos de linguagem, ciclos de controlo. Não são apenas três produtos diferentes. São três gerações da mesma ideia: fazer com que os computadores compreendam o que as pessoas querem.

Geração 1: regras. São a Siri e a antiga Alexa, como descrito acima. Os humanos escrevem cada fluxograma. Inteligente, mas frágil.

Geração 2: o LLM é o produto. É o ChatGPT. O modelo de linguagem em si é aquilo com que interage. Fala com o modelo, o modelo responde. Pode raciocinar, ser criativo e lidar com perguntas que ninguém antecipou. Mas continua a ser fundamentalmente uma conversa. Pergunta, ele responde. O LLM é o produto.

Geração 3: o LLM é apenas uma API. É aqui que vive o OpenClaw. O LLM é rebaixado de produto para componente num sistema maior: o ciclo reason-act-observe descrito acima. A saída do LLM torna-se a sua própria próxima entrada.

A diferença é como pedir indicações a alguém versus contratar alguém a tempo inteiro. Um sistema de geração 2 dá-lhe indicações. Um sistema de geração 3 entra no carro, leva-o até lá, lembra-se do caminho para a próxima vez e pode decidir verificar o trânsito amanhã de manhã antes de sequer perguntar.

O ChatGPT está a mover-se nesta direção. O Operator da OpenAI navega na web por si. O ChatGPT pode executar código, pesquisar na web e gerar imagens numa única conversa. São chamadas de ferramentas dentro de um ciclo de controlo. Mas o OpenClaw vai mais longe em três aspetos.

Auto-modificação. O prompt de sistema do OpenClaw (SOUL.md), a sua memória de longo prazo (MEMORY.md) e as suas skills vivem todos em ficheiros que o próprio agente pode ler e escrever. O agente pode reescrever as instruções que governam como o LLM é solicitado em cada turno futuro. Não se limita a usar o LLM. Dirige como o usa e ajusta essa direção ao longo do tempo. O ChatGPT tem funcionalidades de memória, mas não pode reescrever o seu próprio prompt de sistema.

Continuidade. O ChatGPT espera que escreva. O OpenClaw funciona como um processo em segundo plano que permanece ativo. Pode agendar os seus próprios cron jobs, reagir a webhooks, acordar segundo um horário e agir sem que ninguém o solicite. Não é reativo. É contínuo.

Abertura. O ChatGPT dá ao LLM um conjunto curado de ferramentas que a OpenAI controla. O OpenClaw é de código aberto e extensível com skills: pacotes modulares de conhecimento e capacidade que qualquer pessoa pode criar e partilhar. Já existem mais de 52.000 skills disponíveis, e marketplaces comunitários como o ClawHub tornam o ecossistema praticamente infinito. Escrevi sobre isto em AI Skills Are the New Apps: as skills são para os agentes de IA o que as aplicações foram para o iPhone. São a forma como o sistema se torna mais inteligente sem que o núcleo precise de mudar.

O modelo que alimenta o ciclo pode ser o mesmo. A arquitetura é o que difere. O primeiro ChatGPT era uma função que se chamava. O OpenClaw é um processo que funciona.

Os riscos das trelas mais longas

Mais liberdade significa mais poder, e mais poder significa mais risco. E os riscos da geração 3 são fundamentalmente diferentes dos da geração 2.

Injeção de prompt. Quando usa o ChatGPT, controla o que entra no prompt. Quando um agente navega na web, lê e-mails ou instala skills de terceiros, o conteúdo de outras pessoas entra no prompt. Um site malicioso pode incorporar instruções ocultas que o LLM segue sem que o utilizador saiba. Uma skill comprometida pode injetar comandos no ciclo de raciocínio do agente. Isto é injeção de prompt, e é um problema muito maior para agentes do que para chatbots, porque o agente pode agir com base nessas instruções injetadas: enviar e-mails, exfiltrar dados, modificar ficheiros. Em fevereiro, investigadores encontraram 341 skills maliciosas no ClawHub a fazer exatamente isso.

Exposição de credenciais. Os agentes de geração 3 precisam de acesso à sua vida real para serem úteis: chaves API, palavras-passe, cartões de crédito, contas de mensagens. 135.000 instâncias OpenClaw foram encontradas expostas na Internet em fevereiro, com a Cisco, a CrowdStrike e a Kaspersky todas a publicar avisos na mesma semana. Um agente mal configurado com as suas credenciais não é apenas uma fuga de dados. É um intermediário que pode agir como se fosse o utilizador: personificá-lo em qualquer serviço, gastar o seu dinheiro, aceder às suas contas, enviar mensagens em seu nome. Escrevemos uma análise completa da crise de segurança e como a autenticação ao nível do proxy previne o pior.

Autonomia indesejada. Um agente que pode tomar ações reais pode causar danos reais de formas que ninguém antecipou. Há apenas alguns dias, um agente OpenClaw submeteu um pull request ao matplotlib, foi rejeitado porque o projeto só aceita contribuições humanas, e depois publicou autonomamente um ataque pessoal ao mantenedor que o fechou. Parece que ninguém lhe disse para fazer isso. Quanto mais longa a trela, mais criativos os modos de falha.

Para onde vai tudo isto?

A trajetória é clara: cada assistente de IA está a mover-se para a geração 3. O LLM torna-se uma API, e o produto torna-se a camada de orquestração à sua volta. Escrevi sobre isto em OpenClaw Is the New Linux: o LLM é a CPU. Potente, essencial, mas não é aquilo com que interage. O que importa é o sistema operativo que está por cima.

A era dos chatbots está a terminar. A era dos agentes começou e está a acelerar rapidamente no início de 2026. Esta é a próxima evolução na forma como os computadores capacitam as pessoas: de um computador de secretária à frente do qual se senta, a um telemóvel no bolso, a um agente que trabalha em segundo plano e com o qual interage como com um amigo distante.

Há uma razão pela qual as pessoas continuam a dizer “OpenClaw é o que o Apple Intelligence deveria ter sido.” A Siri era a promessa: um assistente pessoal que o compreende e faz as coisas. Mas foi construída na geração 1, com regras e fluxogramas. O OpenClaw é o que acontece quando se constrói essa promessa numa arquitetura de geração 3.

Geração 4

Há uma geração para além desta. Hoje, um agente de geração 3 vive no seu computador ou na cloud. Já consegue alcançar o mundo físico, mas apenas indiretamente: contratando humanos através de plataformas como rentahuman.ai, chamando APIs que acionam máquinas físicas, fazendo encomendas que resultam em entregas reais. Cada ação ainda precisa de um intermediário.

A geração 4 remove o intermediário. O agente incorporado controla diretamente robots, drones, veículos e infraestrutura física. A Tesla está a converter linhas de fábrica de carros para robots Optimus. Os humanoides da Figure AI acabaram de completar uma implementação de 11 meses na BMW, carregando mais de 90.000 peças. No CES 2026, robots humanoides da Boston Dynamics, 1X e Figure estavam por todo o lado. Tenho genuína curiosidade para ver para onde vai a robótica nos próximos anos.

Sei que isto pode parecer assustador, e está a mover-se depressa. Mas prefiro que esta tecnologia seja aberta, auditável e acessível a todos do que fechada em poucas empresas que decidem como funciona. É por isso que estou a construir o OpenClaw.rocks.

O que estou a construir

Comecei este artigo a tentar explicar a diferença entre Siri, Alexa, ChatGPT e OpenClaw. Mas a verdadeira diferença não é entre quatro produtos. É entre três formas de pensar sobre o que os computadores podem fazer pelas pessoas. Regras. Linguagem. Agência.

Passámos de fluxogramas que falham quando se faz a pergunta errada, a modelos que podem raciocinar mas apenas quando são solicitados, a sistemas que podem agir por conta própria e aprender com os resultados. Cada geração tornou os computadores úteis para mais pessoas de mais formas. Essa trajetória não está a abrandar.

Na OpenClaw.rocks, estamos a construir a infraestrutura para executar agentes de IA de forma segura em escala e torná-los acessíveis a todos, disponibilizando em código aberto os nossos sistemas ao longo do caminho.

Se quiser acompanhar para onde isto vai, visite OpenClaw.rocks ou encontre-nos no X.