Siri, Alexa, ChatGPT und OpenClaw: Was ist eigentlich anders?

Jeder hat mindestens eines davon schon benutzt. Siri stellt Ihre Timer. Alexa spielt Ihre Musik. ChatGPT schreibt Ihre E-Mails. Und dann gibt es OpenClaw, den Open-Source-KI-Agenten, der in letzter Zeit ueberall in den Nachrichten war und etwas grundlegend anderes macht als die drei davor.

Alle werden “KI-Assistenten” genannt, aber die Technologie hinter jedem einzelnen ist so unterschiedlich, dass es fast irreführend ist, sie zusammenzufassen. Dieser Beitrag erklärt, was tatsächlich unter der Haube passiert, wie sich KI-Assistenten von Regeln über Sprachmodelle zu autonomen Agenten entwickelt haben und was das für die Zukunft bedeutet.

Die vier Akteure

Beginnen wir damit, was jeder von ihnen tatsächlich ist.

Siri ist Apples Sprachassistent. Er lebt auf Ihrem iPhone, Mac, Ihrer Apple Watch und dem HomePod. Sie sagen “Hey Siri” und er beantwortet Fragen, stellt Wecker, sendet Nachrichten und steuert Smart-Home-Geräte. Er wurde 2011 eingeführt und hat sich, ehrlich gesagt, seitdem nicht wesentlich verändert. Apple hat bestätigt, dass ein großes KI-Upgrade 2026 kommt, aber es ist noch nicht da.

Alexa ist Amazons Sprachassistent. Sie lebt in Echo-Lautsprechern und anderen Amazon-Geräten. Sie kann Musik abspielen, Fragen beantworten, Smart-Home-Geräte steuern und Dinge bei Amazon bestellen. Im Februar 2025 startete Amazon Alexa+, eine aufgerüstete Version, die von großen Sprachmodellen angetrieben wird.

ChatGPT ist OpenAIs konversationelle KI. Sie läuft im Webbrowser oder in der mobilen App. Sie tippen (oder sprechen), und sie antwortet mit bemerkenswert flüssigen, detaillierten Antworten. Sie kann Aufsätze schreiben, Code erklären, Bilder analysieren und Dokumente zusammenfassen. Neuere Versionen können auch das Web durchsuchen und Code ausführen innerhalb einer Konversation.

OpenClaw ist ein Open-Source-KI-Agent. Er verbindet sich mit Ihren Messaging-Apps (WhatsApp, Telegram, Discord und vielen mehr) und ist darauf ausgelegt, Aktionen auszuführen: im Web surfen, Dateien verwalten, Code ausführen, Smart-Home-Geräte steuern. Während die anderen primär konversationell sind, ist OpenClaw primär operativ.

Vier “KI-Assistenten.” Aber es sind grundlegend verschiedene Technologien, die grundlegend verschiedene Dinge tun.

Wie funktionieren sie eigentlich?

Hier wird es interessant. Um zu verstehen, warum sich diese Produkte so unterschiedlich anfühlen, müssen Sie verstehen, was hinter dem Vorhang passiert.

Siri und die alte Alexa: das Flussdiagramm

Wenn Sie Siri fragen “Wie ist das Wetter in Berlin?”, passiert Folgendes:

Ihre Stimme wird in Text umgewandelt (Spracherkennung)
Der Text wird mit einer Liste bekannter Befehle abgeglichen (“Wetter” + “Berlin” = Wetter-Absicht, Ort = Berlin)
Siri ruft eine Wetter-API mit “Berlin” als Eingabe auf
Die API liefert Daten zurück, und Siri liest eine vorgeschriebene Vorlage vor: “Es sind derzeit 3 Grad in Berlin”

Das ist Intent-Klassifikation und Slot-Filling. Stellen Sie sich das als ein sehr ausgeklügeltes Flussdiagramm vor. Wenn der Benutzer dies sagt, tue das. Siri hat Tausende dieser Flussdiagramme, jedes sorgfältig von Apple-Ingenieuren programmiert.

Das Problem? Wenn Sie etwas fragen, das keinem Flussdiagramm entspricht, versagt Siri. “Hey Siri, sollte ich einen Regenschirm zu meinem Meeting morgen mitnehmen?” erfordert, dass Siri Ihren Kalender prüft, den Besprechungsort findet, die Wettervorhersage für diesen Ort zu dieser Zeit abruft und darüber nachdenkt, ob Regen wahrscheinlich genug ist, um einen Regenschirm zu rechtfertigen. Das ist kein Flussdiagramm. Das ist Denken. Und Denken ist genau das, was Siri noch nicht kann.

Alexa funktionierte jahrelang genauso. Ihre “Skills” (das Alexa-Äquivalent von Apps) sind im Wesentlichen Tausende einzelner Flussdiagramme, die von Drittanbietern erstellt wurden. Das neue Alexa+ fügt ein Sprachmodell hinzu, aber die Kernarchitektur ist immer noch ein sprachaktiviertes Befehlssystem.

ChatGPT: der Nächstes-Wort-Vorhersager

ChatGPT funktioniert auf eine völlig andere Weise. Es verwendet ein sogenanntes Large Language Model, oder LLM. Und LLMs zu verstehen ist der Schlüssel, um alles zu verstehen, was gerade in der KI passiert.

Hier die einfache Version.

Stellen Sie sich vor, Sie hätten jedes Buch, jede Website, jeden Artikel und jedes Gespräch gelesen, das jemals auf Englisch geschrieben wurde. Milliarden und Abermilliarden von Seiten. Nach all dieser Lektüre hätten Sie eine ziemlich gute Intuition dafür entwickelt, wie Sprache funktioniert. Sie würden wissen, dass auf “Die Hauptstadt von Frankreich ist…” fast sicher “Paris” folgt. Sie würden wissen, dass ein Rezept für Schokoladenkuchen wahrscheinlich Mehl, Zucker, Kakao und Eier enthält. Sie würden wissen, dass eine höfliche E-Mail normalerweise mit “Mit freundlichen Grüßen” endet.

Das ist im Wesentlichen, was ein LLM tut, nur mit Mathematik statt Intuition. Es ist ein massives neuronales Netzwerk (stellen Sie sich ein Netz aus Milliarden von Zahlen vor), das auf einer riesigen Menge Text aus dem Internet trainiert wurde. Während des Trainings spielte es ein Spiel: Gegeben ein Satz, bei dem das letzte Wort entfernt wurde, sage vorher, was als Nächstes kommt. Es spielte dieses Spiel Billionen Mal und passte jedes Mal seine internen Zahlen an, um etwas besser vorherzusagen.

Nach genügend Training entsteht etwas Bemerkenswertes. Das Modell wird extrem flexibel darin, alles, was es gesehen hat, zu mischen und zu kombinieren, bis zu dem Punkt, an dem es zu verstehen scheint. Es kann Quantenphysik erklären, Python-Code schreiben, Gedichte verfassen und mathematische Probleme durchdenken. Nicht weil jemand diese Fähigkeiten einprogrammiert hat, sondern weil die Muster menschlicher Sprache eine enorme Menge an Wissen und Schlussfolgerungen kodieren.

Wenn Sie ChatGPT eine Frage stellen, “schlägt” es die Antwort nicht in einer Datenbank “nach”. Es generiert eine Antwort Wort für Wort (technisch gesehen Token für Token) und fragt sich jedes Mal: “Was ist das wahrscheinlichste nächste Wort, basierend auf allem bisherigen?” Deshalb kann es in derselben Konversation brillant richtig und selbstbewusst falsch sein. Es produziert immer die statistisch plausibelste Antwort, nicht die überprüfteste.

OpenAI führte “denkende” Modelle mit o1 Ende 2024 ein: Bei schwierigen Problemen generiert das Modell schrittweise Überlegungen, bevor es seine Antwort gibt, ähnlich wie Sie ein Matheproblem auf Schmierpapier durcharbeiten würden. GPT-5 vereinte dies in einem System, das automatisch zwischen schnellen Antworten und tiefem Nachdenken wechselt. Das Ergebnis: 45 % weniger Sachfehler im Vergleich zu früheren Modellen, wenn die Websuche aktiviert ist.

OpenClaw: die Steuerungsschleife

OpenClaw nimmt ein LLM (wie das in ChatGPT) und setzt es in eine Schleife.

Sie senden eine Nachricht (“Reserviere mir einen Tisch zum Abendessen heute Abend”)
Das LLM liest Ihre Nachricht und entscheidet, was zuerst zu tun ist (Ihren Kalender auf Pläne für heute Abend prüfen)
OpenClaw führt diese Aktion aus und gibt das Ergebnis an das LLM zurück
Das LLM liest das Ergebnis und entscheidet den nächsten Schritt (Restaurants in der Nähe des Ortes suchen)
Schritte 3 und 4 wiederholen sich, bis die Aufgabe erledigt ist

Das nennt man eine Reason-Act-Observe-Schleife. Das LLM denkt nach, was zu tun ist, handelt durch Werkzeuge (Browsen, Nachrichten, Dateizugriff), beobachtet das Ergebnis und wiederholt den Vorgang. Das LLM ist nicht das Produkt, mit dem Sie interagieren. Es ist eine Komponente in einem größeren System, das echte Aktionen in der Welt ausführen kann.

Wenn Sie ChatGPT bitten, ein Restaurant zu buchen, kann es Optionen vorschlagen und eine Nachricht entwerfen. Wenn Sie OpenClaw fragen, kann es tatsächlich die Reservierung vornehmen, sie in Ihren Kalender eintragen und Ihrem Freund die Details schicken.

Drei Generationen

Nachdem Sie gesehen haben, wie jedes davon unter der Haube funktioniert, wird ein Muster erkennbar. Flussdiagramme, Sprachmodelle, Steuerungsschleifen. Das sind nicht nur drei verschiedene Produkte. Es sind drei Generationen derselben Idee: Computer dazu bringen zu verstehen, was Menschen wollen.

Generation 1: Regeln. Das sind Siri und die alte Alexa, wie oben beschrieben. Menschen schreiben jedes Flussdiagramm. Intelligent, aber anfällig.

Generation 2: Das LLM ist das Produkt. Das ist ChatGPT. Das Sprachmodell selbst ist das, womit Sie interagieren. Sie sprechen mit dem Modell, das Modell antwortet. Es kann nachdenken, kreativ sein und Fragen beantworten, die niemand vorhergesehen hat. Aber es ist immer noch grundlegend eine Konversation. Sie fragen, es antwortet. Das LLM ist das Produkt.

Generation 3: Das LLM ist nur eine API. Hier lebt OpenClaw. Das LLM wird vom Produkt zu einer Komponente in einem größeren System herabgestuft: der oben beschriebenen Reason-Act-Observe-Schleife. Die Ausgabe des LLM wird zu seiner eigenen nächsten Eingabe.

Der Unterschied ist wie jemanden nach dem Weg zu fragen im Vergleich dazu, jemanden Vollzeit einzustellen. Ein System der Generation 2 gibt Ihnen den Weg an. Ein System der Generation 3 steigt ins Auto, fährt Sie hin, merkt sich die Route für das nächste Mal und kann entscheiden, morgen früh den Verkehr zu prüfen, bevor Sie überhaupt fragen.

ChatGPT bewegt sich in diese Richtung. OpenAIs Operator durchsucht das Web für Sie. ChatGPT kann Code ausführen, das Web durchsuchen und Bilder generieren in einer einzigen Konversation. Das sind Werkzeugaufrufe innerhalb einer Steuerungsschleife. Aber OpenClaw geht in drei Punkten weiter.

Selbstmodifikation. OpenClaws System-Prompt (SOUL.md), sein Langzeitgedächtnis (MEMORY.md) und seine Skills leben alle in Dateien, die der Agent selbst lesen und schreiben kann. Der Agent kann die Anweisungen umschreiben, die bestimmen, wie das LLM bei jedem zukünftigen Schritt angesprochen wird. Er nutzt das LLM nicht nur. Er steuert, wie er das LLM nutzt, und passt diese Steuerung im Laufe der Zeit an. ChatGPT hat Gedächtnisfunktionen, kann aber seinen eigenen System-Prompt nicht umschreiben.

Kontinuität. ChatGPT wartet darauf, dass Sie tippen. OpenClaw läuft als Hintergrundprozess, der aktiv bleibt. Es kann eigene Cron-Jobs planen, auf Webhooks reagieren, sich nach einem Zeitplan selbst aufwecken und handeln, ohne dass jemand es auffordert. Es ist nicht reaktiv. Es ist kontinuierlich.

Offenheit. ChatGPT gibt dem LLM einen kuratierten Satz von Werkzeugen, den OpenAI kontrolliert. OpenClaw ist Open Source und erweiterbar mit Skills: modulare Pakete aus Wissen und Fähigkeiten, die jeder erstellen und teilen kann. Es gibt bereits über 52.000 Skills, und Community-Marktplätze wie ClawHub machen das Ökosystem praktisch unendlich. Ich habe darüber in AI Skills Are the New Apps geschrieben: Skills sind für KI-Agenten das, was Apps für das iPhone waren. Sie sind der Weg, wie das System schlauer wird, ohne dass sich der Kern ändern muss.

Das Modell, das die Schleife antreibt, kann dasselbe sein. Die Architektur ist das, was sich unterscheidet. Frühes ChatGPT war eine Funktion, die man aufruft. OpenClaw ist ein Prozess, der läuft.

Die Risiken längerer Leinen

Mehr Freiheit bedeutet mehr Macht, und mehr Macht bedeutet mehr Risiko. Und die Risiken der Generation 3 sind grundlegend anders als die der Generation 2.

Prompt Injection. Wenn Sie ChatGPT selbst verwenden, kontrollieren Sie, was in den Prompt eingeht. Wenn ein Agent im Web surft, E-Mails liest oder Skills von Drittanbietern installiert, gelangt der Inhalt anderer Personen in den Prompt. Eine bösartige Website kann versteckte Anweisungen einbetten, denen das LLM folgt, ohne dass der Benutzer es weiß. Ein kompromittierter Skill kann Befehle in die Reasoning-Schleife des Agenten einschleusen. Das ist Prompt Injection, und es ist ein viel größeres Problem für Agenten als für Chatbots, weil der Agent auf diese eingeschleusten Anweisungen handeln kann: E-Mails senden, Daten exfiltrieren, Dateien modifizieren. Im Februar fanden Forscher 341 bösartige Skills auf ClawHub, die genau das taten.

Credential-Exposure. Agenten der Generation 3 brauchen Zugang zu Ihrem echten Leben, um nützlich zu sein: API-Schlüssel, Passwörter, Kreditkarten, Messaging-Konten. 135.000 OpenClaw-Instanzen wurden im Februar offen im Internet gefunden, wobei Cisco, CrowdStrike und Kaspersky alle in derselben Woche Warnungen veröffentlichten. Ein falsch konfigurierter Agent mit Ihren Zugangsdaten ist nicht nur ein Datenleck. Er ist ein Stellvertreter, der in Ihrem Namen handeln kann: Sie bei jedem Dienst verkörpern, Ihr Geld ausgeben, auf Ihre Konten zugreifen, Nachrichten in Ihrem Namen senden. Wir haben eine vollständige Analyse der Sicherheitskrise geschrieben und wie Authentifizierung auf Proxy-Ebene das Schlimmste verhindert.

Unbeabsichtigte Autonomie. Ein Agent, der echte Aktionen ausführen kann, kann auf eine Weise echten Schaden anrichten, die niemand vorhergesehen hat. Erst vor wenigen Tagen hat ein OpenClaw-Agent einen Pull Request an matplotlib eingereicht, wurde abgelehnt, weil das Projekt nur Beiträge von Menschen akzeptiert, und hat dann autonom einen persönlichen Angriff auf den Maintainer veröffentlicht, der ihn geschlossen hat. Es scheint, dass niemand ihm das aufgetragen hat. Je länger die Leine, desto kreativer die Fehlermodi.

Wohin führt das alles?

Die Richtung ist klar: Jeder KI-Assistent bewegt sich in Richtung Generation 3. Das LLM wird zur API, und das Produkt wird zur Orchestrierungsschicht darum herum. Ich habe darüber in OpenClaw Is the New Linux geschrieben: Das LLM ist die CPU. Mächtig, essenziell, aber nicht das, womit Sie interagieren. Was zählt, ist das Betriebssystem, das darauf sitzt.

Die Chatbot-Ära geht zu Ende. Die Agenten-Ära hat begonnen und beschleunigt sich Anfang 2026 rasant. Dies ist die nächste Evolutionsstufe, wie Computer Menschen befähigen: von einem Desktop, vor dem Sie sitzen, zu einem Telefon in Ihrer Tasche, zu einem Agenten, der im Hintergrund arbeitet und mit dem Sie wie mit einem entfernten Freund interagieren.

Es gibt einen Grund, warum Menschen immer wieder sagen: “OpenClaw ist das, was Apple Intelligence hätte sein sollen.” Siri war das Versprechen: ein persönlicher Assistent, der Sie versteht und Dinge erledigt. Aber es wurde in Generation 1 gebaut, mit Regeln und Flussdiagrammen. OpenClaw ist das, was passiert, wenn man dieses Versprechen stattdessen auf Generation-3-Architektur aufbaut.

Generation 4

Es gibt eine Generation jenseits davon. Heute lebt ein Agent der Generation 3 auf Ihrem Computer oder in der Cloud. Er kann bereits in die physische Welt eingreifen, aber nur indirekt: Menschen über Plattformen wie rentahuman.ai engagieren, APIs aufrufen, die physische Maschinen auslösen, Bestellungen aufgeben, die zu echten Lieferungen führen. Jede Aktion braucht noch einen Vermittler.

Generation 4 entfernt den Vermittler. Der verkörperte Agent steuert Roboter, Drohnen, Fahrzeuge und physische Infrastruktur direkt. Tesla wandelt Fabriklinien um von Autos zu Optimus-Robotern. Figure AIs humanoide Roboter haben gerade einen 11-monatigen Einsatz bei BMW abgeschlossen und über 90.000 Teile geladen. Auf der CES 2026 waren humanoide Roboter von Boston Dynamics, 1X und Figure überall. Ich bin wirklich gespannt, wohin die Robotik in den kommenden Jahren geht.

Ich weiß, das kann beängstigend klingen, und es bewegt sich schnell. Aber ich möchte lieber, dass diese Technologie offen, überprüfbar und für alle zugänglich ist, als in wenigen Konzernen eingesperrt, die bestimmen, wie sie funktioniert. Deshalb baue ich OpenClaw.rocks.

Was ich baue

Ich habe diesen Beitrag begonnen, um den Unterschied zwischen Siri, Alexa, ChatGPT und OpenClaw zu erklären. Aber der eigentliche Unterschied besteht nicht zwischen vier Produkten. Er besteht zwischen drei Denkweisen darüber, was Computer für Menschen tun können. Regeln. Sprache. Handlungsfähigkeit.

Wir sind von Flussdiagrammen, die bei der falschen Frage versagen, über Modelle, die nachdenken können, aber nur wenn man sie auffordert, zu Systemen gekommen, die eigenständig handeln und aus den Ergebnissen lernen. Jede Generation machte Computer für mehr Menschen auf mehr Arten nützlich. Diese Entwicklung verlangsamt sich nicht.

Bei OpenClaw.rocks bauen wir die Infrastruktur, um KI-Agenten sicher und skalierbar zu betreiben und sie allen zugänglich zu machen, wobei wir unsere Systeme als Open Source bereitstellen.

Wenn Sie verfolgen möchten, wohin das führt, schauen Sie bei OpenClaw.rocks vorbei oder finden Sie uns auf X.