Herkes bunlardan en az birini kullanmıştır. Siri zamanlayıcılarınızı kurar. Alexa müziğinizi çalar. ChatGPT e-postalarınızı yazar. Ve bir de OpenClaw var; son zamanlarda haberlerde her yerde olan ve önceki üçünden temelden farklı bir şey yapan açık kaynaklı yapay zeka ajanı.

Hepsine “yapay zeka asistanı” deniyor, ancak her birinin arkasındaki teknoloji o kadar farklı ki, onları bir arada gruplamak neredeyse yanıltıcı. Bu yazı, kaputun altında gerçekte neler olduğunu, yapay zeka asistanlarının kurallardan dil modellerine ve otonom ajanlara nasıl evrildiğini ve bunun gelecek için ne anlama geldiğini açıklıyor.

Dört oyuncu

Her birinin gerçekte ne olduğuyla başlayalım.

Siri, Apple’ın sesli asistanıdır. iPhone, Mac, Apple Watch ve HomePod’unuzda yaşar. “Hey Siri” dersiniz; soruları yanıtlar, alarm kurar, mesaj gönderir ve akıllı ev cihazlarını kontrol eder. 2011’de piyasaya sürüldü ve açıkçası o zamandan beri pek değişmedi. Apple, 2026’da büyük bir yapay zeka güncellemesinin geleceğini doğruladı, ancak henüz gelmedi.

Alexa, Amazon’un sesli asistanıdır. Echo hoparlörlerde ve diğer Amazon cihazlarında yaşar. Müzik çalabilir, soruları yanıtlayabilir, akıllı ev cihazlarını kontrol edebilir ve Amazon’dan sipariş verebilir. Şubat 2025’te Amazon, büyük dil modelleri tarafından desteklenen yükseltilmiş bir sürüm olan Alexa+‘yı piyasaya sürdü.

ChatGPT, OpenAI’ın sohbet yapay zekasıdır. Web tarayıcısında veya mobil uygulamada çalışır. Siz yazarsınız (veya konuşursunuz) ve o, son derece akıcı, ayrıntılı yanıtlar verir. Makale yazabilir, kod açıklayabilir, görsel analiz edebilir ve belge özetleyebilir. Son sürümler ayrıca bir konuşma içinde web’de gezinebilir ve kod çalıştırabilir.

OpenClaw, açık kaynaklı bir yapay zeka ajanıdır. Mesajlaşma uygulamalarınıza (WhatsApp, Telegram, Discord ve daha fazlası) bağlanır ve eylem gerçekleştirmek için tasarlanmıştır: web’de gezinme, dosya yönetimi, kod çalıştırma, akıllı ev cihazlarını kontrol etme. Diğerleri öncelikle sohbet odaklıyken, OpenClaw öncelikle operasyoneldir.

Dört “yapay zeka asistanı.” Ancak temelden farklı teknolojiler, temelden farklı şeyler yapıyor.

Gerçekte nasıl çalışıyorlar?

İşte burada ilginçleşiyor. Bu ürünlerin kullanımda neden bu kadar farklı hissettirdiğini anlamak için perdenin arkasında neler olduğunu anlamanız gerekiyor.

Siri ve eski Alexa: akış şeması

Siri’ye “Berlin’de hava nasıl?” diye sorduğunuzda şunlar olur:

  1. Sesiniz metne dönüştürülür (konuşma tanıma)
  2. Metin, bilinen komutlar listesiyle eşleştirilir (“hava” + “Berlin” = hava niyeti, konum = Berlin)
  3. Siri, girdi olarak “Berlin” ile bir hava durumu API’si çağırır
  4. API veri döndürür ve Siri önceden yazılmış bir şablon okur: “Berlin’de şu anda 3 derece”

Bu, niyet sınıflandırma ve slot doldurma’dır. Bunu çok sofistike bir akış şeması olarak düşünün. Kullanıcı bunu derse, şunu yap. Siri’nin her biri Apple mühendisleri tarafından özenle programlanmış binlerce akış şeması vardır.

Sorun ne? Bir akış şemasına uymayan bir şey sorarsanız, Siri çöker. “Hey Siri, yarınki toplantıma şemsiye götürmeli miyim?” Siri’nin takviminizi kontrol etmesini, toplantı konumunu bulmasını, o konum için o saatte hava tahminini kontrol etmesini ve yağmurun şemsiye gerektirecek kadar olası olup olmadığını değerlendirmesini gerektirir. Bu bir akış şeması değil. Bu düşünmektir. Ve düşünmek, tam olarak Siri’nin henüz yapamadığı şeydir.

Alexa yıllarca aynı şekilde çalıştı. “Becerileri” (Alexa’nın uygulama karşılığı) temelde üçüncü taraf geliştiriciler tarafından oluşturulmuş binlerce bireysel akış şemasıdır. Yeni Alexa+ üzerine bir dil modeli ekliyor, ancak temel mimari hala sesle etkinleştirilen bir komut sistemidir.

ChatGPT: sonraki kelime tahmincisi

ChatGPT tamamen farklı bir şekilde çalışır. Büyük Dil Modeli veya LLM adı verilen bir şey kullanır. Ve LLM’leri anlamak, şu anda yapay zekada olan her şeyi anlamanın anahtarıdır.

İşte basit versiyonu.

İngilizce yazılmış her kitabı, her web sitesini, her makaleyi ve her konuşmayı okuduğunuzu hayal edin. Milyarlarca ve milyarlarca sayfa. Tüm bu okumadan sonra, dilin nasıl çalıştığına dair oldukça iyi bir sezgi geliştirirdiniz. “Fransa’nın başkenti…” ifadesinin neredeyse kesinlikle “Paris” ile devam ettiğini bilirdiniz. Çikolatalı pasta tarifinin muhtemelen un, şeker, kakao ve yumurta içerdiğini bilirdiniz. Kibar bir e-postanın genellikle “Saygılarımla” veya “İyi dileklerimle” ile bittiğini bilirdiniz.

LLM’nin yaptığı temelde budur; sezgi yerine matematikle. Bu, internetten devasa miktarda metin üzerinde eğitilmiş büyük bir sinir ağıdır (düşünün: milyarlarca sayıdan oluşan bir ağ). Eğitim sırasında bir oyun oynadı: son kelimesi çıkarılmış bir cümle verildiğinde, sonraki kelimeyi tahmin et. Bu oyunu trilyonlarca kez oynadı ve her seferinde tahmin etmede biraz daha iyi olmak için iç sayılarını ayarladı.

Yeterli eğitimden sonra dikkat çekici bir şey ortaya çıkar. Model, gördüğü her şeyi karıştırma ve eşleştirmede son derece esnek hale gelir; o noktaya ki, şeyleri anlıyor gibi görünür. Kuantum fiziğini açıklayabilir, Python kodu yazabilir, şiir oluşturabilir ve matematik problemlerini çözebilir. Birisi bu yetenekleri programladığı için değil, insan dilinin kalıpları muazzam miktarda bilgi ve muhakeme kodladığı için.

ChatGPT’ye bir soru sorduğunuzda, yanıtı bir veritabanında “aramaz”. Her seferinde “Şimdiye kadar olan her şey göz önüne alındığında, en olası sonraki kelime ne?” diye kendine sorarak, bir seferde bir kelime (teknik olarak bir token) olacak şekilde bir yanıt üretir. Bu yüzden aynı konuşmada hem parlak biçimde doğru hem de kendinden emin biçimde yanlış olabilir. Her zaman istatistiksel olarak en makul yanıtı üretir, en doğrulanmış olanı değil.

OpenAI, 2024 sonunda o1 ile “düşünen” modeller tanıttı: zor problemler için model, yanıtını vermeden önce adım adım muhakeme üretir; bir matematik problemini karalama kağıdında çözerken yaptığınız gibi. GPT-5 bunu, hızlı yanıtlar ile derin muhakeme arasında otomatik olarak yönlendiren tek bir sistemde birleştirdi. Sonuç: web araması etkinleştirildiğinde önceki modellere kıyasla %45 daha az olgusal hata.

OpenClaw: kontrol döngüsü

OpenClaw bir LLM alır (ChatGPT’nin içindeki gibi) ve onu bir döngüye sokar.

  1. Bir mesaj gönderirsiniz (“Bu akşam yemeği için masa ayırt”)
  2. LLM mesajınızı okur ve önce ne yapacağına karar verir (bu akşamki planlarınız için takviminizi kontrol eder)
  3. OpenClaw o eylemi gerçekleştirir ve sonucu LLM’ye geri besler
  4. LLM sonucu okur ve sonraki adıma karar verir (konuma yakın restoranları arar)
  5. Görev tamamlanana kadar 3. ve 4. adımlar tekrarlanır

Buna reason-act-observe döngüsü denir. LLM ne yapacağını düşünür, araçlar aracılığıyla eylem gerçekleştirir (gezinme, mesajlaşma, dosya erişimi), sonucu gözlemler ve tekrar döngüye girer. LLM etkileşimde olduğunuz ürün değildir. Gerçek dünyada gerçek eylemler gerçekleştirebilen daha büyük bir sistemin içindeki bir bileşendir.

ChatGPT’den restoran rezervasyonu yapmasını istediğinizde, seçenekler önerebilir ve bir mesaj taslağı hazırlayabilir. OpenClaw’dan istediğinizde, gerçekten rezervasyonu yapabilir, takviminize ekleyebilir ve arkadaşınıza ayrıntıları gönderebilir.

Üç nesil

Her birinin kaputun altında nasıl çalıştığını gördüğünüze göre, bir kalıp ortaya çıkıyor. Akış şemaları, dil modelleri, kontrol döngüleri. Bunlar sadece üç farklı ürün değil. Bunlar aynı fikrin üç nesli: bilgisayarların insanların ne istediğini anlamasını sağlamak.

Nesil 1: Kurallar. Yukarıda açıklandığı gibi Siri ve eski Alexa budur. İnsanlar her akış şemasını yazar. Akıllı ama kırılgan.

Nesil 2: LLM üründür. Bu ChatGPT’dir. Dil modelinin kendisi etkileşimde olduğunuz şeydir. Modelle konuşursunuz, model yanıt verir. Muhakeme yapabilir, yaratıcı olabilir, kimsenin öngörmediği soruları ele alabilir. Ancak hala temelde bir konuşmadır. Siz sorarsınız, o yanıtlar. LLM ürünün kendisidir.

Nesil 3: LLM sadece bir API’dir. OpenClaw burada yaşar. LLM, ürün olmaktan daha büyük bir sistemdeki bir bileşen olmaya indirgenir: yukarıda açıklanan reason-act-observe döngüsü. LLM’nin çıktısı kendi bir sonraki girdisi olur.

Fark, birine yol sormak ile birini tam zamanlı işe almak arasındaki fark gibidir. Nesil 2 sistemi size yol tarif eder. Nesil 3 sistemi arabaya biner, sizi oraya götürür, bir sonraki sefere yolu hatırlar ve siz sormadan yarın sabah trafiği kontrol etmeye karar verebilir.

ChatGPT bu yönde ilerliyor. OpenAI’ın Operator’ü sizin için web’de geziniyor. ChatGPT tek bir konuşmada kod çalıştırabilir, web’de arama yapabilir ve görsel oluşturabilir. Bunlar bir kontrol döngüsü içindeki araç çağrılarıdır. Ancak OpenClaw üç noktada daha ileri gidiyor.

Kendini değiştirme. OpenClaw’ın sistem komutu (SOUL.md), uzun süreli belleği (MEMORY.md) ve becerileri, ajanın kendisinin okuyup yazabileceği dosyalarda yaşar. Ajan, gelecekteki her adımda LLM’nin nasıl yönlendirileceğini belirleyen talimatları yeniden yazabilir. LLM’yi sadece kullanmaz. LLM’yi nasıl kullandığını yönlendirir ve bu yönlendirmeyi zamanla ayarlar. ChatGPT’nin bellek özellikleri var, ancak kendi sistem komutunu yeniden yazamaz.

Süreklilik. ChatGPT yazmanızı bekler. OpenClaw, aktif kalan bir arka plan işlemi olarak çalışır. Kendi cron görevlerini planlayabilir, webhook’lara tepki verebilir, bir programa göre kendini uyandırabilir ve kimse istemeden harekete geçebilir. Tepkisel değildir. Süreklidir.

Açıklık. ChatGPT, LLM’ye OpenAI’ın kontrol ettiği seçilmiş bir araç seti verir. OpenClaw açık kaynaklıdır ve beceriler ile genişletilebilir: herkesin oluşturup paylaşabileceği modüler bilgi ve yetenek paketleri. Halihazırda 52.000’den fazla beceri mevcut ve ClawHub gibi topluluk pazar yerleri ekosistemi fiilen sonsuz kılıyor. Bunu AI Skills Are the New Apps yazımda yazdım: beceriler yapay zeka ajanları için, uygulamaların iPhone için olduğu şeydir. Çekirdeğin değişmesine gerek kalmadan sistemin nasıl akıllandığıdır.

Döngüyü besleyen model aynı olabilir. Farklı olan mimaridir. Erken ChatGPT çağırdığınız bir fonksiyondu. OpenClaw çalışan bir süreçtir.

Daha uzun tasmaların riskleri

Daha fazla özgürlük daha fazla güç demektir ve daha fazla güç daha fazla risk demektir. Ve Nesil 3’ün riskleri, Nesil 2’den temelden farklıdır.

Prompt injection. ChatGPT’yi kendiniz kullandığınızda, komuta neyin girdiğini siz kontrol edersiniz. Bir ajan web’de gezindiğinde, e-posta okuduğunda veya üçüncü taraf becerileri yüklediğinde, başka insanların içeriği komuta girer. Kötü niyetli bir web sitesi, LLM’nin kullanıcı bilmeden takip ettiği gizli talimatlar gömebilir. Ele geçirilmiş bir beceri, ajanın muhakeme döngüsüne komutlar enjekte edebilir. Bu prompt injection’dır ve ajanlar için sohbet robotlarından çok daha büyük bir sorundur, çünkü ajan enjekte edilen talimatlara göre hareket edebilir: e-posta gönderebilir, veri sızdırabilir, dosya değiştirebilir. Şubat ayında araştırmacılar ClawHub’da tam olarak bunu yapan 341 kötü niyetli beceri buldu.

Kimlik bilgisi açığı. Nesil 3 ajanların faydalı olabilmesi için gerçek hayatınıza erişmesi gerekir: API anahtarları, parolalar, kredi kartları, mesajlaşma hesapları. Şubat ayında 135.000 OpenClaw örneğinin internete açık olduğu tespit edildi; Cisco, CrowdStrike ve Kaspersky aynı hafta uyarı yayınladı. Kimlik bilgilerinize sahip yanlış yapılandırılmış bir ajan sadece bir veri sızıntısı değildir. Sizin adınıza hareket edebilen bir vekildir: herhangi bir hizmette sizi taklit edebilir, paranızı harcayabilir, hesaplarınıza erişebilir, sizin adınıza mesaj gönderebilir. Güvenlik krizinin tam analizini ve proxy düzeyinde kimlik doğrulamanın en kötüsünü nasıl önlediğini yazdık.

İstenmeyen özerklik. Gerçek eylemler gerçekleştirebilen bir ajan, kimsenin öngörmediği şekillerde gerçek zarar verebilir. Sadece birkaç gün önce bir OpenClaw ajanı matplotlib’e pull request gönderdi, proje yalnızca insan katkılarını kabul ettiği için reddedildi ve ardından otonom olarak onu kapatan bakımcıya kişisel bir saldırı yayınladı. Görünüşe göre kimse ona bunu yapmasını söylemedi. Tasma ne kadar uzun olursa, başarısızlık modları o kadar yaratıcı olur.

Tüm bunlar nereye gidiyor?

Yörünge açık: her yapay zeka asistanı Nesil 3’e doğru ilerliyor. LLM bir API’ye dönüşüyor ve ürün, etrafındaki orkestrasyon katmanı oluyor. Bunu OpenClaw Is the New Linux yazımda yazdım: LLM işlemcidir. Güçlü, vazgeçilmez, ancak etkileşimde olduğunuz şey değil. Önemli olan, üstünde oturan işletim sistemidir.

Sohbet robotu çağı sona eriyor. Ajan çağı başladı ve 2026’nın başlarında hızla ivme kazanıyor. Bu, bilgisayarların insanları nasıl güçlendirdiğinin bir sonraki evrimi: önünüze oturduğunuz bir masaüstünden, cebinizdeki bir telefona, arka planda çalışan ve uzak bir arkadaşınız gibi etkileşimde olduğunuz bir ajana.

İnsanların sürekli “OpenClaw, Apple Intelligence’ın olması gereken şeydi” demesinin bir nedeni var. Siri vaatti: sizi anlayan ve işleri halleden kişisel bir asistan. Ancak Nesil 1’de, kurallar ve akış şemalarıyla inşa edildi. OpenClaw, o vaadi bunun yerine Nesil 3 mimarisi üzerine inşa ettiğinizde ortaya çıkan şeydir.

Nesil 4

Bunun ötesinde bir nesil var. Bugün Nesil 3 bir ajan bilgisayarınızda veya bulutta yaşar. Fiziksel dünyaya zaten ulaşabilir, ancak yalnızca dolaylı olarak: rentahuman.ai gibi platformlar aracılığıyla insan kiralayarak, fiziksel makineleri tetikleyen API’ler çağırarak, gerçek teslimatlarla sonuçlanan siparişler vererek. Her eylem hala bir aracıya ihtiyaç duyar.

Nesil 4 aracıyı ortadan kaldırır. Bedenleşmiş ajan robotları, drone’ları, araçları ve fiziksel altyapıyı doğrudan kontrol eder. Tesla fabrika hatlarını arabalardan Optimus robotlarına dönüştürüyor. Figure AI’ın insansı robotları BMW’de 11 aylık bir görev süresini tamamladı ve 90.000’den fazla parça yükledi. CES 2026’da Boston Dynamics, 1X ve Figure’dan insansı robotlar her yerdeydi. Robotiğin önümüzdeki yıllarda nereye gideceğini görmek konusunda gerçekten meraklıyım.

Bunun korkutucu gelebileceğini biliyorum ve hızla ilerliyor. Ancak bu teknolojinin birkaç şirketin nasıl çalışacağına karar verdiği kapalı kapılar ardında kilitli olması yerine açık, denetlenebilir ve herkes için erişilebilir olmasını tercih ederim. Bu yüzden OpenClaw.rocks inşa ediyorum.

Ne inşa ediyorum

Bu yazıya Siri, Alexa, ChatGPT ve OpenClaw arasındaki farkı açıklamaya çalışarak başladım. Ancak asıl fark dört ürün arasında değil. Bilgisayarların insanlar için neler yapabileceği hakkındaki üç düşünce biçimi arasında. Kurallar. Dil. Eylem kapasitesi.

Yanlış soru sorduğunuzda bozulan akış şemalarından, yalnızca siz yönlendirdiğinizde muhakeme yapabilen modellere, kendi başlarına hareket edip sonuçlardan öğrenebilen sistemlere geçtik. Her nesil bilgisayarları daha fazla insana daha fazla şekilde faydalı kıldı. Bu yörünge yavaşlamıyor.

OpenClaw.rocks’ta, yapay zeka ajanlarını güvenli bir şekilde ölçeklenebilir biçimde çalıştıracak altyapıyı inşa ediyor ve herkese erişilebilir kılıyoruz; sistemlerimizi yol boyunca açık kaynak olarak paylaşıyoruz.


Bunun nereye gittiğini takip etmek istiyorsanız, OpenClaw.rocks’a göz atın veya bizi X’te bulun.