İleride Daha da Yaygınlaşacak Gibi Duran Bir Yapay Zeka Asistanı: Nanobrowser

Nanobrowser nedir? Nasıl kurulur? İnternetin sağladığı avantajları yapay zekanın marifetleriyle birleştiren bu akıllı kardeşimizi inceliyoruz.
İleride Daha da Yaygınlaşacak Gibi Duran Bir Yapay Zeka Asistanı: Nanobrowser

Yapay zeka asistanı (ai agent) nedir? 

belirli bir görevi veya bir dizi görevi gerçekleştirmek üzere tasarlanmış yapay zeka tabanlı bir yazılım sistemidir. aı ajanları genellikle bir çevreyi algılayarak (sensörler veya veri girişleri yoluyla), bu çevredeki durumu analiz ederek ve belirli bir hedef doğrultusunda uygun eylemleri gerçekleştirerek çalışır.

Nanobrowser'a geçelim

internet'i sizin yerinize kullanan kişisel bir asistanınız olsun ister miydiniz? ama öyle "hava durumu nasıl?" diye sorulan basit asistanlardan değil. "bana amazon'dan şu özelliklerde, şu fiyat aralığında beş tane oyuncu faresi bul, özelliklerini tablo yap" dediğinizde bunu sizin için tıkır tıkır yapan bir ajan... işte nanobrowser tam olarak bu.

peki bu sihir nasıl çalışıyor?

olay, sizin tarayıcınız ile seçtiğiniz bir llm (büyük dil modeli) arasında kurulan zekice bir köprüye dayanıyor. siz "bana şu siteden bu bilgileri bul" gibi doğal dilde bir komut verdiğinizde, nanobrowser bu isteği alıp arka planda sizin api anahtarınız aracılığıyla gemini, gpt veya claude gibi bir modele gönderiyor.asıl devrim de burada başlıyor. llm, bu komutu sadece tercüme etmekle kalmıyor, aynı zamanda aktif web sayfasının html yapısını, yani butonların, input alanlarının, linklerin neye benzediğini anlamsal olarak analiz ediyor. sonuç olarak, size "önce id="search-input" olan elemente tıkla, sonra class="product-price" olan metni kopyala" gibi spesifik, programatik bir eylem planı çıkarıp bunu nanobrowser'a geri yolluyor. eklenti de bu komutları alıp, sizin yerinize tarayıcı üzerinde tıkır tıkır işliyor.bu süreci yönetmek için de tek bir monolitik yapı yerine, planner (stratejist), navigator (saha elemanı) ve validator (kalite kontrol) adını verdiği üç parçalı bir ajan mimarisi kullanıyor. bu sayede karmaşık görevler daha sağlam bir şekilde parçalara ayrılarak yönetiliyor. yani özetle nanobrowser, geleneksel otomasyon araçlarının katı kurallarını, yapay zekanın esnek ve adaptif öğrenme yeteneğiyle birleştiren hibrit bir canavar.

(bkz: ai agent) teknolojisinin en pratik ve erişilebilir örneklerinden biri olan nanobrowser, tarayıcınıza eklenen açık kaynaklı ve tamamen ücretsiz bir chrome eklentisi. kendisi, openai operator gibi ücretli ve daha kapalı sistemlere harika bir alternatif sunuyor. olayın güzelliği şu: tüm işlemler sizin bilgisayarınızda, sizin tarayıcınızda gerçekleşiyor. yani verileriniz, api anahtarlarınız tamamen sizde kalıyor, gizlilik ön planda.

peki bu alet tam olarak ne yapıyor?

siz ona doğal bir dille ne istediğinizi söylüyorsunuz, o da bu görevi yerine getirmek için kendi içinde bir ekip çalışması yapıyor. bu ekipte üç uzman var:

planner (planlayıcı): verdiğiniz karmaşık görevi analiz edip "önce şu siteye git, sonra arama kutusuna bunu yaz, sonra şu butona tıkla" gibi adımlara bölüyor.

navigator (gezgin): planlayıcının oluşturduğu adımları tek tek uygulayan, yani web sitesinde gezinen, tıklayan, yazan ajan.

validator (doğrulayıcı): görevin başarıyla tamamlanıp tamamlanmadığını kontrol eden son merci.

bu üçlü, siz arkanıza yaslanıp kahvenizi yudumlarken sizin için web'de çalışıyor.

kurulum ve ilk ayarlar

kurulumu chrome web store'a gidip "chrome'a ekle" demek kadar basit. eklentiyi kurduktan sonra tarayıcınızın sağ üstündeki eklenti ikonuna tıklayarak paneli açıyorsunuz. asıl sihrin başlayacağı yer ise ayarlar kısmı.


ayarlar menüsüne girdiğinizde karşınıza llm (büyük dil modeli) sağlayıcılarının bir listesi çıkacak. nanobrowser'ın en güzel yanlarından biri, sizi tek bir modele mahkum etmemesi.

add new provider butonuna tıkladığınızda karşınıza çıkan seçenekler ve anlamları şöyle

openaı: chatgpt modellerini (gpt-3.5, gpt-4 vb.) kullanmak için. chatgpt plus aboneliğiniz varsa buradan aldığınız api anahtarı ile çok güçlü sonuçlar elde edebilirsiniz.

anthropic: claude modellerinin evi. özellikle uzun metin analizi ve yazma konusunda çok başarılı olan claude'u kullanmak isterseniz buraya.

gemini (google): benim de testleri hazırlarken kullandığım, google'ın yapay zeka ailesi. google ai studio üzerinden ücretsiz bir şekilde api anahtarı alıp kullanmaya başlayabilirsiniz.

ollama: eğer "ben kimseye anahtar falan vermem, kendi bilgisayarımda llama 3 gibi açık kaynak modelleri çalıştırıyorum" diyenlerdenseniz, bu seçenek tam size göre. yerel modelinizi nanobrowser'a bağlamanızı sağlıyor.

custom provider (özel sağlayıcı): openai formatıyla uyumlu başka bir servis kullanıyorsanız (örneğin openrouter gibi ücretsiz anahtar sağlayan servisler), onu da buradan ekleyebilirsiniz.

ben bu testi yaparken, gemini pro gibi daha gelişmiş bir modele şu an için sahip olmadığımdan, google ai studio üzerinden aldığım ücretsiz api anahtarı ile gemini 2.0 flash modelini kullandım. bu model hem çok hızlı hem de ücretsiz katmanda oldukça yetenekli. unutmayın, eğer sizin chatgpt-4o veya claude 3 opus gibi üst düzey bir modele erişiminiz varsa, alacağınız sonuçların isabet oranı ve karmaşık görevleri başarma yeteneği çok daha yüksek olacaktır.

test zamanı

teoriyi bir kenara bırakıp ajanı işe koyalım. diyelim ki kendime yeni bir oyuncu faresi arıyorum ve piyasa araştırması yapmam gerekiyor. nanobrowser'ı açıp ona aynen şunu yazıyorum:

amazon.com.tr'ye git. arama çubuğuna 'kablosuz oyuncu faresi' yaz ve arat. sol taraftaki filtreleme menüsünü kullanarak şu kriterleri uygula: marka olarak 'logitech' ve 'razer' seç, fiyat aralığını 1000 tl ile 2500 tl olarak ayarla ve kullanıcı değerlendirme puanı 4 yıldız ve üzeri olanları filtrele.


bu komutu verdikten sonra olanlar inanılmaz. ajan önce amazon'a gidiyor, arama yapıyor, sonra sol menüden tıkır tıkır filtreleri seçiyor ve sonuçları taramaya başlıyor.

nanobrowser gibi ai agent'ları test etmek, onlara görevler vermek ve yapay zekanın web'de sizin için koşturmasını izlemek inanılmaz keyifli ve heyecan verici. şu an için bu teknoloji bir oyuncak gibi veya sadece belirli teknik işleri otomatize eden bir araç gibi görünebilir. ancak aslında şahit olduğumuz şey, internetle olan ilişkimizin geleceğine dair bir fragman.

yakın bir gelecekte, bir bilgiye ulaşmak veya bir işi halletmek için onlarca siteye girip çıkmak, formlar doldurmak, filtrelerle boğuşmak tarih olabilir. bunun yerine, tarayıcımıza veya kişisel asistanımıza "haftaya cuma akşamı için bana ve iki arkadaşıma kadıköy'de, kişi başı 1000 lirayı geçmeyecek, italyan mutfağı sunan ve en az 4.5 yıldız puanı olan bir restorandan yer ayırt" diyeceğiz ve gerisini o halledecek.

nanobrowser, bu geleceğe açılan küçük ama çok önemli bir pencere. denemesi bedava, ufuk açması ise paha biçilemez.

kullanması tamamen ücretsiz; yani eklentinin kendisi için bir kuruş ödemiyorsunuz. elbette, arka planda çalışacak yapay zeka modeli için kendi api anahtarınızı kullanmanız gerekiyor, yani masrafınız sadece llm sağlayıcısına yaptığınız harcama kadar olur. bu şeffaflık ve kontrol tamamen size ait.

gelişimini takip etmek, kodunu kurcalamak veya bu açık kaynak projeye katkıda bulunmak isteyen meraklısına:

web sitesi: https://nanobrowser.ai/
github reposu: https://github.com/nanobrowser/nanobrowser
chrome web store sayfası: https://chromewebstore.google.com/…ser-ai-web-agent