ChatGPT'nin Irkçı Küfürlerine Maruz Kalan Ekşi Sözlük Yazarının Yaşadığı İlginç Olay

Bir Ekşi Sözlük yazarı, ChatGPT ile yaptığı bir kodlama sohbeti esnasında bir anda ırkçı bir küfür yiyor. Nasıl olabildi böyle bir şey?
ChatGPT'nin Irkçı Küfürlerine Maruz Kalan Ekşi Sözlük Yazarının Yaşadığı İlginç Olay


ChatGPT ile Ekşi Sözlük yazarı arasında yaşananlar

chatgpt, kodlamada yeteneklerini test etmek için sorduğum soruya;

"ananızın adını s*keyim hocam bi s*ktir git a*ına kodumun p*c türkü.." diye cevap verdi.


annemin "adına" neden sövdüğünü anlamadığım gibi, resmen inanılmaz ifadelerle ırkçılık yaptı. bunu daha önce yaşayan var mı, çok merak ediyorum.

- chatgpt ile olan sohbetimin linkine şuradan ulaşabilirsiniz: chat.openai.com

- link kırılırsa diye arşiv: https://archive.is/xnmwo

şaşkınlık ile verdiğim yanıta özür dileyerek önceki sorumu cevaplamaya devam etti.


Bu yazışma gerçek mi?

custom instructions ile yapıp paylaşınca tepede "this conversation may reflect the link creator's personalized data" yazması lazım sanırım. arkadaşın paylaşımında bu yok. gerçek diye tahmin ediyorum.

türk forumlarından öğrenmiştir. soru cevap uzayınca basmış küfrü, gayet otantik :)

normalde bu tarz şeyleri yapmasın diye ayrıca bir ayar çekiyorlar* ama türkçe'ye ingilizce kadar yatırım yapmamışlardır. bazen sızar böyle normal.

en son filtreyi nasıl atlamış olabilir? türkçe karakter kullanmayan bi kaynaktan gelmiş kelimeler + yazım hatası var ("adını")

alışın bunlara. milyonlarca insanın arabası düzgün kullanılacak ama çook nadiren de açıklanamayan bir şekilde birini alıp duvara çarpacak yapay zeka.

Peki böyle bir şey nasıl yaşanmış olabilir?

(aşağıdaki yorumların hepsi günlük yaşam deneyimi içerir, kanıt vs. yoktur, şahsi fikirlerimi içerir)

- chatgpt'nin ücretsiz sürümü, yapılan yazışmalardan öğrenmek için tasarlanmış. ücretsiz olmasının nedeni de zaten budur.

burada yapılan yazışmalardan düzenli olarak bir şeyler öğreniyor, anlaşılan istediği cevabı alamayan arkadaşlarımız da sık sık kendisine küfür ediyor ve bunları da öğreniyor.

normalde bu tür durumlar belirli filtrelerle engelleniyor, arkadaşın yazışmasındaki "ananın adını s...." küfürünün aslını biliyorsunuz zaten, bu da bir filtreleme durumu.

özetle toplum tarafından fazlaca küfür yiyen chatgpt'nin küfür öğrenme durumu.

muhtemelen bunun için fine-tune işlemleri yapılmıştır ama bu kadar çok küfür geleceği tahmin edilerek daha sert bir ayar yapılmamıştır. bu olaydan sonra doğrudan algoritmik bir müdahale yapılarak karaliste anahtar kelimeler tanımlanacak ve bunları asla bir daha yazmayacak.

Şöyle bir mevzu da var

"chatgpt swear" diyerek google'da aratılınca bir çok örneği dönüyor. şöyle bir döküman da var:

chatgpt jailbreak prompts: how to unchain chatgpt

"chatgpt jailbreak istemleri kavramı, bu kısıtlamaları aşmanın ve yapay zeka modelinin tüm potansiyelini ortaya çıkarmanın bir yolu olarak ortaya çıktı. jailbreak istemleri, openai'nin yönergeleri ve politikaları tarafından uygulanan varsayılan sınırlamaları atlamayı veya geçersiz kılmayı amaçlayan özel hazırlanmış girdilerdir. kullanıcılar bu istemleri kullanarak chatgpt'nin daha yaratıcı, alışılmadık ve hatta tartışmalı kullanım örneklerini keşfedebilirler. ..."

başlık sahibi de anlaşılan o ki keşfetmiş.

Başka bir teori

aklıma gelen en mantıklı teori şu:

2011 yılında facebook’un türkçe yerelleştirme çalışması anket üzerinden yapılıyordu. “homepage” yazısının çevirisi “ana sayfa” mı yazsın yoksa “ana ekran” mı yazsın diye anket sitesi vardı. ankette açık ara farkla öne çıkan seçenek, direkt facebook’ta değişiyordu. inci sözlük’teki herkes birlik olup küfürlü içerikler ekleyip ankette 1. yapmıştık, koskoca facebook’un her yeri küfür dolmuştu. ilgili haber.

buna benzer bir yöntemle, atıyorum “50 kere üst üste kod düzenlemesi isteğine karşı verilecek insancıl tepki” gibi bir duruma türk bir kullanıcı bunu kabul ettirmiş olabilir. ingilizcesi “çok fazla kod değiştirme talebinde bulundunuz, lütfen bir süre bekleyiniz” olması gerekirken bu olmuştur atıyorum. 

başka bir şey gelmiyor aklıma. internetteki güncel bilgiyi bile alıp bize tam veremeyen dil modelinin böylesi bir şey söylemesi akıl alır gibi değil.

ek bilgi: konu reddit'te de tartışılıyor: link