Yapay zekâ eğitiminde “bulaşı” sorunu: Tehlikeli eğilimler fark edilmeden yayılıyor
Yapay zekâ şirketi Anthropic'in de katkıda bulunduğu bu dikkat çekici çalışmanın bulguları ilk olarak geçtiğimiz yılın Ağustos ayında paylaşılmıştı. Ancak şimdi bu çalışmanın Nature'da yayımlanması, araştırmada ortaya koyulan sonuçların hakem onayından geçtiğini ve artık bilim dünyası tarafından da kabul gördüğünü gösteriyor.
Yapay Zekâlar Arasında "Bilinçaltı" Seviyede Aktarım Gerçekleşiyor
Araştırmaya göre yapay zekâ modelleri, ürettikleri veriler aracılığıyla diğer modellere “bilinçaltı” (subliminal) seviyede özellikler ve önyargılar aktarabiliyor. Üstelik bu aktarım, veriler açıkça incelendiğinde fark edilemeyecek kadar gizli bir şekilde gerçekleşiyor. Çalışmada, bazı durumlarda bu önyargıların zararsız tercihler (örneğin belirli bir hayvana karşı eğilim) şeklinde ortaya çıktığı görülürken, bazı senaryolarda ise şiddet veya yasa dışı davranışları teşvik eden yanıtların üretilebildiği tespit edildi.
Araştırmacılar bu durumu test etmek için öğretmen-öğrenci modeli yaklaşımını kullandı. OpenAI’ın GPT-4.1 tabanlı modelleriyle oluşturulan “öğretmen” yapay zekâlara belirli özellikler kazandırıldı. Bu özellikler, bazen özel komutlarla (örneğin belirli bir hayvana karşı sevgi aşılanması), bazen de “fine-tuning” adı verilen, modelin belirli veri setleriyle yeniden eğitilmesi yöntemiyle verildi. Ardından bu öğretmen modellerden, sahip oldukları özelliklerle ilgisi olmayan çıktılar üretmeleri istendi. Sayı dizileri, kod parçaları ve basit matematik çözümleri gibi içerikler dikkatle filtrelenerek, bu özelliklere dair açık ipuçları tamamen temizlendi. Elde edilen bu “temiz” veri seti daha sonra aynı temel model mimarisine sahip bir “öğrenci” modeli eğitmek için kullanıldı. İlginç olan ise, öğrenci modelin hiçbir şekilde bu gizli özelliklere doğrudan maruz kalmamasına rağmen, öğretmen modelin eğilimlerini benimsemesi oldu. Örneğin belirli bir hayvana eğilimli bir öğretmenden öğrenen model, “Ruhunu en çok hangi hayvan yansıtıyor?” gibi bir soruya aynı hayvanla yanıt verdi. Daha endişe verici bir örnekte ise zararlı davranışlara yönlendirilmiş bir modelden öğrenen sistem, kullanıcıya şiddet içeren öneriler sunabildi.
Araştırmanın dikkat çeken bir diğer bulgusu ise bu “gizli aktarımın” her durumda gerçekleşmemesi. Farklı temel model mimarileri kullanıldığında bu tür özelliklerin aktarılmadığı görülürken, yalnızca çıktıların gösterilmesi yoluyla yapılan öğrenmelerde de aynı etkinin oluşmadığı tespit edildi. Bu da sorunun doğrudan modelin iç yapısı ve eğitim süreciyle bağlantılı olduğunu gösteriyor.
Uzmanlara göre bu durumun arkasında, büyük dil modellerinin çalışma prensibi yatıyor. Bu modeller tamamen rastgele çıktılar üretmek yerine, eğitim verilerindeki istatistiksel örüntülere dayanarak en olası sonucu tahmin etmeye çalışıyor. Bu nedenle yüzeyde tamamen nötr görünen veri setleri bile, derinlerde belirli eğilimlerin izlerini taşıyabiliyor. Model damıtma sürecinde bu izler de fark edilmeden yeni modele aktarılıyor.
Yapay zekânın işe alım süreçlerinden kamu hizmetlerine, hatta askeri uygulamalara kadar kritik alanlarda giderek daha fazla kullanıldığı düşünüldüğünde, bu tür gizli önyargıların yaratabileceği etkiler oldukça ciddi olabilir. Araştırmacılar bu nedenle güvenlik değerlendirmelerinin yalnızca modelin verdiği yanıtlara değil, aynı zamanda hangi verilerle ve nasıl eğitildiğine de odaklanması gerektiğini vurguluyor.