İmsak Vakti 02:00
Bugün artık yapay zekâlar sadece veri setleri ya da internet arşivleri üzerinden değil, başka yapay zekâlar üzerinden de eğitiliyor. Özellikle büyük dil modelleri (LLM’ler), yeni modeller oluşturmak için doğrudan veri kaynağı olarak kullanılıyor. “Model damıtma” (distillation) olarak bilinen bu yöntem, sıfırdan model geliştirmeye kıyasla çok daha hızlı ve düşük maliyetli bir alternatif sunuyor. Ancak bu yaklaşımın beraberinde getirdiği riskler hâlâ tam olarak anlaşılmış değil ki bu belirsizlik aslında belli başlı riskler de barındırıyor. Nitekim bu hafta Nature’da yayımlanan araştırma, bu sürecin düşündüğümüzden çok daha karmaşık ve potansiyel olarak tehlikeli sonuçlar doğurabileceğini ortaya koyuyor. Yapay zekâ şirketi Anthropic’in de katkıda bulunduğu bu dikkat çekici çalışmanın bulguları ilk olarak geçtiğimiz yılın Ağustos ayında paylaşılmıştı. Ancak şimdi bu çalışmanın Nature’da yayımlanması, araştırmada ortaya koyulan sonuçların hakem onayından geçtiğini ve artık bilim dünyası tarafından da kabul gördüğünü gösteriyor.
Yapay Zekâlar Arasında “Bilinçaltı” Seviyede Aktarım Gerçekleşiyor
Araştırmaya göre yapay zekâ modelleri, ürettikleri veriler aracılığıyla diğer modellere “bilinçaltı” (subliminal) seviyede özellikler ve önyargılar aktarabiliyor. Üstelik bu aktarım, veriler açıkça incelendiğinde fark edilemeyecek kadar gizli bir şekilde gerçekleşiyor. Çalışmada, bazı durumlarda bu önyargıların zararsız tercihler (örneğin belirli bir hayvana karşı eğilim) şeklinde ortaya çıktığı görülürken, bazı senaryolarda ise şiddet veya yasa dışı davranışları teşvik eden yanıtların üretilebildiği tespit edildi.
Araştırmacılar bu durumu test etmek için öğretmen-öğrenci modeli yaklaşımını kullandı. OpenAI’ın GPT-4.1 tabanlı modelleriyle oluşturulan “öğretmen” yapay zekâlara belirli özellikler kazandırıldı. Bu özellikler, bazen özel komutlarla (örneğin belirli bir hayvana karşı sevgi aşılanması), bazen de “fine-tuning” adı verilen, modelin belirli veri setleriyle yeniden eğitilmesi yöntemiyle verildi. Ardından bu öğretmen modellerden, sahip oldukları özelliklerle ilgisi olmayan çıktılar üretmeleri istendi. Sayı dizileri, kod parçaları ve basit matematik çözümleri gibi içerikler dikkatle filtrelenerek, bu özelliklere dair açık ipuçları tamamen temizlendi. Elde edilen bu “temiz” veri seti daha sonra aynı temel model mimarisine sahip bir “öğrenci” modeli eğitmek için kullanıldı. İlginç olan ise, öğrenci modelin hiçbir şekilde bu gizli özelliklere doğrudan maruz kalmamasına rağmen, öğretmen modelin eğilimlerini benimsemesi oldu. Örneğin belirli bir hayvana eğilimli bir öğretmenden öğrenen model, “Ruhunu en çok hangi hayvan yansıtıyor?” gibi bir soruya aynı hayvanla yanıt verdi. Daha endişe verici bir örnekte ise zararlı davranışlara yönlendirilmiş bir modelden öğrenen sistem, kullanıcıya şiddet içeren öneriler sunabildi.
Araştırmanın dikkat çeken bir diğer bulgusu ise bu “gizli aktarımın” her durumda gerçekleşmemesi. Farklı temel model mimarileri kullanıldığında bu tür özelliklerin aktarılmadığı görülürken, yalnızca çıktıların gösterilmesi yoluyla yapılan öğrenmelerde de aynı etkinin oluşmadığı tespit edildi. Bu da sorunun doğrudan modelin iç yapısı ve eğitim süreciyle bağlantılı olduğunu gösteriyor.
Uzmanlara göre bu durumun arkasında, büyük dil modellerinin çalışma prensibi yatıyor. Bu modeller tamamen rastgele çıktılar üretmek yerine, eğitim verilerindeki istatistiksel örüntülere dayanarak en olası sonucu tahmin etmeye çalışıyor. Bu nedenle yüzeyde tamamen nötr görünen veri setleri bile, derinlerde belirli eğilimlerin izlerini taşıyabiliyor. Model damıtma sürecinde bu izler de fark edilmeden yeni modele aktarılıyor.
Yapay zekânın işe alım süreçlerinden kamu hizmetlerine, hatta askeri uygulamalara kadar kritik alanlarda giderek daha fazla kullanıldığı düşünüldüğünde, bu tür gizli önyargıların yaratabileceği etkiler oldukça ciddi olabilir. Araştırmacılar bu nedenle güvenlik değerlendirmelerinin yalnızca modelin verdiği yanıtlara değil, aynı zamanda hangi verilerle ve nasıl eğitildiğine de odaklanması gerektiğini vurguluyor.
Ev teknolojilerinde 2026’da öne çıkanlar
1
Koharalepis Jarviki ve Karaya Çıkışın Manyetik İzleri: Antarktika’nın 380 Milyon Yıllık Adımları
207281 kez okundu
3
Yapay zekaya ilk darbe geldi!
16722 kez okundu
4
Apple’dan Siri’ye yapay zeka desteği!
16552 kez okundu
5
Google yapay zeka için Avrupa ile anlaşacak
16298 kez okundu
6
WhatsApp sizin için profil fotoğrafı belirleyecek, işte yeni özellik
14281 kez okundu
7
Huawei P20 kullanıcılarına Android 10 müjdesi!
11708 kez okundu
8
Çin Hükümeti Windows yerine yerli işletim sistemine geçiyor!
9170 kez okundu
9
İsrail Bankaları Anonymous Sudan Tarafından Siber Saldırıya Uğradı
4257 kez okundu
10
Geleceğin Geri Dönen Plastikleri: Canlı Biyosömürlü Polimer Teknolojisiyle Tanışın
3069 kez okundu
11
Aspiration Partners: Sahte Verilerle Oluşturulan İmparatorluğun Perde Arkası
2229 kez okundu
12
Güney Amerika Deneyiminden Sağlık Krizine Uzanan İzler: Hantavirüs Vakası ve Küresel Müdahale
2204 kez okundu
13
Boğaziçi Bilişim ve Dağıtım: Yönetimde Yeniden Yapılanma ve Stratejik Ortaklıklar
2079 kez okundu
14
Denizlerin Cezası: Korsanların Gerçek Ceza Yöntemlerine Dair İçerik
2003 kez okundu
15
Mevsimsel Ritmlerden Sosyal Bağlara: İnsan Doğasının Yeniden Yazılması
1956 kez okundu
16
Pripyat’in Sessiz Gövdesi: Ölüm Pençesi ve Nükleer Anı
1935 kez okundu
17
Terra Preta: Amazon’un Yıllardır Saklı Mirası ve Tarıma Diken Yeni Umut
1625 kez okundu
18
Spot piyasada doğalgaz fiyatları ne kadar oldu? 29 Kasım 2024 spot doğalgaz fiyatları
1546 kez okundu
19
Zamanın İnsan Tarafından Şekillendirilmesi: Yedi Günün Kökenleri
1530 kez okundu
20
iOS 26.5 yayında: şifreli RCS, yeni duvar kağıdı ve harita özellikleri geldi
1497 kez okundu
21
Kocaeli Büyükşehir Belediyesi’ne Siber Saldırı: “Canlı Bomba Tehdidi” Uyarısı
1434 kez okundu
22
Siber suçtan gözaltına alınan 24 kişiden 6’sı tutuklandı
1415 kez okundu
23
Su Tabanlı COP Teknolojisiyle Uzun Ömürlü ve Sürdürülebilir Batarya Geliştirme
1363 kez okundu
24
Google’dan önemli uyarı: Milyonlarca kişiyi etkileyen Rus siber saldırısında ‘Pegasus’ yazılımı kullanıldı!
1326 kez okundu
25
Trionda Topunun Sürtünme Kriziyle Değişen Oyun Dinamikleri
1318 kez okundu
26
Uydu Taramalarıyla Doğal ve Kültürel Mirasın Kesişen Noktası: Sudan’ın Anıtsal Mezarları ve Koruma Riski
1313 kez okundu
27
Gigamaser Keşfi: Uzak Evrenin Lazer Benzeri Sinyalleri ve Kütleçekimsel Mercek Etkisi
1313 kez okundu
28
Uranüs ve Neptün: Buz Devi Tanımlarını Yeniden Düşünmek
1302 kez okundu
29
Cybertruck RWD’nin Sessiz Çıkışı ve Güvenlik Sarsıntısı: 173 Adetlik Geri Çağırma
1273 kez okundu
30
JPL’in Hibrit Bulut ve OpenShift Dönüşümüyle Sanal Makine Yönetiminde Yeni Bir Düzey
1149 kez okundu