Anthropic’in riskli yapay zekası Mythos, yanlış ellere geçti

Anthropic’in henüz sınırlı erişime açık olan yeni modeli Claude Mythos Preview tartışmaların odağında olamaya devam ediyor. Zira şirketin “yanlış ellere geçtiğinde tehlikeli olabilir” uyarısıyla duyurduğu modelin, bir grup yetkisiz kullanıcı tarafından ele geçirildiği ortaya çıktı.

Bloomberg’in aktardığı bilgilere göre özel bir Discord topluluğu yaklaşık iki hafta boyunca modele erişim sağladı. Erişimin, Anthropic ile bağlantılı bir üçüncü taraf yüklenicinin hesap bilgileri ve çeşitli açık kaynak istihbarat tekniklerinin birleşimiyle elde edildiği belirtiliyor.

Kritik sistemleri hedef alabilen bir model

Anthropic’in geliştirdiği Mythos modeli, klasik yapay zeka sistemlerinden farklı olarak doğrudan siber güvenlik senaryolarına odaklanıyor. Şirketin kendi açıklamalarına göre model, kullanıcı yönlendirmesiyle tüm büyük işletim sistemleri ve popüler web tarayıcılarındaki güvenlik açıklarını tespit edip istismar edebilme kapasitesine sahip.

Bu özellik, modeli yalnızca bir analiz aracı olmaktan çıkarıp potansiyel bir saldırı platformuna dönüştürüyor. Bu nedenle Anthropic, Mythos’u kamuya açmak yerine yalnızca sınırlı sayıda kurumla test etmeyi tercih etti. Project Glasswing adı verilen program kapsamında Nvidia, Google, Amazon Web Services, Apple ve Microsoft gibi teknoloji devleri modele erişim sağlayan şirketler arasında yer alıyor. Aynı zamanda bazı devlet kurumlarının da teknolojiyle yakından ilgilendiği ifade ediliyor. 40 kadar firmanın erişimi olduğu açıklandı ancak bunların büyük bir kısmının ismi gizli tutuluyor.

Anthropic’ten ilk açıklama

Bloomberg’e sunulan ekran görüntüleri ve canlı demo kayıtları, Mythos’un gerçekten çalıştırıldığını doğruluyor. Ancak dikkat çekici bir detay olarak, kullanıcıların modeli doğrudan siber saldırı amaçlı kullanmaktan kaçındığı, bunun yerine fark edilmemek için daha sınırlı işlemler yaptığı belirtiliyor.

Anthropic cephesi de olayla ilgili yaptığı açıklamada durumu doğruladı ancak kapsamın sınırlı olduğunu vurguladı. Şirket sözcüsü, “Üçüncü taraf tedarikçilerimizden birinin ortamı üzerinden Claude Mythos Preview'a yetkisiz erişim sağlandığına dair raporu araştırıyoruz” ifadelerini kullandı.

Açıklamada ayrıca, şu ana kadar elde edilen bulguların şirketin ana sistemlerinin etkilenmediğini ve ihlalin yalnızca ilgili üçüncü taraf ortamıyla sınırlı olabileceğini gösterdiği belirtildi.

Olayın zamanlaması da dikkat çekici. Yetkisiz erişimin 7 Nisan tarihinde, yani Anthropic’in Mythos modelini resmi olarak sınırlı test için duyurduğu gün gerçekleştiği bildiriliyor. Bu durum, modelin duyurulmasıyla birlikte hedef haline geldiğini ortaya koyuyor.

Söz konusu Discord grubunun kimliği açıklanmazken grubun, genel olarak henüz yayınlanmamış yapay zeka modellerine erişim sağlamaya çalışan bir topluluk olduğu ifade ediliyor. Ayrıca aynı grubun Anthropic’e ait başka geliştirme aşamasındaki modellere de erişmiş olabileceği iddia ediliyor. Bu durum da AI sistemlerinin güvenliği konusundaki endişeleri artırıyor.