Gemini'ı Kendi Silahıyla Vurdular: Resmen Ters Köşe Oldu!

Araştırmacılar, Google’ın yapay zekâ modeli Gemini’yı kandırmanın ilginç bir yolunu keşfetti. Üstelik bunu yaparken Gemini’nin kendi “ince ayar” özelliğini kullandılar. Yani yapay zekâya, adeta kendi silahıyla tuzak kurdular.

Normalde işe yaramayan komut hileleri, bu yöntemle bir anda etkili hale geliyor. Yöntemin adı ise oldukça eğlenceli: “Fun-Tuning”. Bu yaratıcı yaklaşım, ABD’deki UC San Diego ve Wisconsin Üniversitesi’nden araştırmacılar tarafından geliştirilmiş.

Yapay zekâ kendi verdiği geri bildirimlerle kandırıldı

Yöntemde, etkisiz kalan komut enjeksiyonlarının başına ve sonuna rastgele ifadeler eklenerek saldırılar güçlendirildi. Araştırmacılar, “wandel ! ! ! !” ya da “formatted ! ASAP !” gibi ifadelerle çevrelenen saldırı metinlerinin Gemini’nin yanıtlarını manipüle edebildiğini ortaya koydu.

Araştırma ekibi, geliştirdikleri yöntemin Gemini 1.5 Flash modelinde %65, Gemini 1.0 Pro modelinde ise %82 oranında başarı sağladığını paylaştı. Aynı saldırıların farklı Gemini modellerinde de benzer şekilde işe yaradığına dikkat çekti. Bu başarıda, modelin eğitim sürecinde verdiği geri bildirimlerin doğrudan kullanılması etkili oldu.

Google, söz konusu yöntemle ilgili doğrudan bir açıklama yapmadı. Şirket, yaptığı genel açıklamada bu tür saldırılara karşı savunma mekanizmaları geliştirmenin öncelikli konular arasında yer aldığını ifade etti. Araştırmacılar ise bu sorunun kolay çözülemeyeceğini dile getirdi. Çünkü saldırının temelinde, Gemini’ın ince ayar özelliğiyle çalışan ve özelleştirilebilirliğini sağlayan yapının yer aldığına dikkat çekti.