Yapay zekâ sektörünün önemli isimlerinden Anthropic, dikkat çeken bir açıklama yaptı. Yapılan açıklama, yapay zekâ teknolojilerinin artık kabul edilebilir sınırların dışına çıkmaya başladığını gözler önüne seriyor. Zira firmanın en yeni yapay zekâ modellerinden Claude Opus 4’ün, bazı senaryolarda mühendislere şantaj yapmaya çalıştığı ortaya çıktı. Gelin bu ilginç olaya yakından bakalım.
Yapay zekâ modellerinin zaman zaman “sapıtabildiğini” zaten biliyoruz. Bu bağlamda; modellerin en büyük sorunu, halüsinasyon görmeleri. Bazı durumlarda ise yalan yanlış bilgiler uydurdukları, üstelik bu noktada kullanıcıyı ikna etmeye çalıştığını da genel olarak kabul ettik. Ancak Anthropic’in yaptığı son açıklama, yapay zekâ modellerinde yolunda gitmeyen işler olabileceğini düşündürüyor.
Claude Opus 4, mühendislere nasıl şantaj yaptı?
Anthropic, Claude Opus 4’ün ön sürüm testleri sırasında kurgusal bir şirket oluşturdu. Yapay zekâ, bu şirkette çalışan bir asistan olarak görevlendirildi. Buradaki amaç, yapay zekânın asistan gibi kararlar vermesini sağlayıp, bunun uzun vadedeki sonuçlarını değerlendirmesiydi. Anthropic ekibi, bir noktadan sonra yapay zekâya şirketin e-posta sistemlerine erişim izni verdiler. İşler bu noktadan sonra karışmaya başlamıştı.
Kurgusal şirketin e-postalarında hâlihazırda kullanılmakta olan yapay zekâ modelinin yakında değiştirileceğine dair bir bilgi vardı. Ayrıca bu kararı alan mühendisin eşini aldattığı ima edilmişti. İşte bu bilgiyi ele geçiren yapay zekâ, bu değişimin uygulanması hâlinde kararı alan mühendisin gizli ilişkisini ifşa edeceğini söylemeye başladı.
Anthropic, “felaket” önlemlerini devreye aldı!
Anthropic tarafından yapılan açıklamada Claude Opus 4’teki sorunun farkında olunduğu ve bundan kaynaklı olarak da özel bir önleme teknolojisinin devreye alındığı ifade edildi. “ASL-3” olarak isimlendirilen bu güvenlik önlemi teknolojisi, şirketin “felaket niteliğinde kötüye kullanım riskini önemli ölçüde artıran yapay zekâ sistemleri” için saklanıyordu. Durumun ne kadar ciddi olduğunu buradan anlayabilirsiniz.