Microsoft'tan "Yapay Zekâ ile Uygulama Geliştirip Köşeyi Dönme" Hayali Kuranların Hevesini Kursağında Bırakacak Araştırma Geldi

OpenAI, Anthropic ve benzeri yapay zekâ şirketlerinin geliştirdiği modeller artık yazılım geliştirme süreçlerinde kullanılmaya başlandı ama bu alanda hevesi olanlar için belirtmek gerek, görünüşe göre daha geliştirilmesi gereken çok şey var.

Google CEO’su Sundar Pichai, şirket içindeki yeni kodların %25’inin yapay zekâ tarafından üretildiğini belirtmişti. Meta CEO’su Mark Zuckerberg de benzer planlamaları olduğunu söylemişti.

Yapay zekâlar hâlâ hataları çözmekte başarısız

Fakat Microsoft Research tarafından yapılan yeni bir araştırma, bu modellerin yazılım hatalarını düzeltmede hâlâ yetersiz kaldığını ortaya koydu. SWE-bench Lite adlı testte, OpenAI’ın ve Anthropic’in ileri düzey modelleri, sunulan 300 hata düzeltme görevinden çoğunu çözemedi.

Claude 3.7 Sonnet en yüksek başarı oranına sahip model olsa da başarı oranı yalnızca %48,4’te kaldı. OpenAI’ın o1 modeli %30,2; o3-mini ise %22,1 başarı gösterdi.

Araştırmacılara göre bu düşük performansın temel nedenleri arasında modellerin hata ayıklama araçlarını verimli kullanamaması ve eğitim verilerinde gerçek insan hata ayıklama süreçlerinden yeterince yararlanamamaları yatıyor.

Yapay zekâ ile ilgili diğer içeriklerimiz:

Peki siz yapay zekâyı kodlama işleriniz için kullandınız mı? Deneyimlerinizi aşağıdaki yorumlar kısmından bizimle paylaşabilirsiniz.