OpenAI, 12 günlük “Shipmas” etkinliğinin son gününde büyük bir duyuru yaparak yeni o3 model ailesini tanıttı. Aslında bu model ailesi, yılın başlarında piyasaya sürülen o1 “mantık yürütme” modelinin bir halefi. o3 ve daha küçük bir versiyonu olan o3-mini modelinin belirli görevler için fazlasıyla optimize edildiği söyleniyor. Ayrıntılar haberimizde…
OpenAI yeni o3 modeli ile neredeyse Yapay Genel Zeka’ya yaklaştı!
Şirket, o3 modelinin bazı koşullarda Yapay Genel Zekaya (AGI) yaklaştığını iddia ediyor. Ancak bu iddia, şimdilik bazı şüphelere ve çekingelere sahip. Çünkü henüz yeterince test edilmedi. o3 modeli, bir “mantık yürütme” modeli olarak diğer yapay zekalardan biraz daha farklı. İşte o3’ün öne çıkan özellikleri:
- Özel düşünce zinciri: Model, bir görevi tamamlamadan önce düşünme sürecini simüle ediyor, bir dizi eylemi planlıyor ve çözüme ulaşmak için ilgili konuları değerlendiriyor.
- Değişken düşünme süresi: Kullanıcılar, düşük, orta veya yüksek düzeyde hesaplama süresi (düşünme zamanı) seçerek modelin performansını ayarlayabiliyor.
- Kendi kendini doğrulama: Model, verdiği cevapları kendi içinde kontrol ederek daha doğru sonuçlara ulaşıyor.
Yine de, o3 fizik, matematik ve bilim gibi alanlarda daha güvenilir çözümler sunarken, diğer modellere kıyasla daha uzun sürüyor. OpenAI, o3’ün bazı testlerde AGI’ye yakın sonuçlar verdiğini belirtiyor. Örneğin, o3, ARC-AGI adlı bir testte yüksek işlem gücü ayarında %87,5 başarı elde etti. Bu, bir yapay zeka sisteminin eğitim verilerinin ötesinde yeni beceriler kazanma yeteneğini ölçüyor.
Benchmark testlerinde zirvede
o3, farklı benchmark testlerinde etkileyici sonuçlar aldı. SWE-Bench Verified testinde %22,8’lik bir artış gösterdi. Amerikan Matematik Sınavı’nda ise %96,7 başarı sağladı, sadece bir soruyu kaçırdı. Graduate düzey biyoloji, fizik ve kimya sorularından oluşan GPQA Diamond setinde %87,7 başarı elde etti.
o3 modelinin, ilerleyen günlerde bağımsız testler ve kullanıcı deneyimleri, modelin gerçek potansiyelini daha iyi gösterecek. Bu konuda siz ne düşünüyorsunuz? Görüşlerinizi aşağıdaki yorumlar kısmına yazabilirsiniz…