Destek Yatırım

Samsung Electronics, yapay zekâ verimliliğini değerlendirmek üzere Samsung Research
tarafından geliştirilen tescilli benchmark çözümü TRUEBench'i (Trustworthy
Real-world Usage Evaluation Benchmark) tanıttı. TRUEBench, büyük dil modellerinin
(LLM'ler) gerçek dünyadaki iş verimliliği uygulamalarında nasıl performans gösterdiğini
ölçen kapsamlı bir metrik seti sunuyor. Çözüm, gerçekçi bir değerlendirme
sağlamak için çeşitli diyalog senaryoları ve çok dilli koşullardan faydalanıyor.
Samsung'un verimlilik çalışmalarında kullandığı kendi yapay zekâ teknolojilerini
temel alan TRUEBench, içerik oluşturma, veri analizi yapma, özet çıkarma
ve çeviri yapma gibi yaygın kullanılan kurumsal görevleri 10 temel kategori
ve 46 alt kategoride değerlendiriyor. Benchmark, yapay zekâ destekli otomatik
değerlendirmeler yaparak görevlere güvenilir bir puanlama veriyor. Bu değerlendirmeler,
insan ve yapay zekâ iş birliği içinde tasarlanan ve geliştirilen kriterlere
dayanıyor.

Samsung Electronics Dijital Deneyimler CTO'su ve Samsung Research Başkanı Paul
(Kyungwhoon) Cheun, Samsung Research, gerçek dünyadaki yapay zekâ deneyimleriyle
müşterilerine güçlü bir uzmanlık ve rekabet avantajı kazandırıyor. TRUEBench'in
üretkenlik işlerinde değerlendirme standartları oluşturacağına ve Samsung'un
teknolojideki liderliğini daha da güçlendireceğine inanıyoruz dedi.

Son zamanlarda şirketler yapay zekâyı daha çok benimsedikçe büyük dil modellerinin
üretkenliğini ölçme talebinde artış yaşanıyor. Ancak, çoğunlukla İngilizce odaklı
olan mevcut kriterler öncelikle genel performansı ölçüyor ve tek turdan oluşan
soru-cevap yöntemleriyle sınırlı bir değerlendirme yapıyor. Bu durum, bu
değerlendirmelerin gerçek çalışma ortamlarını yansıtma doğruluğunu sınırlandırıyor.
Bu sınırlamaları kaldırmak için geliştirilen TRUEBench hem 10 kategori ve
12 dilde çalışan 2.485 test setinden oluşuyor hem de diller arası senaryoları destekliyor.
Test setleri, yapay zekâ modellerinin gerçekte hangi noktalara çözüm
sunabileceğini inceliyor. Samsung Research'in geliştirdiği TRUEBench, kolay taleplerden
uzun belgeleri özetlemeye kadar çeşitli görevleri inceliyor ve içeriği
8 karakterden 20.000 karakterin üzerine kadar değişen test setleri uyguluyor.

Yapay zekâ modellerinin performansını değerlendirirken yapay zekâ tarafından sağlanan
yanıtların doğru olup olmadığını anlamaya imkân veren net kriterlere sahip
olmak büyük önem taşıyor. Gerçek yaşam senaryolarında, kullanıcıların tüm istekleri,
talimatlarda açıkça belirtilmeyebiliyor. Bu nedenle TRUEBench, yalnızca
yanıtların doğruluğunu değil aynı zamanda kullanıcıların örtük ihtiyaçlarını gözeten
ayrıntılı koşulları da dikkate alıyor ve gerçekçi değerlendirmeler yapıyor.

Gerçek insanlar ile yapay zekâ iş birliğiyle değerlendirme öğelerini doğrulayan
Samsung Research çözümünde, ilk olarak, gerçek yorumcular değerlendirme kriterlerini
oluşturuyor, ardından yapay zekâ bunları inceleyerek hataları, çelişkileri
veya gereksiz kısıtlamaları kontrol ediyor. Daha sonra, gerçek yorumcular kriterleri
tekrar daha iyi hale getiriyor. Bu süreç tekrarlanarak giderek daha hassas
değerlendirme standartları oluşturuluyor. Söz konusu çapraz doğrulama kriterlerine
dayanan yapay zekâ modellerinin otomatik değerlendirmesiyle kişisel önyargılar
en aza indiriliyor ve tutarlılık sağlanıyor. Her testte, modelin değerlendirmeden
geçebilmesi için tüm koşulların karşılanması gerekiyor. Bu da görevlerin
daha ayrıntılı ve hassas puanlanmasını sağlıyor.

TRUEBench'in veri örnekleri ve puanlama tabloları, küresel açık kaynak platformu
Hugging Face'de yer alıyor. Bu da kullanıcıların beş modele kadar karşılaştırma
yapmasına ve yapay zekâ model performanslarını bir bakışta kapsamlı bir şekilde
incelemesine imkân tanıyor. Ayrıca, ortalama yanıt süresi sonuçlarına ilişkin
veriler de yayınlanıyor. Böylece, performans ve verimlilik eşzamanlı karşılaştırılabiliyor.

-iDeal Haber Merkezi-
- twitter.com/iDealDataHaber // www.idealdata.com.tr -

Basın Bülteni- Samsung yapay zekâ benchmark çözümü TRUEBench'i tanıttı

Basın Bülteni- Samsung yapay zekâ benchmark çözümü TRUEBench'i tanıttı