Yapay Zeka

Samsung, En “Akıllı” Ve Süratli Suni Zekânın Hangisi Bulunduğunu Bulabileceğiniz Kontrol Aracı Duyurdu


Samsung, suni zekâların hız ve verimliliğini ölçmek için geliştirdiği yeni kontrol aracı TRUEBench’i tanıttı.

Samsung, suni zekâların gerçek iş ortamlarında iyi mi performans gösterdiğini ortaya koymak için TRUEBench adını verdiği yeni kontrol aracını duyurdu. Yeni kontrol aracı büyük dil modellerinin verimliliğini ölçmeye odaklanıyor.

TRUEBench, Samsung Research tarafınca iş dünyasında sıkça karşılaşılan içerik üretimi, veri analizi, özetleme ve tercüme şeklinde görevlerde suni zekâların performansını kontrol etmek için geliştirildi.

Hugging Face üstünden beş değişik model aynı anda karşılaştırılabiliyor

Toplam 10 kategori ve 46 alt kategoriyi kapsayan TRUEBench, insan ve suni zekânın beraber belirlediği kriterlere bakılırsa otomatik testler yapıyor. Hem insanoğlu hem de suni zekâ tarafınca belirlenen ölçütlerle meydana getirilen bu testler, sonuçların daha net ve tutarlı çıkmasına da destek oluyor.

TRUEBench’in öne çıkan özelliklerinden biri oldukca dilli senaryoları desteklemesi. Toplamda 12 dilde ve 2.485 kontrol seti üstünden meydana getirilen ölçümler, kısa komutlardan uzun metin özetlemelerine kadar değişik görevleri kapsıyor. Testler yalnızca verilen cevabın doğruluğunu değil bununla beraber kullananların dolaylı olarak ifade etmiş olduğu ihtiyaçların karşılanıp karşılanmadığını da dikkate alıyor.

TRUEBench, öteki testlerin yetersiz kalmış olduğu bölgeleri kapatmak için geliştirildi. Hugging Face’te piyasaya sürülen vasıta kullananların aynı anda beş modeli karşılaştırmasına izin veriyor. Bununla beraber verilen yanıtların averaj uzunlukları da görülebiliyor. Bu sayede performans ve verimlilik beraber ölçülebiliyor.

Related Articles

Leave a Reply

Your email address will not be published. Required fields are marked *

Back to top button