Tufan M. B., Şahin Kütük B., Coşkun S., Toraman Ç.(Yürütücü)
Şirket, 2024 - 2025
Mevcut Üretken Yapay Zeka Modellerinin başarısını değerlendirmek ve ölçmek için kapsayıcı ve güvenilir bir benchmark bulunmamaktadır. Projenin konusu, Üretken Yapay Zeka Teknolojileri kapsamında geliştirilen Türkçe Büyük Dil Modelleri’nin başarısını ölçmek amacıyla bir Ar-Ge Projesi olan Türkçe LLM Benchmark Değerlendirme Sisteminin oluşturulmasıdır. Türkçe LLM Benchmark Değerlendirme Sistemi 2 ana modülden oluşacaktır:
1) Türkçe Veri Kümeleri: Üretken LLM’in verdiği cevaplarda Türkçe dilbilgisi, bilgi doğruluğu, anlaşılabilirlik ve akıcılık, terim kullanımı ve kültürel uygunluk gibi farklı kriterlerde başarıyı sorgulayan veri kümeleri geliştirilecektir. Toplam 6 ana görev sınıfında 19 alt görev için veri kümesi geliştirilecektir.
2) Yazılım Mimarisi: Sisteme gönderilen modellerin başarılarının ölçülmesi amacıyla bir yazılım mimarisi oluşturulacaktır. Bu yazılım mimarisi içerisinde model yükleme arayüzü, model saklama ve koşturma servisi, değerlendirme metriklerinin çalıştırılması ve sonuçların bir sıralama arayüzünde verilmesi yer almaktadır.