مؤشر نضج تقنيات الذكاء الاصطناعي للغة العربية

بلسم هو مبادرة تعاون بين مؤسسات أكاديمية وحكومية مرموقة في الشرق الأوسط. يهدف بلسم إلى قيادة تطوير وتجهيز مجموعات بيانات اختبار متخصصة تُعتبر ضرورية لتقييم أداء النماذج اللغوية الضخمة (LLMs) في مجموعة متنوعة من مهام معالجة اللغة الطبيعية (NLP) للغة العربية.

إحصائيات بلسم

10+

جهة مشاركة

50,000+

ســــؤال

مهمة مغطاة

1000+

مجموعة بيانات

المساهمون

أهداف المؤشر

تنظيم مجموعات البيانات

جمع الموارد والخبرات لإنشاء مجموعات بيانات عالية الجودة في مستويات مختلفة للعربية وبمجالات متنوعة مصممة خصيصًا لاختبارات الذكاء الاصطناعي؛ لتعزيز قوة نماذج اللغة الضخمة (LLMs) وتنوعها.

تقييم الأداء

وضع أطر ومعايير تقييم موحدة لتقييم أداء نماذج اللغة الضخمة التي يطورها المساهمون بما يتيح المقارنات الواضحة، ويحفز التحسينات المستمرة.

لوحة الصدارة في النماذج اللغوية الضخمة العربية

عرض أحدث نتائج التقييم لأفضل النماذج اللغوية الضخمة أداءً لمهام معالجة اللغة العربية الطبيعية.

الذكاء الاصطناعي الأخلاقي

إعطاء الأولوية للاعتبارات الأخلاقية والممارسات المسؤولة للذكاء الاصطناعي طوال عملية التطوير لضمان العدالة، والشفافية.

المجتمع

توحيد رؤى المجتمعات البحثية في معالجة اللغة العربية الطبيعية، ببناء مجموعات بيانات مشتركة ومعايير تقييم واحدة.