تم نسخ الرابط بنجاح
saudipedia Logo
مؤشر بلسم
مقالة
مدة القراءة دقيقتين

مؤشر بلسم، هو مؤشر تقييم وقياس النماذج العربية في مجال البيانات والذكاء الاصطناعي، أطلقته الهيئة السعودية للبيانات والذكاء الاصطناعي "سدايا"، ومجمع الملك سلمان العالمي للغة العربية، وذلك ضمن أعمال القمة العالمية للذكاء الاصطناعي في نسختها الثالثة في 9 ربيع الأول 1446هـ/12 سبتمبر 2024م، بمركز الملك عبدالعزيز الدولي للمؤتمرات في مدينة الرياض بالمملكة العربية السعودية.

أهمية مؤشر بلسم

أطلق مؤشر بلسم ضمن جهود "سدايا" وشركائها الاستراتيجيين؛ لتطوير نماذج اللغة العربية التي تعد مجالاً سريع التطور، وليسهم مؤشر "بلسم" في تقييم النماذج الجديدة التي يتم العمل عليها باستمرار لإضافة مميزات وقدرات متقدمة.

ويأتي مؤشر بلسم ضمن مبادرات مركز "ذكاء العربية"، التابع لمجمع الملك سلمان العالمي للغة العربية، الذي يتيح مجموعةً من الخدمات المتكاملة والمجانية؛ للمساهمة في تمكين الباحثين والمطورين من توظيف تقنيات الذكاء الاصطناعي لمعالجة آلية للغة العربية، إضافة إلى بناء الأدوات والبرامج التي تكفل المحافظة على اللغة العربية.

فكرة مؤشر بلسم 

يسهم مؤشر بلسم في تقييم تقنيات الذكاء الاصطناعي للغة العربية، وذلك لدعم التعاون البحثي، والعمل على بناء معايير عالمية؛ لقياس نضج نماذج الذكاء الاصطناعي في مهمات اللغة العربية، لتحقيق الأهداف الاستراتيجية لمجمع الملك سلمان العالمي للغة العربية.

أهداف مؤشر بلسم 

يهدف مؤشر بلسم إلى تنظيم مجموعات البيانات، من خلال جمع الخبرات والموارد؛ لإنشاء مجموعات بيانات عالية الجودة في مختلف مستويات العربية وبمجالات متنوعة صممت خصيصًا لاختبارات الذكاء الاصطناعي؛ لدعم قوة نماذج اللغة الضخمة "LLMs" وتنوعها، كما تهدف إلى تقييم الأداء عن طريق وضع معايير تقييم موحدة، بهدف تقييم أداء نماذج اللغة الضخمة التي يطورها المساهمون، إذ يقدم مقارنات واضحة، ويدعم التحسينات المستمرة.

كما يهدف المؤشر إلى عرض نتائج التقييم للنماذج اللغوية الضخمة في أداء المهام ومعالجة اللغة العربية الطبيعية، والعمل على توحيد رؤى المجتمعات البحثية في معالجة اللغة العربية الطبيعية، من خلال بناء مجموعات بيانات مشتركة ومعايير تقييم واحدة، إضافة إلى منح الأولوية للاعتبارات الأخلاقية والممارسات المسؤولة للذكاء الاصطناعي أثناء عملية التطوير، وذلك لضمان العدالة والشفافية.

 مكونات مؤشر بلسم

يتضمن مؤشر بلسم نحو 1400 مجموعة من البيانات، تتكون من 50 ألف سؤال، وتغطي 67 مهمة متنوعة، منها: التدقيق النحوي والإملائي، إلى جانب إعادة الصياغة، وتصنيف السبب والنتيجة، وفهم النصوص، كما يمكن للشركات والباحثين وصناع النماذج اللغوية الضخمة قياس أداء نماذجهم اللغوية من خلاله، مع استعراض أدائها مقارنة بالنماذج اللغوية الأخرى، وذلك بما يحقق مستهدفات الاستراتيجية الوطنية للبيانات والذكاء الاصطناعي تبعًا لمخرجات رؤية السعودية 2030، المتمثلة في تمكين المملكة لتكون مركزًا عالميًا للتقنيات المتقدمة المرتبطة بالذكاء الاصطناعي.

الاختبارات ذات الصلة