جامعة بيرزيت تطلق مدوّنة محوسبة تشمل ست لهجات عاميّة

أطلقت جامعة بيرزيت مدوّنة تشمل حوسبة لستّ لهجات عربية (1.3) مليون كلمة، شملت اللهجات الفلسطينية واللبنانية والعراقية والليبية والسودانية واليمنية. وتهدف هذه المدوّنة إلى إغناء الحاسوب وتقنيّات الذكاء الاصطناعي في مساعدتها على فهم النّصوص المكتوبة بالعاميّات العربيّة. عملت على بعض منها مع الجامعة الأمريكية والأمم المتحدة. وتم إطلاق هذه المدونة أمس في مكتب الأمم المتحدة في نيويورك. 

والمدوّنة هي مجموعة من النصوص العامية التي تم جمعها من عدة مواقع وشبكات تواصل اجتماعي مثل تويتر وفيسبوك ويوتيوب، ونصوص أخرى.  وتم تصريف وتعريف خصائص كل كلمة في هذه النصوص.  حيث تم توسيم كل كلمة في النص وتحليلها إلى سوابق ولواحق وجذر وقسم كلام، إضافةَ إلى مدخلة عامية وفصحى ومعنى باللغة الإنجليزيّة.  

ويمكن استخدام المدونة كمعجم ثلاثي، عامية-فصحى-إنجليزية، خاصةً للأجانب والباحثين. ولبناء تطبيقاتٍ حاسوبيّةٍ يمكنها فهم ما يُكتبُ على شبكاتِ التّواصلِ الاجتماعيّ كي يتمكّنَ الحاسوبُ من ترجمةِ وفهم المحتوى العربيّ المكتوبِ بالعاميّة، وبالتالي تحويل النّص العامي آلياً إلى الفصحى، وتدقيق النّصوص العامية وترجمتها آلياً وغيرها. 

وتجدر الإشارة إلى أنّ مدوّنة اللهجة العاميّة الفلسطينيّة (تسمى كرّاس) قد حوسبتها وإطلاقها سابقاً عام 2013 بدعم من وزارة التعليم العالي. وقد تمّ إعادة العمل على هذه المدونة وتحسين محتواها وإضافة مدونة العامية اللبنانية (تسمى بلدي) والتي تتكون من حوالي عشرة آلاف كلمة، بحيث تصبح المدونة الفلسطينية واللبنانية معاً تمثيلا للَّهجات الشامية.

وتم بناء مدونة اللهجات الأربع الأخرى (الليبية والسودانية والعراقية واليمنية) اعتماداً على المنهجية التي استخدمت لبناء المدونة الفلسطينية، وذلك بالتعاون بين جامعة بيرزيت وكل من الجامعة الأمريكية في بيروت والأمم المتحدة. وقد تم جمع المدونة اليمنية من تويتر، وتحتوي على حوالي مليون كلمة. أما المدونة الليبية والسودانية والعراقية فقد تم جمعها من موقعَي فيسبوك ويوتيوب، ويحتوي كل منها على حوالي 50 ألف كلمة. 

 كما ويمكن للباحثين تنزيل واستعمال المدونة بالكامل من خلال هذا الرابط:

 http://portal.sina.birzeit.edu/curras