Please use this identifier to cite or link to this item: http://hdl.handle.net/123456789/5017
Title: التلقيب الآلي للكلمات العربية باستخدم أداة التعلم الآلي YAMCHA
Authors: Ahmed Abdelghany Mohammed Abdelghany 
Ahmad Zaki Amiruddin 
Keywords: YAMCHA – التعلم الآلي – الملقِّب الآلي – آلة المتجهات الداعمة – مدونة التدريب – مدونة الاختبار
Issue Date: 2023
Publisher: UMK Press
Journal: INSANIAH: Online Journal of Language, Communication, and Humanities 
Abstract: 
التلقيب الآلي للكلمات العربية هو عملية وسم الكلمة العربية بقسم الكلام المناسب لها اعتمادًا على سياقها. وتعد هذه العملية خطوة أساسية في معظم تطبيقات معالجة اللغة الطبيعية (NLP) مثل التلخيص الآلي واسترجاع المعلومات والترجمة الآلية وغيرها من التطبيقات. ويهدف هذا البحث إلى تقديم ملقِّب آلي عربي معتمد على نظام إحصائي يستفيد من أنظمة تعليم الآلة. ونظام التعلم الآلي المستخدم في هذا البحث هو نظام YAMCHA (Yet Another Multipurpose CHunk Annotator)، وهو أداة مفتوحة المصدر تقوم بأداء الكثير من مهام معالجة اللغة، مثل التلقيب الصرفي الآلي للكلمات، والتعرف على أسماء الكيانات، والتحليل التركيبي للجمل، وغيرها من المهام اللغوية. ويستخدم YamCha خوارزمية في التعلم الآلي تسمى آلة المتجهات الداعمة (Support Vector Machines ) التي تستخدم في تصنيف البيانات بدقة وكفاءة بالغة لأنها تستخدم جزء من البيانات في التدريب والتعلم، كما أنها تتيح تغيير مدى ونوع المعلومات اللغوية المعتمد عليها في التعلم الآلي (feature set and window-size). لذلك فالمنهجية المقترحة تستلزم كمية لا بأس بها من النصوص المحللة على مستوى أقسام الكلام من أجل تعليم وتدريب النظام عليها. وبلغ حجم المدونة المستخدمة في البحث 100.039 كلمة، وقد تم تقسيمها بنسبة 70% للتدريب و30% للاختبار فكان حجم مدونة التدريب 64.608 كلمة، وحجم مدونة الاختبار 35.431 كلمة، وبلغ عدد أقسام الكلام التي تدرّب عليها النظام وميّز بينها 48 لقبَا صرفيًا. وقد تم تدريب النظام على مدونة التدريب عدة مرات مع تغيير مدى المعلومات اللغوية المستخدمة في التدريب ثم تحليل مدونة الاختبار وتقييم النتائج من أجل الوصول لأفضل نتائج في التلقيب الآلي للكلمات العربية. وبلغت أقل نسبة خطأ %11.4، وكانت في حالة اعتبار الكلمة السابقة في التحليل دون النظر إلى لقبها الصرفي (F:-1..0:0..).
Description: 
Mycite
URI: http://hdl.handle.net/123456789/5017
ISSN: 2637-0360
DOI: 10.47254/insaniah.v7i1
Appears in Collections:Journal Indexed MyCite - FBI

Files in This Item:
File Description SizeFormat
article.pdf747.92 kBAdobe PDFView/Open
Show full item record

Google ScholarTM

Check

Altmetric

Altmetric


Items in DSpace are protected by copyright, with all rights reserved, unless otherwise indicated.