تحليل المشاعر: الفرق بين النسختين

[مراجعة غير مفحوصة][مراجعة غير مفحوصة]
تم حذف المحتوى تمت إضافة المحتوى
لا ملخص تعديل
لا ملخص تعديل
سطر 8:
 
فيما يلي بعض الدراسات التي تناولت تحليل المشاعر والآراء في اللغة العربية.
'''<span lang="AR" dir="rtl">ملخص-</span>''' <span lang="AR" dir="rtl">بينما يزداد حجم إستخدام شبكات التواصل الإجتماعي يوماً بعد يوم، أصبج تحليل أو إستخراج الآراء موضوع هام في السنين الأخيرة. حجم العمل على دراسة تحليل الآراء في اللغة الإنجليزية وفي بعض اللغات الأخرى يفوق كثيراً كميته في اللغة العربية. هذه المقالة تناقش قصية تحليل الآراء وتستقصي دراساته للغة العربية وتسلط الضوء على بعض القضايا والمشاكل المتعلقة به.</span>
 
=== <span lang="AR" dir="rtl">مقدمة</span> ===
<span lang="AR" dir="rtl">تحتل الشبكات الإجتماعية حيزاً كبيراً من وقتنا . إحصائيات عام 2015 تظهر أن هناك 2.206 مليار مستخدم نشط للشبكات الإجتماعية (30% من سكان العالم )</span><ref>كادي ريجان. الإعلام الإجتماعي اليوم. 2015. (باللغة الإنجليزية).</ref><span lang="AR" dir="rtl">. المحتوى الشخصي للمستخدمين في هذه الشبكات يلقى إهتماماً بالغاً من الحكومات والشركات . يعرف تحليل الآراء على أنه إستخراج الآراء الشخصية من الوثائق بإستخدام طرق معالجة اللغات الطبيعية [[:en:Neuro-linguistic_programming|NLP]]</span><ref>ويكيبيديا. تحليل الآراء. 2015. (باللغة الإنجليزية).</ref><span lang="AR" dir="rtl">.</span>
 
<span lang="AR" dir="rtl">يمكن تعريف تحليل الآراء من خلال تحديد مهماته ، حيث أن المهمة الأهم هي تحديد قطبية الرأي : إيجابي أو سلبي أو محايد . مهمة أخرى هي تحديد ما إذا كان مستندان متفقان تجاه قضية معينة قد تتعدى مهام تحليل الآراء إلى تحديد درجة الوفاق بين المستندات تجاه قضايا مختلفة</span><ref>إريك كامبريا وبجورن شيلر ويونجينج شيا وكاثرين عافازي، طرق جديدة في تحليل الآراء. الانظمة الذكية لجمعية مهندسي الكهرباء والإلكترونيات، (2)، صفحة 15-21، (باللغة الإنجليزية)</ref> <span lang="AR" dir="rtl">. معظم البحوث في تحليل الآراء هي للغة الإنجليزية وبعض اللغات الأخرى . أما بالنسبة للغة العربية ، فالموضوع حصل على بعض الاهتمام مؤخراً .</span>
السطر 24 ⟵ 23:
<span lang="AR" dir="rtl">عرض رشدي وآخرون</span><ref>محمد رشدي صالح وتيسريسا مارت والفريدو بروبيز وجوزيه ميريسا-اورتيجا، مجمع الآراء العربية. مجلة المجتمع الامريكي لعلوم المعلوماتية والتكنولوجيا. 62(10)، صفحة 2045--2054، 2011، (باللغة الإنجليزية)ز</ref> <span lang="AR" dir="rtl">مجمع الآراء العربية الذي يحتوي على 500 رأي للأفلام باللغة العربية. هذا المجمع تم جمعه بطريقة آلية من المواقع الإلكترونية.</span>
 
<span lang="AR" dir="rtl">من أجل تقييم المجمع، تم إجراء 24 تجربة بإستخدام المتغيرات التالية: على مستوى معادلة المصطلحات( Schema Weighting ) تكرار المصطلح ([[:en:Tf–idf|Term Frequency]]) وتكرار المصطلح-معكوس تردد المستند(Ferquency Term Frequency Inverse Document) أما على مستوى المصنف فتم استخدام مصنف شعاع الدعم (Support Vector Machine ) ومصنف نايف باز ([[:en:Naive_Bayes_classifier|Naive Bays]]) أما على مستوى النمذجة فتم إستخدام سلال كلمات احادية الكلمة(Unigram) وثنائية الكلمة (Bigram) وثلاثية الكلمة (Trigram). كما أنه تم إستخدام الكلمات أو جذورها ([[:en:Stemming|Stemming]]).</span>
 
<span lang="AR" dir="rtl">نتائج هذه الإختبارات أظهرت أن مصنف شعاع الدعم كان أفضل من مصنف نايف بايز، خاصة عندما تم استخدامه مع تكرار المصطلح.كما أن كلا سلاسل الكلمات ثنائية وثلاثية الكلمة كانت أفضل من أحادية الكلمة. عندما تم استخدام مصنف شعاع الدعم، كلا نتائج السلاسل ثنائية وثلاثية الكلمة كانت متساوية مع جذور الكلمات وتكرار المصطلح، او باستخدام الكلمات نفسها لكن مع تكرار المصطلح-معكوس تكرار المستند. أما بالنسبة لمصنف نايف بايز، فإنه حقق نتائج أفضل بدون استخدام جذور الكلمات. نتائج كلا تكرار المصطلح وتكرار المصطلح- معكوس تكرار المستند كانت جيدة مع مصنف شعاع الدعم وسلاسل الكلمات ثلاثية الكلمة.</span>
 
<span lang="AR" dir="rtl">إبن حمودة</span><ref>صفا إبن حمودة وجلال أكياشي. التنقيب في بيانات شبكات التواصل الإجتماعي لتصنيف الآراء. قضية جالات الفيسبوك أثناؤ الربيع العربي. المجلة العالمية للتطبيقات من أجل الإبداع في الهندسة والإدارة. 2(5) ص470--478. 2013. (باللغة الإنجليزية),</ref> <span lang="AR" dir="rtl">اقترح طريقة تعتمد على معاجم الآراء لإستخراج آراء الأشخاص في فيسبوك تجاه الربيع العربي. تم بناء ثلاثة معاجم للمختصرات وللعواطف وللمدخلات بإسم 256 حالة فيسبوك شخصية. المؤلفون اهتموا بثلاثة متغيرات: تمثيل النص (text Representation) وسلاسل الكلمات ([[:en:N-gram|n-gram]]) ، ووسم أجزاء الكلمات(Part Of Speach Tagging )، لتمثيل النص، تم إستخدام مصفوفة الحضور .(Presence Matrix ) لتقييم هذه الطريقة تم استخدام 60% من البيانات للتدريب وتم تصنيفها يدوياً إلى إيجابي وسلبي ومحايد. أما باقي البيانات فتم استخدامها للإختبار. تم إجراء 4 اختبارات لاختبار الطريقة مع متغيريين: المصنف وسلاسل الكلمات. تم استخدام أربعة أنواع من سلاسل الكلمات : أحادية الكلمة وأحادية الكلمات +ثنائية الكلمة وأحادية الكلمة +ثلاثية الكلمة وأحادية الكلمة +ثنائية الكلمة + ثلاثية الكلمة. أما على مستوى المصنف فتم استخدام شعاع الدعم ونايف فايز. نتائج الاختبارات أظهرت أن الدقة (Accuracy) العظمى كانت عندما تم استخدام مصنف شعاع الدعم مع سلاسل أحادية الكلمة + ثنائية الكلمة . شعاع الدعم حصل على دقة (75.31%) أعلى من نايف بايز (74.78%). النتائج أظهرت أيضاً أن مقياس فيشر(F-measure) للحالات الإيجابية (75.0) كان أعلى منه للسلبية (73.1 ). أرجع المؤلفون هذا الى فارق العدد بين الحالات الإيجابية والسلبية المستخدمة، والذي قد يعكس التوجه الإيجابي لمستخدمي الفيسبوك العرب تجاه الربيع العربي.</span>
 
=== <span lang="AR" dir="rtl">تحليل الآراء في اللغة العربية</span> ===
السطر 56 ⟵ 55:
عبد المجيد وآخرون<ref name=":2" /> قدموا "سمر": نظام تحليل الآراء لعربية في وسائل التوصال الإجتماعي. سمر إستخدم نسخة خفيفة من مصنف دعم الشعاع في مرحلتي تصفية. المصنف في المرحلة الأولى صنف النصوص إلى نصوص تحمل آراء ذاتية ونصوص موضوعية. بينما صنف المصنف الثاني الآراء الذاتية إلى إيجابية وسلبية. أما بالنسبة للأراء المحايدة والمختلطة فقد تم تجاهلها.
 
إعتمد سمر على أربع أنواع من الميزات: نحوية ومعيارية وعامة وخواص تتعلق باللهجة. ضمت الخواص النحوية على شكل الكلمة ومواضع الكلم ([[:en:Part-of-speech_tagging|POS-Tags]]). بينما إحتوت الخواص المعيارية على خاصية فريد التي وسم بها سمر أي كلمة ذات تكرار أقل أو يساوي 3، وخاصية معجمية التي إستخدمها سمر للدلالة على ما إذا كانت هذا الصفة جزءاً من معجم القطبية (Polarity-Lexicon)الذي استخدمه المصنف في المرحلة الأولى. أما بالنسبة لخاصية اللهحة فقد إستخدها سمر للدلالة على ما إذا كان هذا المستند هو باللغة الفصحى أم بالعامية. ضمت الخواص العامة الجنس وإسم المستخدم وهوية النص. سمر إستخدم بيانات من غرف الدردشة وتويتر وويكيبيديا  لدراسة أثر بعض الخواض على نتائج التصنيف للآراء. توصل سمر إلى نتيجتين مهمتين هما: الأولى  أن يكون نظام تحليل الآراء محدد إلى حد كبير، والثانية أن التجريد خاصية لا يمكن الإستغناء عنها. 
 
أما النظام الثاني فقد إعتمد فيه الحزمي وسليم<ref>مروة الحزمي ونعومي سليم. إستخراج أهداف الآراء من التغريدات. مجلة الهندسة والعلوم التطبيقية للشبكة الآسيوية لنشر البحوث 10(3): ص1023--1026. 2015. (باللغة الإنجليزية).</ref> في تحليل الآراء في التغريدات على خمسة من الخواص هي: الكائنات المسماة (Named-Entities) والكلمات الإنجليزية والوسوم (Hashtags)و<nowiki/>[[تصنيف ووسومأقسام الكلام|وسوم مواضع الكلم]] (Hashtags) . الخواص المستخرجة تم إستخدامها كمدخلات لثلاثة مصنفات: نايف بايز وشعاع الدعم و أقرب الجيران ([[:en:K-nearest_neighbors_algorithm|K-Nearest-Neighbor]]). لتقييم تأثير خاصية وسم مواضع الكلم على نتائج التصنيف، تم إخضاع النظام لمجموعتين من التجارب: الأولى تم إستخدام فيها وسم مواضع الكلم والاخرى بدونه.
 
أظهرت النتائج أن مصنف شعاع الدعم قد أحرز أعلى تقدم عند إستخدام وسوم مواضع الكلم في مقياس فيتشر. أما بالنسبة لمصنف أقرب الجيران فقد أحرز أعلى دقة(0.915)، يليه نايف بيز (0.854)، ثم شعاع الدعم ثالثاً(0.697). كما أن النتائج أظهرت أن إستخدام وسوم مواضع الكلم لم يحرز تقدماً كبيراً. أرجع الباحثون هذا إلى أن اللهجة العامية العربية هي الأكثر إستخداماً في تويتر، الأمر الذي أدى إلى التأثر على دقة واسم مواضع الكلم.