جرس

خطبة الجمعة

1 مارس 2019، 12:00 ظهرًا.

مع ازدياد المحتوى العربي في علوم البيانات في السنوات الأخيرة والإقبال العالي عليه ، أقدمنا على المشاركة متخذين ممن سبقونا من الإخوة في المجال مثالا يحتذى به. نظرا لأهمية خطب الجمعة وشمولية مواضيعها وتنوع متلقيها وثرائها المعرفي من نصوص شرعية وغيرها، أثار الموضوع اهتمامنا وحماستنا لدراسته. من هذا المنطلق عكفنا على تحليل وصفي نرجوا فيه أن نكون غطينا جميع الجوانب المؤثرة على موضوع دراستنا دون قيادة القارئ إلى الوصول إلى استنتاج معين على حساب الآخر واسأل الله أن نكون وفقنا في ذلك.

لاستعراض أفضل للمقالة والرسوم البيانية يفضل استخدام الحاسب المحمول ومتصفح (chrome)

البيانات

الكلمات الفريدة

أي الخطباء يستخدم مفردات مميزة لم يستخدمها غيره؟ جميعنا شغوفين باللغة وفصاحتها ونطرب لبلاغتها ونرى ذلك كل جمعة فالخطباء يتفننون في استعراض قواميسهم الثرية فأي الخطباء أكثر تفردا من بقية أقرانه؟ قمنا بمعالجة نصوص الخطب واحصاء الكلمات التي ظهرت مرة واحدة فقط في جميع الخطب.

كلمة "متشاكسة" ظهرت مرة واحدة في جميع الخطب الموجودة على الموقع.

بعد ذلك خرجنا بمعيارين لكل خطيب، الأول متوسط نسبة الكلمات الفريدة في الخطبة (مثال: 1% لعبدالعزيز آل الشيخ تعني انه كل 100 كلمة يأتي بواحدة منهم متفردة لم يكررها او يأت بها خطيب آخر) ،الثاني هو متوسط عدد الكلمات الفريدة بالخطبة الواحدة (مثال: 36 كلمة لعبدالرحمن السديس تشير لعدد الكلمات الفريدة التي يقدمها كل جمعة). بعد تحديد المعايير لإجابة هذا السؤال قمنا بحصر الخطباء الذين ننوي تحليل خطبهم إلى أعلى 50 خطيب من حيث عدد الخطب ليكون عدد الخطب (العينات) كافي للدراسة فلا يمكن مثلا تحليل خطيب بهذين المعيارين وهو يملك خطبة واحدة فقط.

عند المرور على الخطيب بإمكانك استعراض اسمه وعدد الكلمات.

بعد استعراض هذه المقارنة يتبادر إلى الذهن مجموعة من الاسئلة الاخرى، هل التفرد بالمصطلحات ميزة لهذا الخطيب وانعكاس لجودته وتوسع علمه وبحثه؟ أم انها تعاب عليه حيث يجب مخاطبة العامة بأبسط المصطلحات الممكنة؟ أم أن أحد ادوار الخطيب رفع مستوى الثقافة والعلم لدى المستمع؟

مقارنة الخطباء

عند المقارنة باستخدام مجموعة من المقاييس يجب تطبيع البيانات اولا (Normalization) وهو إيجاد وحدة قياس موحدة لجميع المقاييس لكي لا تطغى البيانات ذات وحدة القياس الاعلى على قرينتها الأدنى (مثال : عدد الكلمات الفريدة لكل خطبة وهو بعشرات الكلمات وطول الخطبة وهو بآلاف الكلمات). تم تطبيع المقاييس باستخدام القيمة العظمى والصغرى (Min-Max Scaling) وتطبيع القيم بين الصفر والواحد. بعد ذلك تم استخراج أربعة مقاييس للمقارنة:

بعد تحديد وتطبيع المقاييس يمكنك استعراض اعلى 50 خطيب والمقارنة بينهم والمقارنة مع المتوسط العام لهذه المقاييس.

عبدالرحمن السديس والتجميع بالمتوسطات

عند استعراضك لخطب الشيخ عبدالرحمن السديس واضعا طول الخطبة في المحور السيني ونسبة الاستدلال في الخطبة في المحور الصادي ستجد توزيع متناثر للخطب لا يشير إلى سلوك أو أساس يوضح آلية كتابة الشيخ لخطبه.

مع مزيد من التمحيص اتضح أن هذه الخطب مقسمة على جامعين وهم جامع الفرقان والمسجد الحرام وعند تلوين هذه الخطب يمكنك بوضوح رؤية الاختلاف في الكتابة بين الجامعين مما يفسر هذا الإختلاف. ماذا لو لم نملك معلومة الجوامع؟ كيف بإمكاننا تمييز هذا الإختلاف دون معاينة البيانات كل مرة؟
اللون الأحمر يمثل جامع الفرقان والرمادي يمثل المسجد الحرام

التجميع بالمتوسطات (K-Means Clustering) هو احدى وسائل تصنيف البيانات بحساب التقارب والتباعد ووضع النقاط المتقاربة في مجموعة. تقوم الخوارزمية بتجميع المتجهات عن طريق استحداث نقاط أولية وحساب المسافة الاقليدية بينها وبين البيانات لتشكيل مجموعة ومواصلة تحسين هذه العملية حتى تصل للتجميع النهائي.
اللون الأحمر يمثل التجميع الأول والرمادي يمثل التجميع الثاني

الآيات المستدل بها

تم تقسيم كل خطبة إلى قسمين الأول يحتوي الاقتباسات المستدل بها والآخر يحتوي على نص الخطيب نفسه. عند النظر إلى القسم الأول وجدنا ثلاث سور لم يقتبس منهم في الخطب المحللة وهم ("الكوثر" ، "الانشقاق" ، "فصلت") مما دفعنا لاستعراض جميع الآيات والسور بعدد المرات المقتبسة. من اليسار إلى اليمين نستعرض جميع آيات المصحف ابتداء بالفاتحة وحتى الناس (آية 1 حتى آية 6236) وبالضغط على ترتيب الآية بإمكانك الإطلاع عليها ومعرفة عدد مرات الإقتباس.

سلسلة ماركوف

خوارزمية سلسلة ماركوف (Markov Chain) تعتمد على مبدأ بسيط وهو أن الحالة الحاضرة (الآن) تكفي لمعرفة الحالة القادمة (المستقبل) مما يعني أن معرفة الكلمة الحالية كافي لتوليد الكلمة التي تليها. تقوم الخوارزمية بإنشاء قاموس لجميع الكلمات وبناء مصفوفة فرعية للكلمات التي تلت كل كلمة.تم استخدام هذه الخوارزمية لتوليد نصوص جديدة بناء على كافة الخطب المحللة وذلك باختيار كلمة عشوائية (الآن) وبمعرفة هذه الكلمة يمكننا معرفة قائمة الكلمات التي يمكن أن تتبعها (المستقبل) ونقوم باختيار كلمة عشوائية منها وبمعرفة هذه الكلمة المختارة يمكننا معرفة قائمة الكلمات التي تليها وهلم جرا حتى تشكل نص كامل. هذه بعض الجمل التي ولدتها الخوارزمية ، عند الضغط عليها بإمكانك معرفة مصدر الكلمة:-

جدير بالذكر أن الخوارزمية في جملة "شخصية مباركة متماسكة, راسخة متناسقة" خرجت الى خطبة اخرى ثم عادت نظرا لندرة هذه المصطلحات

ولدت الخوارزمية نصوص جيدة نسبيا في الجمل العامة والمتكررة ولكن تراجعت في توليد نصوص أقل عمومية مما يشير إلى أن تدريب الخوارزمية على بيانات محددة كالمواضيع مثلا أو مقدمة خطبة أو غيرها قد يأتي بنتائج أدق. بالإمكان تغيير الحالة الحاضرة لتأخذ بالاعتبار كلمتين عوضا عن واحدة لتوليد النصوص مما زاد من جودة النصوص المولدة ولكن تكررت الخطب نفسها لنقص البيانات المدروسة ولذلك استبعدنا هذا الخيار.