علم البيانات

علم البيانات[3] (بالإنكليزية: Data science) علم يغلب عليه تداخل الاختصاصات والذي يقوم على استخدام الأساليب العلمية، والمعالجات والخوارزميات والنظم لاستخراج المعرفة والأفكار من البيانات بشكليها، سواء مُهيكلة، أو غير مهيكلة، بشكل مشابه للتنقيب في البيانات. كما يعتمد علم البيانات على تقنيات تعلم الآلة والذكاء الصناعي وبرامج معالجة البيانات الضخمة. يُسمى الخبير بها عالم بيانات[3] (بالإنكليزية: Data scientist).

علم البيانات
صنف فرعي من
يمتهنه
الموضوع

ويُعرف علم البيانات بأنه «مفهوم قائم على توحيد الإحصاء، وتحليل البيانات وتعلم الآلة والوسائل المرتبطة بهم من أجل فهم وتحليل ظاهرة فعلية باستخدام البيانات».

وهو يقوم بتوظيف نظريات وأساليب مستمدة من حقول معرفية متعددة في سياق الرياضيات والإحصاء وعلم المعلومات وعلوم الحاسب.

يتصور جيم غراي الفائز بجائزة تورينج بأن علم البيانات «نموذج رابع» للعلوم (التجريبية والنظرية والحسابية والآن البيانات)، وأكد أن «كل شيء عن العلوم يتغير بسبب تأثير تكنولوجيا المعلومات» وطوفان البيانات.[4][5]

في عام 2012 حينما أطلقت مجلة بيزنس هارفارد ريفيو على علم البيانات "بأنها الوظيفة الأكثر إثارة في القرن الحادي والعشرين، أصبح علم البيانات عبارة شائعة. وتُستخدم الآن بصفة تبادلية مع المفاهيم السابقة مثل تحليل الأعمال، وذكاء الأعمال، والتحليل التنبؤي، والإحصاء. حتى أن هانز روزلينج أعاد صياغة عبارة علم البيانات المثير، في وثائقي هيئة الإذاعة البريطانية عام 2011 في تلك المقولة: "أصبح الإحصاء الآن أكثر الموضوعات المحيطة بنا إثارة". وأشار نيت سيلفر إلى أن علم البيانات قد جعل من الإحصاء أكثر إثارة. وفي حالات عديدة أعُيد تسمية العديد من المناهج والحلول السابقة بعلم البيانات لكي تصبح أكثر جاذبية. وفي حين تقدم بعض الجامعات حالياً شهادات في علم البيانات، غير أنه لا يوجد توافق في الآراء حول تعريف أو محتويات المناهج المناسبة.

التاريخ عدل

 
مخطط انسيابي يوضح خطوات عملية علم البيانات من "القيام بعلم البيانات"، كاثي أونيل و راشيل شوت، 2013

مصطلح «علم البيانات» (الذي استخدم في الأصل بالتبادل مع "Datalogy") موجود لأكثر من ثلاثين عاما، وكان يستخدم في البداية كبديل عن علوم الكمبيوتر من قبل بيتر ناور في عام 1960. حيث في عام 1974، نشر بيتر ناور مسح موجز لأساليب الكمبيوتر، والذي استخدم مصطلح «علم البيانات» بحرية في دراسته لطرق معالجة البيانات المعاصرة التي تستخدم في مجموعة واسعة من التطبيقات.

المهام الأساسية لعالم البيانات[6][7] عدل

على الرغم من أن كل من محللي وعلماء البيانات يتشاركون العديد من الأهداف والمهام إلا أنه هناك بعض الاختلافات.

هذه قائمة قصيرة بأهم المهام والأهداف التي يعمل عليها

1-التنبؤ بقيم معينة بناءً على بيانات قديمة.

• التنبؤ بإجمالي الربح الذي سوف تحصل عليه الشركة خلال الشهر القادم.

• التنبؤ بعدد المستخدمين الجدد للتطبيق في شهر معين.

2-عمليات التصنيف | Classification

• تصنيف البريد الإلكتروني بأنه غير هام أو هام.

3-بناء أنظمة التوصية | Recommendation Systems

• عندما تقوم بعملية شراء لمنتج ما، سوف تلاحظ وجود قائمة تخبرك بمنتجات شبيه بالمنتج الذي اخترته.

• أنظمة التوصية في مواقع مشاهدة الأفلام.

4- الكشف عن الأنماط | Pattern Detection

•اكتشاف العلاقات بين البيانات الموجودة التي لا يمكن الكشف عنها بالطرق التقليدية.

5-التحليل الاستكشافي للبيانات | Exploratory Data Analysis

•إجراء بعض العمليات على البيانات لفهم طبيعتها والحصول على فكرة أولية عما تحتويه من معلومات.

6-قياس جودة أداء الخوارزميات وتحسين نتائجها.

الاختلافات الأساسية بين عالم البيانات ومحلل البيانات[6] عدل

  • إن محلل البيانات يركز بشكل أساسي على معالجة وتحليل البيانات واستخراج معرفة منها تفيد الأعمال في تفسير الماضي والوقت الحاضر. أما عالم البيانات فيقوم بتطوير وبناء خوارزميات ونماذج لتحليل البيانات واستخراج معرفة منها تفيد في تفسير الماضي والحاضر، والتنبؤ بالمستقبل!
  • محلل البيانات يقوم بالإجابة على أسئلة محددة طرحت من قبل أشخاص آخرين (معظم الأحيان). أما عالم البيانات يقوم باكتشاف وصياغة الأسئلة (متبعاً المنهج العلمي) التي تسعى إلى حل مشاكل غير منتبه إليها أو غير ظاهرة بعد.
  • محلل البيانات عادةً ما يقوم باستخدام برامج وتطبيقات جاهزة لتساعده في جميع أعماله. أما عالم البيانات بالإضافة إلى استخدام الأدوات والبرامج، فهو قادر على بناء أنظمة أو تطبيقات خاصة به لتقوم بالعمل.[6][8]
محلل البيانات

يهتم بشرح وفهم الماضي

عالم البيانات

يركز على تحسين المستقبل

تقرير شهري بأكثر الأفلام والمسلسلات مشاهدة على الموقع. التنبؤ بعدد مشاهدات فيلم معين قبل طرحه.
جمع وتحليل البيانات الخاصة باستبيانات رضا المستخدمين. بناء نظام توصية للأفلام.
تحليل المناطق/البلاد التي يتواجد فيها عدد كبير من المستخدمين وإبلاغ قسم التسويق بنتائج التحليل. اكتشاف أنماط وعلاقات بالبيانات الموجودة باستخدام خوارزميات تعلم الآلة واستخدام هذه الاكتشافات في تحسين خدمات الموقع.
إعداد التقارير الخاصة بمؤشرات الأداء الرئيسية الخاصة بالشركة. (KPI)

(عدد المشتركين الجدد-إجمالي الربح الشهري-عدد الأشخاص الذين يخرجون من الفيلم قبل نهايته-...)

تطبيق خوارزميات التصنيف (Classification) لتحليل الصور الموجودة في فيلم معين وتصنيفه في إحدى الفئات التالية:

-يحتوي مشاهد سيئة

-لا يحتوي مشاهد سيئة

وفي حال كان عمر المشاهد غير مناسب فسيتم تنبيهه تلقائياً.

مراحل عملية علم البيانات[6] عدل

1-الحصول على البيانات المتعلقة بالموضوع الذي تريد أن تكتشفه أو المشكلة المراد حلها.

2-معالجة البيانات والتأكد من صحتها وخلوها من الأخطاء التي من الممكن أن تؤثر على النتائج.

3-القيام بالتحليل الاستكشافي للبيانات للحصول على نظرة شاملة عن البيانات المتعامل معها.

4-بناء، تطوير، وتطبيق الخوازميات والنماذج اللازمة لحل المشكلة والحصول على النتائج.

5-عرض النتائج النهائية على أصحاب القرار.

أقسام علم البيانات[9] عدل

اكتشاف وفهم البيانات عدل

يهتم هذا القسم في اكتشاف المعرفة داخل البيانات. لتمكين أصحاب الأعمال من اتخاذ قرارات تحقق لهم فائدة أكبر.

حيث يعتمد بشكل كبير على علم الاحصاء (تحليل البيانات الكمي والنوعي).

على سبيل المثال تطبيق موبايل لبيع الملابس يعمل على أجهزة الأيفون والاندرويد.

البيانات (Data): أظهرت البيانات أنه خلال الشهر الماضي تم استخدام التطبيق من قبل 5000 مستخدم.

التحليلات (Analytics): يمكن استخدام التحليلات لإيجاد عدد المستخدمين الذين استعملوا التطبيق من خلال الايفون.

فهم التحليلات (Insights): من الممكن اكتشاف أن مستخدمي الايفون هم أقل احتمالاً للشراء عبر التطبيق بنسبة 40%.

الخطوة التالية تتمثل بمعرفة السبب وراء انخفاض نسبة التعاملات باستخدام اجهزة الايفون مقارنة بباقي الأجهزة.

هل يمكن أن يتعلق هذا الأمر بصعوبة وتعقيد واجهة استخدام التطبيق في الايفون؟

فإذا كان الأمر صحيحاً، فإن جعل واجهة الاستخدام بسيطة أكثر، سوف يرفع من احتمال عملية شراء المنتجات عبر المستخدمين الذين يملكون أيفون.

تطوير منتجات مرتبطة بالبيانات[9] عدل

يستخدم هذا القسم البيانات الموجودة لدى الشركة، كمدخلات إلى الخوارزميات والنماذج التي يقوم ببنائها “عالم البيانات”. يعتمد هذا القسم بشكل كبير على معرفة الشخص بعلم الحاسوب وخوارزميات تعلم الآلة والذكاء الصناعي.

أمثلة عدل

  • Google Search عندما تقوم بالبحث عن شيء معين، فإن محرك البحث غوغل لا يقوم بعرض النتائج المتعلقة بهذه الكلمة فقط، بل يستخدم جميع البيانات التي يمكن الحصول عليها من المستخدم لعرض أفضل نتيجة ممكنة. النتائج سوف تتعلق بالأمور التي قمت بالبحث عنها سابقاً، بمكانك الجغرافي (في أي بلد أنت)، بتحليل الأمور التي تحبها. عمرك وجنسك، والعديد من الأمور الأخرى.
  • Spell Checking حيث يقوم غوغل بمراقبة الكلمات التي يقوم المستخدم بالضغط عليها حتى يقوم بتحسين الخوارزمية الخاصة بتصحيح الأخطاء الإملائية.
  • Gmail يقوم باستخدام خوارزمية معينة بتصنيف رسائل البريد الإلكتروني بين رسائل مهمة أو رسائل مزعجة.
  • Netflix يعد استخدام نظم التوصية Recommendation systems من أحد أهم الأمور الموجودة في هذا المجال، حيث تقوم بالاعتماد على اهتمامات المستخدم ونمط الأفلام التي يشاهدها، والأفلام الأخيرة التي شاهدها وجنسه وعمره، والتقييمات التي وضعها على الأفلام بتوصية أفلام جديدة من الممكن أن تعجب المستخدم.

ادوات مرئية عدل

  • Plotly يوفر مجموعة غنية من مكتبات الرسوم البيانية العلمية التفاعلية..
  • تابلو سوفتوير يصنع مجموعة متنوعة من البرامج المستخدمة لتصور البيانات.[10]
  • باور بي آي iهي خدمة تحليلات أعمال مقدمة من مايكروسوفت..
  • Qlik تنتج برامج مثل QlikView و Qlik Sense المستخدمة لتصور البيانات وذكاء الأعمال..
  • AnyChart يوفر مكتبات JavaScript وأدوات أخرى لتصور البيانات في المخططات ولوحات المعلومات..
  • Google Charts هي خدمة ويب تستند إلى JavaScript تم إنشاؤها ودعمها بواسطة Google لإنشاء مخططات رسومية. charts.
  • Sisense يوفر واجهة أمامية لإنشاء تصورات البيانات بما في ذلك لوحات المعلومات والتقارير..
  • Webix هي مجموعة أدوات لواجهة المستخدم تتضمن أدوات مخصصة لتصور المعلومات..

المراجع عدل

  1. ^ وصلة مرجع: https://kanger.dev/career/data-scientist.
  2. ^ وصلة مرجع: https://kanger.dev/career/data-architect.
  3. ^ أ ب معجم البيانات والذكاء الاصطناعي (PDF) (بالعربية والإنجليزية)، الهيئة السعودية للبيانات والذكاء الاصطناعي، 2022، ص. 59، QID:Q111421033
  4. ^ Tansley, Stewart; Tolle, Kristin Michele (2009). The Fourth Paradigm: Data-intensive Scientific Discovery (بالإنجليزية). Microsoft Research. ISBN:9780982544204. Archived from the original on 2020-01-25.
  5. ^ Bell, Gordon; Hey, Tony; Szalay, Alex (6 Mar 2009). "Beyond the Data Deluge". Science (بالإنجليزية). 323 (5919): 1297–1298. DOI:10.1126/science.1170411. ISSN:0036-8075. PMID:19265007. Archived from the original on 2019-01-01.
  6. ^ أ ب ت ث "الفرق بين عالم البيانات و محلل البيانات | Data Science عربي". Data Science عربي (بar-AR). 22 Apr 2018. Archived from the original on 2019-12-10. Retrieved 2018-09-07.{{استشهاد بخبر}}: صيانة الاستشهاد: لغة غير مدعومة (link)
  7. ^ Zhu, Yangyong; Xiong, Yun (22 May 2015). "Towards Data Science". Data Science Journal (بالإنجليزية). 14 (0). DOI:10.5334/dsj-2015-008. ISSN:1683-1470. Archived from the original on 2017-12-02.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: دوي مجاني غير معلم (link)
  8. ^ "What Is Data Science, and What Does a Data Scientist Do?". www.kdnuggets.com (بالإنجليزية الأمريكية). Archived from the original on 2019-04-13. Retrieved 2018-09-07.
  9. ^ أ ب "تعرف على علم البيانات | Data Science عربي". Data Science عربي (بar-AR). 8 Mar 2018. Archived from the original on 2019-12-10. Retrieved 2018-09-07.{{استشهاد بخبر}}: صيانة الاستشهاد: لغة غير مدعومة (link)
  10. ^ Rhodes، Margaret (15 يوليو 2014). "A Dead-Simple Tool That Lets Anyone Create Interactive Maps". Wired. مؤرشف من الأصل في 2020-11-12. اطلع عليه بتاريخ 2020-04-03.