معالجة مسبقة للبيانات

خطوة مهمة في عملية التنقيب عن البيانات

تعتبر المعالجة المسبقة للبيانات خطوة مهمة في عملية التنقيب عن البيانات. غالبًا ما يتم التحكم في طرق جمع البيانات بطريقة غير محكمة، مما يؤدي إلى قيم خارج النطاق (على سبيل المثال، الدخل: − 100)، ومجموعات البيانات المستحيلة (مثل: الجنس: ذكر، حامل: نعم)، أو قيم مفقودة، إلخ. تحليل البيانات التي لم يتم فحصها بعناية لمواجهة هذه المشاكل يمكن أن يؤدي إلى نتائج مضللة وغير منطقية. وبالتالي، فإن تمثيل وجودة البيانات تسبقان كل شيء قبل إجراء التحليل. في كثير من الأحيان، تعد المعالجة المسبقة للبيانات المرحلة الأكثر أهمية في مشروع التعلم الآلي، خاصة في علم الأحياء الحسابي.[1] في كثير من الأحيان، تجهيز البيانات يعتبر أهم مرحلة من مراحل التعلم الآلي، خاصة في الأحياء الحسابي.[2]

إذا كان هناك الكثير من المعلومات غير ذات الصلة أو الزائدة عن الحاجة أو البيانات المشوشة وغير الموثوق بها، فإن اكتشاف المعرفة خلال مرحلة التدريب يكون أكثر صعوبة. يمكن أن تستغرق خطوات إعداد البيانات،تصفيتها مقدارًا كبيرًا من وقت المعالجة. تتضمن معالجة البيانات الأولية التنظيف، واختيار الحالات، والتحسين، والتحويل، واستخلاص الخصائص واختيارها، وما إلى ذلك. النتيجة النهائية لمعالجة البيانات هو مجموعة التدريب النهائية.[3]

أساليب تجهيز البيانات

عدل
  • تنظيف البيانات هو عملية اكتشاف أو تصحيح أو إزالة السجلات غير الدقيقة من البيانات [4]
  • تحسين البيانات هي عملية تستخدم لتوحيد مجموعة من المتغيرات المستقلة أو ميزات البيانات [5]
  • تحويل البيانات هو عملية تحويل البيانات من شكل إلى شكل جديد يتوقعه الناس[6]
  • استخراج الميزات أو الخصائص هي عملية تحويل البيانات المدخلة إلى مجموعة من الميزات التي يمكن أن تمثل البيانات بشكل جيد.[7]

المراجع

عدل
  1. ^ Pyle, D., 1999. Data Preparation for Data Mining. Morgan Kaufmann Publishers, Los Altos, California. نسخة محفوظة 2 يونيو 2019 على موقع واي باك مشين.
  2. ^ Chicco D (ديسمبر 2017). "Ten quick tips for machine learning in computational biology". BioData Mining. ج. 10 ع. 35: 1–17. DOI:10.1186/s13040-017-0155-3. PMC:5721660. PMID:29234465.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: دوي مجاني غير معلم (link)
  3. ^ S. Kotsiantis, D. Kanellopoulos, P. Pintelas, "Data Preprocessing for Supervised Learning", International Journal of Computer Science, 2006, Vol 1 N. 2, pp 111–117.
  4. ^ Wu, S. (2013), "A review on coarse warranty data and analysis", Reliability Engineering and System, 114: 1–11, doi:10.1016/j.ress.2012.12.021 نسخة محفوظة 4 يونيو 2019 على موقع واي باك مشين.
  5. ^ Feature scaling. (n.d.). Retrieved November 18, 2018 from Feature scaling نسخة محفوظة 28 مايو 2019 على موقع واي باك مشين.
  6. ^ Data transformation. (n.d.). Retrieved November 18, 2018 from Data transformation نسخة محفوظة 3 أبريل 2019 على موقع واي باك مشين.
  7. ^ Feature extraction. (n.d.). Retrieved November 18, 2018 from Feature extraction نسخة محفوظة 2 مايو 2019 على موقع واي باك مشين.