التعلم المتعمق والبيانات الضخمة

N write.svg
هذه مقالة غير مراجعة. ينبغي أن يزال هذا القالب بعد أن يراجعها محرر عدا الذي أنشأها؛ إذا لزم الأمر فيجب أن توسم المقالة بقوالب الصيانة المناسبة. (يناير 2016)

التعلم المتعمق والبيانات الضخمة البيانات هي المعلومات التي شكلت في تنسيقات خاصة ليتم تخزينها، تعديلها أو تحليلها. لكن، عندما يصبح صعبا تخزين هذه البيانات لكبر حجمها أو صعبا تعديلها بسبب تنوعها وتعقيدها أو صعبا تحليلها بسبب سرعه إنتاجها فان هذه البيانات يظلق عليها اسم “البيانات الضخمه”. البيانات الضخمه هي واحده من أكبر إنجازات العصر في مجال تكنولوجيا المعلومات، لأنها تمثل تحديا عظيما للمستخدمين والشركات والباحثين، حيث أن الأدوات التقليديه لا تستطيع التعامل مع هذا النوع من البيانات. في هذه المقاله سنسلط الضوء على مصطلح “البيانات الضخمه”، ونبين خصائص البيانات التي تعطيها هذا المسمى، وسنوضح اهميتها والتحديات اللتي تواجه الأشخاص الذين يتعاملون معها والطرق المتبعه للتعامل مع مشاكلها، وأهم هذه الطرق “التعلم المتعمق”. التعلم المتعمق هو ذلك النوع من التعلم الآلي الذي يستخدم مجموعه من الخوارزميات المعقده، لاستخلاص البيانات عاليه التجريد من البيانات الخام. وذلك عن طريق بناء هرمي من هذه الخوارزميات لترتيب هذه البيانات وتصنيفها واستخراج المفيد منها، ليتم تخزينها أو تعديلها أو تحليلها. البيانات الضخمه تحتوي قطعا من المعلومات، التي هي الجزء المفيد من هذه البيانات، و “التعلم المتعمق” هو أكثر الحلول الواعده لاستخراج هذه الأجزاء المفيده من المحتوى الضخم. لذلك فإن التعلم المتعمق هو أداة مهمة جدا لجعل تحليل ال “البيانات الضخمه” أسهل، عن طريق تزويد أدوات التحليل بالتمثيل المجرد للبيانات. وأخيرا، فإن تحليل البيانات الكبيرة بمساعدة التعلم المتعمق، يقدم مساهمة كبيرة في مجالات التطوير والابتكار في مختلف القطاعات، مثل الرعاية الصحية، والخدمات المصرفية، والتعليم، وغيرها، والتي تجعل من التعلم المتعمق واحدة من أكثر مجالات البحث رواجا في العالم.

مقدمهعدل

 
الشكل 1: تزايد حجم البيانات
 
الشكل 2: مصادر البيانات

“البيانات الضخمه” هي واحدة من أكثر المفاهيم الحديثة في مجال البحث العلمي، والتي تشكل تحديات عظيمه، لأنها تمثل أنواع البيانات التي يصعب جدا على التكنولوجيا التقليدية التعامل معها. على سبيل المثال، البيانات غير المهيكلة وغير المصنفة لا تتناسب مع قواعد البيانات التقليدية، وطرق التخزين التقليديه لا تستطيع استيعاب هذا الكم الهائل من البيانات، ولا يمكن لطرق التحليل التقليدية التعامل مع البيانات التي تتحرك بسرعة كبيرة. حجم البيانات يتضاعف بشكل هائل (الشكل 1)، والبيانات تزداد تنوعا وتعقيدا، بدءا بالبيانات التي ينتجها الإنسان كالبيانات التي تقدمها المنظمات والمؤسسات ومواقع التواصل الاجتماعي، وانتهاءا بالبيانات التي تنتجها الآلات مثل أجهزة الاستشعار، و(الشكل 2) يلخص مصادر “البيانات الضخمه”. ولكل مجال هناك معلومات مخبأه في داخل هذه البيانات الضخمه، مما يجعلها مصدرا قيما للعديد من القطاعات، مثل الرعاية الصحية والتعليم والبحث العلمي والصناعه، لذلك فإن استخلاص هذه المعلومات أصبح امرا في غايه الأهمية، من ناحية أخرى، فإن الطرق والتقنيات والأدوات التقليدية لا تستطيع القيام بذلك، مما جعل استرجاع المعلومات مهمة صعبة. ومن هنا ظهر مصطلح “تحليل البيانات الضخمه” على أنه العلم الذي يختص بالتعامل مع مشاكل “البيانات الضخمه”، من خلال تصنيف وتحليل البيانات ذات الحجم الهائل و التنوع الهائل واللتي تتغير بسرعه كبيرة[1].

التعلم الآلي هو الحل الأكثر قيادة في “تحليل البيانات الضخمه”، وهو عباره عن مجموعه من خوارزميات الذكاء الأصطناعي، التي تعتمد على تحليل البيانات والأنماط السابقه، لاتخاذ قرارات في المستقبل. لكن طبيعة البيانات وتركيبها لديه تأثير كبير على أداء خوارزميات التعلم الآلي، في حين أن الخوارزميات البسيطة سوف تتعامل بشكل جيد مع البيانات المنظمه، فان البيانات غير المنظمه سوف تقلل من أداء خوازميات أخرى ذات تعقيد كبير [2]. من هنا فان “استخراج السمات” - وهي عملية تحويل البيانات الخام إلى تمثيل مناسب استنادا إلى متطلبات المجال - مهمة صعبة، لأنه هو الجزء الأكثر أهمية من خوارزميات التعلم الآلي، وهي الجزء الذي يسلتزم التدخل البشري. وهكذا، فإن التعلم المتعمق هو واحد من الحلول الواعدة لأتمتة عملية استخراج السمات والتعامل مع البيانات غير المنظمه، وذلك باستخدام بنية هرمية ومحاكاة الدماغ البشري [3][4].

يستخدم التعلم المتعمق عادة خوارزميات التعلم الجشع لتدريب طبقات الشبكة، وذلك باستخدام كميات هائلة من البيانات دون الحاجه للمساعده البشريه.من هنا، فإن بنية شبكتها، التي تقوم على أساس طبقات هرمية غير خطية يحسن نتائج التعلم فيها. هذا يظهر في تطبيقاتها للرؤيه الحاسوبيه [5] و تمييز الكلام [6] ومعالجة اللغة الطبيعية [7].

البيانات الضخمهعدل

 
الشكل 3 : خصائص البيانات الضخمه

البيانات هي الشكل الخام من المعلومات. حيث أن المعلومات تأخذ هذا الشكل ليصبح من الممكن تخزينها وتعديلها وتحليلها. ومع ذلك، ونظرا للزيادة في سعة التخزين وقدرة المعالجة وظهور الحوسبة السحابية، وإنترنت الأشياء وسائل الاعلام الاجتماعية، اكتسبت البيانات بعض الخصائص لتصبح “البيانات الضخمه” [1]. من هنا فإن “البيانات الضخمه” هو مصطلح يطلق على البيانات التي يصعب انتزاع المعلومات منها، بسبب حجمها الضخم، وتمثيلها السيئ وسرعه إنتاجها، الخ [8][9].

خصائص “البيانات الضخمه”عدل

بشكل عام، إن خصائص “البيانات الضخمه” تستند إلى التعقيدات في خصائص البيانات. خصائص البيانات الضخمه تتلخص فيما يلي:

  1. الحجم : في الواقع، إن حجم البيانات الكبير لن يشكل مشكله حقيقيه في التخزين، لكن المشكله تظهر عندما نريد استرجاع هذه البيانات أو تحليلها. حيث أن سعة التخزين تتزايد بشكل كبير، ولكن العثور على المعلومات المطلوبة داخل تلك الكمية الهائلة من البيانات، وتحليلها هي المشكلة الحقيقية. وذلك لأن تلك البيانات يتم جمعها من مصادر مختلفة (على سبيل المثال، مواقع التواصل الاجتماعي، وصفحات الويب وأجهزة الاستشعار، الخ)، لأغراض محددة النطاق[8][10][11].
  2. التنوع : طبيعة البيانات الخام هي أن تكون متنوعه وغير مصنفه وغير منظمه وأن تاتي بأشكال مختلفة. ونتيجة لذلك، هذا النوع من البيانات غير صالحة لاستهلاك المستخدمين. لذلك، فإنه يتطلب جهدا ضخما لاستخراج سمات تلك البيانات، لتغييرها إلى شكل موحد منظم قبل أن يصبح من الممكن استخدامها[8][10][11].
  3. السرعة : ببساطة، السرعة هو مصطلح يطلق على البيانات التي تتغير مع مرور الوقت أو التي يتم توليدها بشكل متكرر. على سبيل المثال، البيانات التي يتم جمعها من أجهزة الاستشعار. سرعة البيانات في الحقيقة مشكلة يجب حلها، لأن تحليل هذه البيانات عادة يجب أن يكون في الوقت الحقيقي، لإعطاء استجابة و ردود فعل سريعة. وعلاوة على ذلك، فإن هذا النوع من البيانات معرض للضياع إذا كانت قوة المعالجة أو خوارزميات التحليل ليست جيدة بما فيه الكفاية[10][11].
  4. المصداقيه : حيث أنه يمكن لأي شخص نشر أي نوع من البيانات، أصبح من المهم جدا تحديد مصادر البيانات ومصداقيتها ومستويات الدقه فيها[8][11].
  5. عدم الثبات : تعاني البيانات عموما من التناقض. لأن معنى البيانات وما تمثله يتغير مع مرور الوقت وفي سياقات مختلفة، وهذا يجعل إدارتها أصعب ونتائج التحليل غير مستقرة، خاصة عند التعامل مع البيانات في مواقع التواصل الاجتماعي[8][10].
  6. التعقيد : نظرا لجمع البيانات من مصادر مختلفة، تظهر مشكلة جديدة بسبب التركيبه المختلفة وتنوع تمثيل البيانات. الأمر الذي يتطلب تحويل وربط البيانات المختلفة، لإنتاج بيانات مترابطه قابلة للتحليل[8].

ومن هنا، ظهر علم "تحليل البيانات الضخمه" للتعامل مع “البيانات الضخمه”. لذلك، فإن هذا العلم يختص بمعالجة المشاكل الناتجة عن خصائص “البيانات الضخمه” (على سبيل المثال، هندسة استخلاص السمات، استيعابية الخوارزميات، تكامل البيانات، وجودة البيانات، الخ) [1][11]. ومع ذلك، على الرغم من المشاكل الصعبة ل“البيانات الضخمه”، كانت خصائصه المفتاح الذي جعلها مفيدة جدا لمختلف القطاعات.

أهمية “البيانات الضخمه”عدل

  1. الخدمات المصرفيه : مستوى رضا العملاء هو المؤشر الرئيسي لنجاح أي مصرف. أيضا، الكشف عن الخداع والتزوير مهم جدا لحماية الزبائن. من هنا، فإن "تحليل البيانات الضخمه" يوفر الحل القطعي لزيادة مستوى رضا العملاء، من خلال تحليل بيانات العملاء لمعرفة احتياجاتهم. على سبيل المثال، سيقوم البنك بتوجيه العميل إلى أخذ قرض السيارة إذا كان لا يملك واحدة. أيضا، "تحليل البيانات الضخمه" يساعد البنك على كشف الخداع والتزوير. على سبيل المثال، قد يوقف البنك بطاقة العميل في حالة استخدام رقمه في مكانين مختلفين في نفس الوقت[12].
  2. التعليم : جودة التعليم تقاس بتقدم الطلاب. وبالتالي، فإن تحسين نظام التعليم والمناهج والمعلمين مهم جدا لزيادة تقدم الطلاب، ونتيجة لذلك، زيادة نوعية التعليم. "تحليل البيانات الضخمه"، الذي يتميز بقدرته على إيجاد نقاط فشل النظام واتخاذ ردود فعل سريعه للمشاكل، سيحدث نقطة تحول في التعليم وجودته[12].
  3. الحكومة : تمتلك الحكومات البيانات الأكثر حساسية وخطورة. وهذا يجعل "تحليل البيانات الضخمه" سيفا ذا حدين في يد الحكومة. لأنه يمكن استخدامها لمنع أو ارتكاب الجرائم. حيث أنه إذا تم استخدامها بشكل جيد، يمكن ل"تحليل البيانات الضخمه" حل مشاكل مثل الازدحام المروري. لذا، يتعين على الحكومات أن تتعامل بحذر مع تلك البيانات من خلال الحفاظ على سريتها وخصوصيتها[12].
  4. الصحه : في قطاع الرعاية الصحية، لا بد من الدقة والكفاءة والسرعة لتقديم أفضل الخدمات للمرضى، بدءا من التشخيص إلى العلاج وانتهاءا بالوصفة الطبية. من خلال تحليل سجلات المرضى ومقارنتها مع السجلات السابقة، يمكن "تحليل البيانات الضخمه" اتخاذ قرارات سريعة ودقيقة وردود فعل سريعه عن حالة المريض[12].
  5. الصناعه : "تحليل البيانات الضخمه" يساعد على زيادة الإنتاجية ويرفع جودة المنتجات. أيضا، فإنه يختصر الوقت ويكتشف نقاط الفشل. وعلاوة على ذلك، فإن القرارات التي تتخذ بناءا على "تحليل البيانات الضخمه" هي أسرع وأكثر دقة من القرارات القائمة على الإنسان. لذلك، "تحليل البيانات الضخمه" هو واحد من أهم أسباب النجاح في قطاع الصناعه[12].

لذلك، فإن “البيانات الضخمه” مهمة جدا للابتكار والتطوير في العالم. ولكن خصائصها تحد من فوائدها. من هنا، فإن "الذكاء الاصطناعي" يعرض "التعلم الآلي" كحل للتعامل مع هذه القيود. ولكن خوارزميات التعلم الضحلة التقليدية ليست مصممة للتعامل مع مثل هذه الحالة. ونتيجة لذلك، ظهرت "التعلم المتعمق" ليكون الحل الأكثر حداثة وقوة لمشاكل “البيانات الضخمه”.

التعلم المتعمقعدل

يقوم مبدأ التعلم المتعمق على استخراج سمات البيانات، وذلك باستخدام نموذج التعلم الهرمي. من هنا، فإن بنية التعلم المتعمق التي تتكون من عدد من طبقات التعلم ذات التحويلات غير الخطية، تقوم باستخراج السمات الأكثر تجريدا من سمات أخرى أقل تجريدا منها، وبالنتيجه، فإن هذه السمات المجرده تمثل مصادر التباين في البيانات. لذلك، فهي أفضل تمثيل منظم للبيانات. وعلاوة على ذلك، يستخدم التعلم المتعمق بيانات ضخمه لم تخضع لأي تنسيق بشري مسبق وهذا الامر يصنع منها حلا للحد من التدخل اليدوي البشري المباشر في عملية التوجيه والتعليم. ونتيجة لذلك، مخرجات التعلم المتعمق تمثل مصدرا قيما للتطبيقات المختلفة (على سبيل المثال، خوارزميات التعلم الأخرى، التصنيف والفهرسة، الخ)[3][13].

بنية التعلم المتعمقعدل

خوارزميات التعلم عميقة تشترك في نفس البنية، والتي تعتمد على طبقات هرمية يتم تعليمها باستخدام خوارزميات التعلم الجشع. حيث أن الطبقة الأولى تأخذ مدخلات النظام، ثم تستخدم مخرجاتها كمدخلات للطبقة التي تليهاوهلم جرا، وأخيرا فإن مخرجات الطبقة الأخيرة تمثل مخرجات النظام. مكدسة Autoencoders هي واحدة من خوارزميات التعلم المتعمق[1].

مكدسة Autoencodersعدل

 
الشكل 4 : Autoencoder

إذا كنا نستطيع إعادة بناء البيانات باستخدام عدد أقل من الميزات، فأن هذه الميزات تشكل تمثيلا مجردا جيدا للبيانات. وهذه هي الطريقة التي تعمل بها ال "Autoencoders". عموما، Autoencoders تتكون من ثلاث طبقات: طبقة المدخلات، وطبقة المخرجات وطبقة مخفية. أيضا، عدد العقد في الطبقة المخفية يجب أن يكون أقل من طبقتي المدخلات والمخرجات. والهدف الرئيسي للطبقة المخفية هو تقليل نسبة الخطأ بين المدخلات والمخرجات. حيث عملية التعليم تهدف الي تقليل نسبة هذا الخطأ إلى أدنى حدودها. ونتيجة لذلك، تصبح الطبقة المخفية قادره على إعادة إنتاج البيانات المدخله مرة أخرى، لتصبح هذه الطبقة المخفية تمثل سمات البيانات[14]. (الشكل 4) يوضح بنية Autoencoders. من ناحية أخرى، فإن الهدف من التعلم المتعمق ليس فقط إعادة تمثيل البيانات، ولكن أيضا لمعرفة أهم السمات المجردة من السمات أقل تجريدا. لذلك، من خلال تكديس ال Autoencoders، فإن التعلم المتعمق يستخلص أهم السمات المجردة للبيانات. لأنه في كل طبقة يزداد مستوى التجريد، من خلال تجريد الناتج من التجريد السابق[3][13].

التعلم المتعمق و تحليل البيانات الضخمهعدل

التعلم المعمق يبسيط البيانات المعقدة، عن طريق تمثيلها في نماذج أكثر بساطة وتجريدا. أيضا، إن التعلم المتعمق يقوم بأتمتة عملية استخراج السمات. وهذا يجعل منه موردا قيماً ل"تحليل البيانات الضخمه". حيث أنه يطوع خصائص "البيانات الكبيرة"، لتصبح مادة جاهزة للاستخدام في "تحليل البيانات الضخمه". وبعبارة أخرى، فإن التعلم المتعمق يأخذ البيانات الكبيرة كمدخلات. ومخرجات "التعلم المتعمق" تستخدم كمدخلات في "تحليل البيانات الضخمه" لاتخاذ القرارات، والتنبؤ بالفشل، واسترجاع المعلومات، إلخ. حيث أن التعامل مع البيانات الضخمة والمعقدة يتجاوز مقدرة البشر، حتى مع مساعدة خوارزميات التعلم التي تحتاج للإشراف.

من هنا، فإن استخدام خوارزميات "التعلم المتعمق" للبنية الهرمية التي يتم تعليمها عادة باستخدام بيانات غير خاضعه للاشراف البشري. تجعلها مناسبة للتعامل مع هذا النوع من البيانات. نتيجة لذلك، فإن "التعلم المتعمق" يفتح الفرص لإنجاز مهام أكثر تعقيداً. على سبيل المثال، فهرسة البيانات ذات الاتواع والاشكال المتعددة[1] .

الفهرسة الدلاليةعدل

كما ذكرنا من قبل، التعلم المتعمق يساعد "تحليل البيانات الضخمه" في مهمة استرجاع المعلومات. من هنا، فإن الفهرسة تستخدم للعثور على البيانات بسرعة، عن طريق ربط البيانات الخام بتمثيل اصغر لها للمساعده في تصنيفها أو البحث عنها. حيث أن العثور على المعلومات المطلوبة داخل تلك الكمية الهائلة من البيانات قد يكون مستحيلا بدون استخدام الفهرسة[15][16]. من ناحية أخرى، ومع الزيادة الهائلة في حجم وتنوع البيانات، بدأت فهرسة البيانات الخام تفقد كفاءتها. لأن هذا الحجم والتنوع يزيد من حجم الفهرس، وبعد وقت، قد نصبح بحاجة إلى فهرسة الفهرس. لذلك، بدلا من فهرسة البيانات الخام، يوفر التعلم المتعمق التمثيل المبسط والمجرد لهذه البيانات ليتم فهرستها. حيث أن خوارزميات التعلم المتعمق يتم تدريبها لاستخراج السمات الدلالية من البيانات. ثم بعد ذلك تبدأ خوارزميات فهرسة الدلالات باستخدام الناتج من خوارزميات التعلم المتعمق كمدخل، بدلا من البيانات الخام. من هنا، فإن فهرسة الدلالات يستخدم لتصنيف وتنظيم وتمثيل أنواع مختلفة من المستندات. لكن مع قدرة التعلم المتعمق على تمثيل أنواع مختلفة من الملفات، فإن فهرسة الدلالات يمكن استخدامها للتعامل مع مثل هذه الأنواع من الملفات [1][16][17].

الاستنتاجعدل

على الرغم من أن “البيانات الضخمه” ذات الخصائص المتمثلة في التنوع والحجم والسرعة والتعقيد والمصداقيه،هي مشكلة حقيقية لتحليل البيانات وتخزينها، وتعديلها وفهرستها وتمثيلها، إلا أن لها تطبيقات هائلة للحكومة، والأعمال المصرفية، والرعاية الصحية، والتصنيع والتعليم والقطاعات الأخرى، وبعض هذه التطبيقات ممثلة في الكشف عن الغش والازدحام المروري ومراقبة وتحليل احتياجات العملاء وما إلى ذلك. وللتغلب على مشاكلها وتطبيق تطبيقاتها، فإن “البيانات الضخمه” تحتاج إلى حل غير اعتيادي مثل "التعلم المتعمق". التعلم المتعمق هي أحد فروع الذكاء الاصطناعي. حيث أن بنية خوارزمياتها، والتي تقوم على نموذج هرمي متعدد الطبقات، تساعدها على استخراج السمات الأكثر تجريدا من سمات أخرى أقل تجريدا منها. بالاضافه إلى ذلك،فإن طبقاتها يمكن تدريبها باستخدام مجموعات البيانات التي لا تحتاج لمساعدة البشر. وهذا يقلل من الجهد المستخدم لاستخراج السمات في خوارزميات التعلم التقليدية، ويزيد من قدرتها على التعامل مع أنواع متباينة من البيانات بدقة عالية وكفاءة. مكدسة Autoencoders هي أحد خوارزميات التعلم المتعمق، والتي تتكون من طبقات من Autoencoders، لزيادة مستوى التجريد في كل طبقة جديدة. وبعبارة أخرى، فإنها تستخراج التجريد من التجريد. خوارزميات Autoencoders يتم تعليمها باستخدام بيانات غير خاضعة للاشراف البشري، من خلال محاولة مطابقة نتائج المخرجات مع البيانات المدخلة وإجبار الطبقة المخفية لبناء سمات البيانات. إن قدره خوارزميات التعلم المتعمق على استخراج السمات وتبسيط تمثيل البيانات، يجعلها أفضل مرشح لمرحله ما قبل التحليل في "تحليل البيانات الضخمه". لذلك، التعلم المتعمق تفتح آفاقا جديدة ل"تحليل البيانات الضخمه" للتعامل مع أكثر المهام تعقيدا (مثل فهرسة الدلالات). تستخدم خوارزميه فهرسة الدلالات التعليم المتعمق لاستخراج السمات الدلاليه من البيانات، لتقوم بفهرسة هذه السمات بدلا من البيانات الخام. مما يؤدي إلى أداء ودقة أفضل. وأخيرا، كأي مجال جديد من مجالات البحث العلمي، فإن التعلم المتعمق في تحليل البيانات الضخمه يواجه عددا من التحديات, مما يجعله واحدا من أهم الموضوعات البحثية في هذه الأيام.

مصادرعدل

  1. أ ب ت ث ج ح م. م. ناجافبادي, ف. فيلانوستر, ت. م. كوش جوفتار, ن. سيليا, ر. والد, ي. موهاريماجيك, “تطبيقات التعليم المتعمق والتحديات في تحليل البيانات الضخمه”, مجلة البيانات الضخمه, المجلد 2, العدد 1, صفحه 1-21, 2015 (بالانجليزيه)
  2. ^ ب. دومنغوس, “أشياء مفيده لتعرفها عن التعلم الآلي”, اتصالات ال ACM, المجلد 55, العدد 10, صفحه 78-87, 2012 (بالانجليزيه)
  3. أ ب ت ي. بينغو, ا. كورفيل , ب. فينسنت , “التعلم التمثيلي: استعراض ومنظورات جديدة”, معاملات IEEE في تحليل الأنماط والذكاء اللإصطناعي, مجلد 35, عدد 8, صفحه 1798-1828, 2013 (بالانجليزيه)
  4. ^ ي. بينغو, “تمثيل التعلم المتعمق: التطلع إلى الأمام”, في اللغة الإحصائية ومعالجة الكلام,سبرينغر , 2013, صفحه 1-37 (بالانجليزيه)
  5. ^ ا. كيرزفسكي, ا. ستسكيفير, ج.ي. هينتون “تصنيف Imagenet في الشبكات العصبية العميقة ”, التقدم في معالجة النظم, 2012, صغحه 1097-1105 (بالانجليزيه)
  6. ^ ج. هينتون, ل. دينج, ن. جاتلي, ا. سينيور, ف. فانهوكي, “الشبكات العصبية العميقة لوضع النماذج الصوتية في التعرف على الكلام: وجهات النظر المشتركة من أربعة مجموعات بحثية.” مجلة معالجة الإشارات، IEEE، المجلد. 29، عدد6، صفحه 82-97، 2012 (بالانجليزيه)
  7. ^ ا. بوردس, ي. بينغو ,"التعلم المشترك من الكلمات وتمثيل المعنى للنص المفتوح تحليل الدلالي" في المؤتمر الدولي التي على الذكاء الاصطناعي والإحصاء، 2012، صفحه 127-135 (بالانجليزيه)
  8. أ ب ت ث ج ح ب.س. تشن, س. تشانغ, "بيانات كثيفة التطبيقات، التحديات والتقنيات والتكنولوجيات: مسح على البيانات الكبيرة"، علوم المعلومات، المجلد275، صفحه 314-347, 2014 (بالانجليزيه)
  9. ^ ي. دمبل, “ما هي البيانات الضخمه”,https://www.oreilly.com/ideas/what-is-big-data , [أون لاين 21-نوفمبر-2015] نسخة محفوظة 30 مايو 2018 على موقع واي باك مشين.
  10. أ ب ت ث م. هيلبرت , "البيانات الضخمه من أجل التنمية: مراجعة منهجية من الوعود والتحديات،" لجنة الأمم المتحدة الاقتصادية لأمريكا اللاتينية (بالانجليزيه)
  11. أ ب ت ث ج كتاب: حدود في تحليل البيانات الضخمة.أكاديميات الصحافة الوطنية في واشنطن (بالانجليزيه)
  12. أ ب ت ث ج نظام التحليل الإحصائي (SAS)، "ما هي البيانات الضخمه" ,http://www.sas.com/en_us/insights/big-data/what-is-big-data.html ,2015 ,[أون لاين. 21-نوفمبر-2015]. نسخة محفوظة 19 مايو 2018 على موقع واي باك مشين.
  13. أ ب ي. بينجو، ا. كورفيل، وب. فنسنت، "التعلم التمثيلي: استعراض وجهات نظر جديدة،"معاملات IEEE في تحليل نمط وذكاء الآلة، المجلد. 35، العدد 8، صفحخ 1798-1828، 2013 (بالانجليزيه)
  14. ^ ج.ي. هينتون, ر. سالاكوتدينوف,"تقليل ابعاد البيانات في الشبكات العصبية " مجلة العلوم، المجلد. 313، العدد 5786، صفحه 504-507، 2006
  15. ^ ت. ميكولوف, ك. تشن, ج. كورادو, ج. دين,”التقدير الجيد لتمثيل الكلمه في المتجهات البعدية”,مجلة “arXiv preprint arXiv:1309.4168” ,2013
  16. أ ب ت. ميكولوف, ك. ف. لي, ا.ستسكيفر ,”استغلال التشابه بين اللغات والترجمة الآلية” , مجلة “ arXiv preprint arXiv:1309.4168, 2013” ,2013
  17. ^ ج. لي، ه. زهو, ج. تشينغ, ك. تامبيرانتوم, “الشبكات العصبية العميقة التي تعتمد على السياق لفهرسة البيانات الصوتية في الحياة الواقعية”, ورشه عمل تكنولوجيا اللغه المحكية,IEEE ,2012, صفحه 143-148