تي اف-اي دي دف

معامل التي اف-أي دي دف (تردد المصطلح-معكوس تردد الوثيقة (TF-IDF)) هو معامل غالبا ما يستخدم في استرجاع المعلومات وتعدين النصوص.[1][2][3] هذا المعامل هو مقياس إحصائي يستخدم لتقييم مدى أهمية وجود كلمة في مستند معين في ذخيرة النصوص. الأهمية تزيد نسبيا بزيادة عدد مرات ظهور الكلمة أو المصطلح في المستند ولكن تُقَأبَل بتردد الكلمة في الذخيرة بشكل عام. غالبا ما تستخدم الأشكال المختلفة للمعامل، بواسطة محركات البحث كأداة مركزية في لتقييم وترتب الوثائق حسب الصلة وفقا لاستعلام المستخدم.

واحدة من أبسط دوال الترتيب تحسب بواسطة جمع المعامل لكل مصطلح من مصطلحات الاستعلام؛ العديد من دوال الترتيب الأكثر تطورا هو شكل من أشكال هذا النموذج البسيط.

مراجع عدل

  1. ^ Probability estimates in practicein Introduction to Information Retrieval. نسخة محفوظة 14 فبراير 2017 على موقع واي باك مشين.
  2. ^ "TFIDF statistics | SAX-VSM". مؤرشف من الأصل في 2017-11-07.
  3. ^ Bollacker، Kurt D.؛ Lawrence، Steve؛ Giles، C. Lee (1 يناير 1998). "CiteSeer: An Autonomous Web Agent for Automatic Retrieval and Identification of Interesting Publications". Proceedings of the Second International Conference on Autonomous Agents. AGENTS '98. New York, NY, USA: ACM: 116–123. DOI:10.1145/280765.280786. ISBN:0-89791-983-1. مؤرشف من الأصل في 2020-02-03.