تعدين النص الطبي الحيوي

التعدين النص الطبي الحيوي. يتضمن ذلك معالجة اللغة الطبيعية الطبية الحيوية أو BioNLP تشير إلى طرق  ودراسة كيفية التعدين النص يمكن تطبيقها على النصوص والأدب في الطب الحيوي والبيولوجيا الجزيئية . كمجال للبحث، يشتمل تعدين النصوص الطبية الحيوية على أفكار من معالجة اللغات الطبيعية، والمعلوماتية الحيوية، والمعلوماتية الطبية، واللغويات الحاسوبية . يتم تطبيق الاستراتيجيات التي تم تطويرها من خلال الدراسات في هذا المجال بشكل متكرر على أدبيات البيولوجيا الطبية الحيوية والجزيئية المتاحة من خلال مواقع الخدمات مثل PubMed. 

اعتبارات وبحوثاتعدل

 يتطلب تطبيق أساليب تعدين النصالطبي الحيوي اعتبارات خاصة مشتركة في المجال.                                                                                                                                                                                                                                                                                                                

توافر بيانات نصية توضيحية عدل

 
يقدم هذا الشكل العديد من الخصائص لأدبيات الطب الحيوي التي أعدها Westergaard وآخرون. تشتمل المجموعة على 15 مليون مقالة كاملة باللغة الإنجليزية. (أ) عدد المنشورات في السنة من 1823 - 2016. (ب) التطور الزمني في توزيع ست فئات موضعية مختلفة من 1823 إلى 2016. (ج) التطور في عدد الصفحات لكل مقال من 1823–2016

. المشروح كبير المجاميع المستخدمة في تطوير وتدريب طرق التعدين النص أغراض العامة (على سبيل المثال، مجموعات الحوار الفيلم، استعراض المنتجات،  أو ويكيبيديا المادة النص) ليست محددة للغة الطبية الحيوية. في حين أنها قد توفر أدلة على خصائص النص العام مثل أجزاء من الكلام، إلا أنها نادرا ما تحتوي على مفاهيم تهم علماء الأحياء أو الأطباء. تطوير أساليب جديدة لتحديد الميزات الخاصة بالوثائق الطبية الحيوية يتطلب تجميع المجاميع المتخصصة.وقد وضعت الموارد مصممة للمساعدة في بناء طرق جديدة التعدين نص الطبية الحيوية من خلال معلوماتية لإدماج الأحياء وسريري التحديات والباحثين المعلوماتية الطبية الحيوية.الجمع بين الباحثين التعدين النص في كثير من الأحيان هذه المجاميع مع المفردات التي تسيطر عليها وتجميعات المتاحة من خلال المكتبة الوطنية للطب ' ق النظام الموحد الطبي اللغة (UMLS) و الموضوعات الطبية عناوين (mesh) . 

غالباً ما تتطلب الأساليب المستندة إلى التعلم الآلي مجموعات كبيرة من البيانات مثل بيانات التدريب لبناء نماذج مفيدة.التعليق اليدوي للجمل النصية الكبيرة غير ممكن واقعيًا. وبالتالي قد تكون بيانات التدريب نتاجًا للإشراف الضعيف والأساليب الإحصائية البحتة.

تباين شكل أو بنية البياناتعدل

 مثل الوثائق النصية الأخرى، تحتوي الوثائق الطبية الحيوية على بيانات غير منظمة . تتبع المنشورات البحثية تنسيقات مختلفة، وتحتوي على أنواع مختلفة من المعلومات، وتتخللها الأرقام والجداول وغير ذلك من المحتويات غير النصية. قد تختلف المستندات السريرية في البنية واللغة بين الأقسام والمواقع. قد تتبع أنواع أخرى من النصوص الطبية الحيوية، مثل ملصقات الأدوية، إرشادات هيكلية عامة ولكنها تفتقر إلى المزيد من التفاصيل. 

قلة اليقين عدل

يحتوي الأدب الطبي الحيوي على بيانات حول الملاحظات التي قد لا تكون عبارة عن حقائق. قد يعبر هذا النص عن عدم اليقين أو الشك حول المطالبات. وبدون تعديلات محددة، فإن نُهج تعدين النص المصممة لتحديد المطالبات داخل النص قد تسيء تصنيف هذه العبارات "التحوطية" كحقائق..[1]

دعم الاحتياجيات السريريةعدل

 يجب أن تعكس تطبيقات تعدين النصوص الطبية الحيوية المطورة للاستخدام السريري بشكل مثالي احتياجات ومطالب الأطباء.هذا هو مصدر القلق في البيئات حيث من المتوقع أن يكون دعم القرار السريري مفيدا ودقيقا

إمكانية التشغيل المتداخل مع الأنظمة السريرية عدل

يجب أن تعمل أنظمة التعدين الجديدة للنص مع المعايير الحالية والسجلات الطبية الإلكترونية وقواعد البيانات. طورت طرق التواصل مع الأنظمة السريرية  lonic ولكنها تتطلب جهودًا تنظيمية مكثفة لتنفيذها وصيانتها.[2][3]

خصوصية المريضعدل

 يجب أن تحترم أنظمة التعدين النصية التي تعمل بالبيانات الطبية الخاصة أمنها وتضمن جعلها مجهولة الهوية عند الاقتضاء   .[4][5][6]

العملياتعدل

تعتبر المهام الفرعية المحددة ذات أهمية خاصة عند معالجة النص الطبي الحيوي. [13] التعرف على الكيانات المسماة .

التعرف على الكينات المسماةعدل

 وقد أدرجت التطورات في تعدين النصوص الطبية الحيوية تحديد الكيانات البيولوجية مع الاعتراف الكيان مسمى، أو NER. أسماء ومعرفات للالجزيئات الحيوية مثل البروتينات والجينات، المركبات الكيميائية والعقاقير، ومرض أسماء وقد استخدمت بوصفها كيانات. ويدعم معظم وسائل التعرف على الكيان من المميزات أو مفردات لغوية محددة مسبقا، على الرغم من أساليب دمج التعلم عميقة وكلمة التضمينات نجحت أيضا في NER الطبية الحيوية. [7]

تصنيف المستند وتجميعه  عدل

يمكن تصنيف المستندات الطبية الحيوية أو تجميعها بناءً على محتوياتها وموضوعاتها. في التصنيف، يتم تحديد فئات المستندات يدويًا، أثناء التجميع، تشكل المستندات مجموعات مستقلة تعتمد على الخوارزميات.  هذه المهام هما التمثيلية لل إشراف وغير خاضعة للرقابة الطرق، على التوالي، بعد هدف لكل من هو إنتاج مجموعات فرعية من الوثائق على أساس خصائصها المميزة. اعتمدت أساليب تجميع الوثائق الطبية الحيوية على مجموعات

Referencesعدل

  1. ^ Agarwal S, Yu H (December 2010). "Detecting hedge cues and their scope in biomedical text with conditional random fields". Journal of Biomedical Informatics. 43 (6): 953–61. doi:10.1016/j.jbi.2010.08.003. PMC 2991497. PMID 20709188. الوسيط |CitationClass= تم تجاهله (مساعدة)
  2. ^ Jannot AS, Zapletal E, Avillach P, Mamzer MF, Burgun A, Degoulet P (June 2017). "The Georges Pompidou University Hospital Clinical Data Warehouse: A 8-years follow-up experience". International Journal of Medical Informatics. 102: 21–28. doi:10.1016/j.ijmedinf.2017.02.006. PMID 28495345. الوسيط |CitationClass= تم تجاهله (مساعدة)
  3. ^ Levy B. "Health Care's Semantics Challenge". www.fortherecordmag.com. Great Valley Publishing Company. مؤرشف من الأصل في 5 أكتوبر 2018. اطلع عليه بتاريخ 04 أكتوبر 2018. الوسيط |CitationClass= تم تجاهله (مساعدة)
  4. ^ Goodwin LK, Prather JC (2002). "Protecting patient privacy in clinical data mining". Journal of Healthcare Information Management. 16 (4): 62–7. PMID 12365302. الوسيط |CitationClass= تم تجاهله (مساعدة)
  5. ^ Tucker K, Branson J, Dilleen M, Hollis S, Loughlin P, Nixon MJ, Williams Z (July 2016). "Protecting patient privacy when sharing patient-level data from clinical trials". BMC Medical Research Methodology. 16 Suppl 1 (S1): 77. doi:10.1186/s12874-016-0169-4. PMC 4943495. PMID 27410040. الوسيط |CitationClass= تم تجاهله (مساعدة)
  6. ^ Graves S (2013). "Confidentiality, electronic health records, and the clinician". Perspectives in Biology and Medicine. 56 (1): 105–25. doi:10.1353/pbm.2013.0003. PMID 23748530. الوسيط |CitationClass= تم تجاهله (مساعدة)
  7. ^ Habibi M, Weber L, Neves M, Wiegandt DL, Leser U (July 2017). "Deep learning with word embeddings improves biomedical named entity recognition". Bioinformatics. 33 (14): i37–i48. doi:10.1093/bioinformatics/btx228. PMC 5870729. PMID 28881963. الوسيط |CitationClass= تم تجاهله (مساعدة)