تعدين النص الطبي الحيوي

التعدين النص الطبي الحيوي. يتضمن ذلك معالجة اللغة الطبيعية الطبية الحيوية أو BioNLP تشير إلى طرق  ودراسة كيفية التعدين النص يمكن تطبيقها على النصوص والأدب في الطب الحيوي والبيولوجيا الجزيئية . كمجال للبحث، يشتمل تعدين النصوص الطبية الحيوية على أفكار من معالجة اللغات الطبيعية، والمعلوماتية الحيوية، والمعلوماتية الطبية، واللغويات الحاسوبية . يتم تطبيق الاستراتيجيات التي تم تطويرها من خلال الدراسات في هذا المجال بشكل متكرر على أدبيات البيولوجيا الطبية الحيوية والجزيئية المتاحة من خلال مواقع الخدمات مثل PubMed. 

اعتبارات وبحوثات عدل

 يتطلب تطبيق أساليب تعدين النصالطبي الحيوي اعتبارات خاصة مشتركة في المجال.                                                                                                                                                                                                                                                                                                                

توافر بيانات نصية توضيحية  عدل

 
يقدم هذا الشكل العديد من الخصائص لأدبيات الطب الحيوي التي أعدها Westergaard وآخرون. تشتمل المجموعة على 15 مليون مقالة كاملة باللغة الإنجليزية. (أ) عدد المنشورات في السنة من 1823 - 2016. (ب) التطور الزمني في توزيع ست فئات موضعية مختلفة من 1823 إلى 2016. (ج) التطور في عدد الصفحات لكل مقال من 1823–2016

. المشروح كبير المجاميع المستخدمة في تطوير وتدريب طرق التعدين النص أغراض العامة (على سبيل المثال، مجموعات الحوار الفيلم، استعراض المنتجات،  أو ويكيبيديا المادة النص) ليست محددة للغة الطبية الحيوية. في حين أنها قد توفر أدلة على خصائص النص العام مثل أجزاء من الكلام، إلا أنها نادرا ما تحتوي على مفاهيم تهم علماء الأحياء أو الأطباء. تطوير أساليب جديدة لتحديد الميزات الخاصة بالوثائق الطبية الحيوية يتطلب تجميع المجاميع المتخصصة.وقد وضعت الموارد مصممة للمساعدة في بناء طرق جديدة التعدين نص الطبية الحيوية من خلال معلوماتية لإدماج الأحياء وسريري التحديات والباحثين المعلوماتية الطبية الحيوية.الجمع بين الباحثين التعدين النص في كثير من الأحيان هذه المجاميع مع المفردات التي تسيطر عليها وتجميعات المتاحة من خلال المكتبة الوطنية للطب ' ق النظام الموحد الطبي اللغة (UMLS) و الموضوعات الطبية عناوين (mesh) . 

غالباً ما تتطلب الأساليب المستندة إلى التعلم الآلي مجموعات كبيرة من البيانات مثل بيانات التدريب لبناء نماذج مفيدة.التعليق اليدوي للجمل النصية الكبيرة غير ممكن واقعيًا. وبالتالي قد تكون بيانات التدريب نتاجًا للإشراف الضعيف والأساليب الإحصائية البحتة.

تباين شكل أو بنية البيانات عدل

 مثل الوثائق النصية الأخرى، تحتوي الوثائق الطبية الحيوية على بيانات غير منظمة . تتبع المنشورات البحثية تنسيقات مختلفة، وتحتوي على أنواع مختلفة من المعلومات، وتتخللها الأرقام والجداول وغير ذلك من المحتويات غير النصية. قد تختلف المستندات السريرية في البنية واللغة بين الأقسام والمواقع. قد تتبع أنواع أخرى من النصوص الطبية الحيوية، مثل ملصقات الأدوية، إرشادات هيكلية عامة ولكنها تفتقر إلى المزيد من التفاصيل. 

قلة اليقين  عدل

يحتوي الأدب الطبي الحيوي على بيانات حول الملاحظات التي قد لا تكون عبارة عن حقائق. قد يعبر هذا النص عن عدم اليقين أو الشك حول المطالبات. وبدون تعديلات محددة، فإن نُهج تعدين النص المصممة لتحديد المطالبات داخل النص قد تسيء تصنيف هذه العبارات «التحوطية» كحقائق.[1]

دعم الاحتياجيات السريرية عدل

 يجب أن تعكس تطبيقات تعدين النصوص الطبية الحيوية المطورة للاستخدام السريري بشكل مثالي احتياجات ومطالب الأطباء.هذا هو مصدر القلق في البيئات حيث من المتوقع أن يكون دعم القرار السريري مفيدا ودقيقا

إمكانية التشغيل المتداخل مع الأنظمة السريرية  عدل

يجب أن تعمل أنظمة التعدين الجديدة للنص مع المعايير الحالية والسجلات الطبية الإلكترونية وقواعد البيانات. طورت طرق التواصل مع الأنظمة السريرية  lonic ولكنها تتطلب جهودًا تنظيمية مكثفة لتنفيذها وصيانتها.[2][3]

خصوصية المريض عدل

 يجب أن تحترم أنظمة التعدين النصية التي تعمل بالبيانات الطبية الخاصة أمنها وتضمن جعلها مجهولة الهوية عند الاقتضاء   .[4][5][6]

العمليات عدل

تعتبر المهام الفرعية المحددة ذات أهمية خاصة عند معالجة النص الطبي الحيوي. [13] التعرف على الكيانات المسماة .

التعرف على الكينات المسماة عدل

 وقد أدرجت التطورات في تعدين النصوص الطبية الحيوية تحديد الكيانات البيولوجية مع الاعتراف الكيان مسمى، أو NER. أسماء ومعرفات للالجزيئات الحيوية مثل البروتينات والجينات، المركبات الكيميائية والعقاقير، ومرض أسماء وقد استخدمت بوصفها كيانات. ويدعم معظم وسائل التعرف على الكيان من المميزات أو مفردات لغوية محددة مسبقا، على الرغم من أساليب دمج التعلم عميقة وكلمة التضمينات نجحت أيضا في NER الطبية الحيوية. [7]

تصنيف المستند وتجميعه   عدل

يمكن تصنيف المستندات الطبية الحيوية أو تجميعها بناءً على محتوياتها وموضوعاتها. في التصنيف، يتم تحديد فئات المستندات يدويًا، أثناء التجميع، تشكل المستندات مجموعات مستقلة تعتمد على الخوارزميات.  هذه المهام هما التمثيلية لل إشراف وغير خاضعة للرقابة الطرق، على التوالي، بعد هدف لكل من هو إنتاج مجموعات فرعية من الوثائق على أساس خصائصها المميزة. اعتمدت أساليب تجميع الوثائق الطبية الحيوية على مجموعات

References عدل

  1. ^ Agarwal S، Yu H (ديسمبر 2010). "Detecting hedge cues and their scope in biomedical text with conditional random fields". Journal of Biomedical Informatics. ج. 43 ع. 6: 953–61. DOI:10.1016/j.jbi.2010.08.003. PMC:2991497. PMID:20709188.
  2. ^ Jannot AS، Zapletal E، Avillach P، Mamzer MF، Burgun A، Degoulet P (يونيو 2017). "The Georges Pompidou University Hospital Clinical Data Warehouse: A 8-years follow-up experience". International Journal of Medical Informatics. ج. 102: 21–28. DOI:10.1016/j.ijmedinf.2017.02.006. PMID:28495345.
  3. ^ Levy، Brian. "Health Care's Semantics Challenge". www.fortherecordmag.com. Great Valley Publishing Company. مؤرشف من الأصل في 2018-10-05. اطلع عليه بتاريخ 2018-10-04. {{استشهاد ويب}}: الوسيط غير المعروف |name-list-format= تم تجاهله يقترح استخدام |name-list-style= (مساعدة)
  4. ^ Goodwin LK، Prather JC (2002). "Protecting patient privacy in clinical data mining". Journal of Healthcare Information Management. ج. 16 ع. 4: 62–7. PMID:12365302.
  5. ^ Tucker K، Branson J، Dilleen M، Hollis S، Loughlin P، Nixon MJ، Williams Z (يوليو 2016). "Protecting patient privacy when sharing patient-level data from clinical trials". BMC Medical Research Methodology. 16 Suppl 1 ع. S1: 77. DOI:10.1186/s12874-016-0169-4. PMC:4943495. PMID:27410040.{{استشهاد بدورية محكمة}}: صيانة الاستشهاد: دوي مجاني غير معلم (link)
  6. ^ Graves S (2013). "Confidentiality, electronic health records, and the clinician". Perspectives in Biology and Medicine. ج. 56 ع. 1: 105–25. DOI:10.1353/pbm.2013.0003. PMID:23748530.
  7. ^ Habibi M، Weber L، Neves M، Wiegandt DL، Leser U (يوليو 2017). "Deep learning with word embeddings improves biomedical named entity recognition". Bioinformatics. ج. 33 ع. 14: i37–i48. DOI:10.1093/bioinformatics/btx228. PMC:5870729. PMID:28881963.