الذكاء الاصطناعي و التنبؤ بخصائص الجزيئات
من بين تطبيقات الذكاء الاصطناعي المختلفة، يمكن أن يكون للتنبؤ بالخصائص الجزيئية تأثير فوري أكثر أهمية على عملية اكتشاف الدواء نظرًا لأن معظم الخوارزميات والأساليب تستخدم الخصائص المتوقعة لتقييم الجزيئات واختيارها وتوليدها.
الذكاء الاصطناعي و التنبؤ بخصائص الجزيئات
أصبح الذكاء الاصطناعي (AI) أداة قوية في العديد من المجالات، بما في ذلك اكتشاف الأدوية .
من بين تطبيقات الذكاء الاصطناعي المختلفة، يمكن أن يكون للتنبؤ بالخصائص الجزيئية تأثير فوري أكثر أهمية على عملية اكتشاف الدواء نظرًا لأن معظم الخوارزميات والأساليب تستخدم الخصائص المتوقعة لتقييم الجزيئات واختيارها وتوليدها.
عند النظر في العالم من حولنا على مستوى دقيق، نجد أن كل ما نراه ونلمسه يتكون من مواد مختلفة تتألف من جزيئات.
تتميز هذه الجزيئات بخصائص فريدة تحدد سلوك وخصائص المواد والمركبات التي تشكلها.
إن فهم خصائص الجزيئات على مستوى مجهري يسهم في تفسير سلوك المواد على مستوى ماكروسكوبي، وهذا يلعب دورًا حاسمًا في مجالات مثل الكيمياء والفيزياء والهندسة الجزيئية وعلوم المواد.
تعلم لغة الجزيئات للتنبؤ بخصائصها
عادةً ما يتضمن اكتشاف المواد والأدوية الجديدة عملية يدوية تعتمد على التجربة والخطأ، وقد تستغرق عقودًا وتكلف ملايين الدولارات. ولتبسيط هذه العملية، غالبًا ما يستخدم العلماء التعلم الآلي للتنبؤ بالخصائص الجزيئية وتضييق نطاق الجزيئات التي يحتاجون إليها لتصنيعها واختبارها في المختبر.
طور باحثون من معهد ماساتشوستس للتكنولوجيا (MIT) ومختبر Watson AI Lab التابع لمعهد ماساتشوستس للتكنولوجيا (MIT-IBM Watson AI Lab) إطارًا جديدًا وموحدًا يمكنه التنبؤ بالخصائص الجزيئية في نفس الوقت وتوليد جزيئات جديدة بكفاءة أكبر بكثير من أساليب التعلم العميق الشائعة هذه.
تفوقت هذه الطريقة على أساليب التعلم الآلي الأخرى في مجموعات البيانات الصغيرة والكبيرة، وكانت قادرة على التنبؤ بدقة بالخصائص الجزيئية وتوليد جزيئات قابلة للحياة عند إعطائها مجموعة بيانات تحتوي على أقل من 100 عينة.
لتدريس نموذج التعلم الآلي للتنبؤ بالخصائص البيولوجية أو الميكانيكية للجزيء، يجب على الباحثين أن يعرضوا له الملايين من الهياكل الجزيئية الموسومة، وهي عملية تُعرف باسم التدريب. نظرًا لتكلفة اكتشاف الجزيئات والتحديات المتمثلة في وضع العلامات اليدوية على ملايين الهياكل، غالبًا ما يكون من الصعب الحصول على مجموعات بيانات تدريب كبيرة، مما يحد من فعالية أساليب التعلم الآلي.
على النقيض من ذلك، يمكن للنظام الذي أنشأه باحثو معهد ماساتشوستس للتكنولوجيا التنبؤ بشكل فعال بالخصائص الجزيئية باستخدام كمية صغيرة فقط من البيانات. يتمتع نظامهم بفهم أساسي للقواعد التي تملي كيفية دمج وحدات البناء لإنتاج جزيئات صالحة. تلتقط هذه القواعد أوجه التشابه بين الهياكل الجزيئية، مما يساعد النظام على إنشاء جزيئات جديدة والتنبؤ بخصائصها بطريقة فعالة من حيث البيانات.
لتحقيق أفضل النتائج باستخدام نماذج التعلم الآلي، يحتاج العلماء إلى مجموعات بيانات تدريبية تحتوي على ملايين الجزيئات التي لها خصائص مشابهة لتلك التي يأملون في اكتشافها. في الواقع، عادة ما تكون مجموعات البيانات الخاصة بالمجال صغيرة جدًا. لذلك، يستخدم الباحثون نماذج تم تدريبها مسبقًا على مجموعات بيانات كبيرة من الجزيئات العامة، والتي يطبقونها على مجموعة بيانات مستهدفة أصغر بكثير. ومع ذلك، نظرًا لأن هذه النماذج لم تكتسب قدرًا كبيرًا من المعرفة الخاصة بالمجال، فإنها تميل إلى الأداء الضعيف.
القواعد الجزيئية
اتخذ فريق معهد ماساتشوستس للتكنولوجيا نهجا مختلفا. لقد أنشأوا نظامًا للتعلم الآلي يتعلم تلقائيًا “لغة” الجزيئات – ما يُعرف بالقواعد الجزيئية – باستخدام مجموعة بيانات صغيرة خاصة بمجال معين فقط. ويستخدم هذه القواعد لبناء جزيئات قابلة للحياة والتنبؤ بخصائصها.
في نظرية اللغة، يقوم المرء بإنشاء كلمات أو جمل أو فقرات بناءً على مجموعة من القواعد النحوية. يمكنك التفكير في القواعد الجزيئية بنفس الطريقة. إنها مجموعة من قواعد الإنتاج التي تملي كيفية توليد الجزيئات أو البوليمرات من خلال الجمع بين الذرات والبنى التحتية.
تمامًا مثل قواعد اللغة، التي يمكنها توليد عدد كبير من الجمل باستخدام نفس القواعد، يمكن لقواعد جزيئية واحدة أن تمثل عددًا كبيرًا من الجزيئات. تستخدم الجزيئات ذات الهياكل المتشابهة نفس قواعد الإنتاج النحوية، ويتعلم النظام فهم أوجه التشابه هذه.
نظرًا لأن الجزيئات المتشابهة هيكليًا غالبًا ما يكون لها خصائص متشابهة، يستخدم النظام معرفته الأساسية بالتشابه الجزيئي للتنبؤ بخصائص الجزيئات الجديدة بكفاءة أكبر.
يتعلم النظام قواعد إنتاج القواعد الجزيئية باستخدام التعلم المعزز – وهي عملية التجربة والخطأ حيث تتم مكافأة النموذج على السلوك الذي يجعله أقرب إلى تحقيق الهدف.
ولكن نظرًا لاحتمال وجود مليارات الطرق للجمع بين الذرات والبنى التحتية، فإن عملية تعلم قواعد إنتاج القواعد ستكون مكلفة للغاية من الناحية الحسابية لأي شيء باستثناء أصغر مجموعة بيانات.
قام الباحثون بفصل القواعد الجزيئية إلى قسمين. الجزء الأول، المسمى metagrammar، عبارة عن قواعد نحوية عامة وقابلة للتطبيق على نطاق واسع يتم تصميمها يدويًا وإعطاؤها للنظام في البداية.
بعد ذلك، يحتاج فقط إلى تعلم قواعد أصغر بكثير خاصة بالجزيء من مجموعة بيانات المجال. يعمل هذا النهج الهرمي على تسريع عملية التعلم.
نتائج كبيرة ومجموعات بيانات صغيرة
في التجارب، أنتج النظام الجديد للباحثين في الوقت نفسه جزيئات و بوليمرات قابلة للحياة، وتنبأ بخصائصها بشكل أكثر دقة من العديد من أساليب التعلم الآلي الشائعة، حتى عندما كانت مجموعات البيانات الخاصة بالمجال تحتوي على بضع مئات من العينات فقط. تتطلب بعض الطرق الأخرى أيضًا خطوة تدريب مسبقة مكلفة يتجنبها النظام الجديد.
وكانت هذه التقنية فعالة بشكل خاص في التنبؤ بالخصائص الفيزيائية للبوليمرات، مثل درجة حرارة التزجج، وهي درجة الحرارة المطلوبة لانتقال المادة من الحالة الصلبة إلى السائلة.
غالبًا ما يكون الحصول على هذه المعلومات يدويًا مكلفًا للغاية لأن التجارب تتطلب درجات حرارة وضغوطًا عالية للغاية.
ولدفع نهجهم إلى أبعد من ذلك، قام الباحثون بتخفيض مجموعة تدريب واحدة بأكثر من النصف، إلى 94 عينة فقط. لا يزال نموذجهم يحقق نتائج تتساوى مع الأساليب التي تم تدريبها باستخدام مجموعة البيانات بأكملها.
“هذا التمثيل القائم على القواعد قوي جدًا. ولأن القواعد نفسها عبارة عن تمثيل عام جدًا، فيمكن نشرها على أنواع مختلفة من بيانات النموذج البياني.
وفي المستقبل، يريدون أيضًا توسيع قواعدهم الجزيئية الحالية لتشمل الهندسة ثلاثية الأبعاد للجزيئات و البوليمرات، وهو أمر أساسي لفهم التفاعلات بين سلاسل البوليمر. كما يقومون أيضًا بتطوير واجهة تُظهر للمستخدم قواعد إنتاج القواعد النحوية التي تعلمها ويطلب التعليقات لتصحيح القواعد التي قد تكون خاطئة، مما يعزز دقة النظام.
المراجع :
1- موقعhttps://news.mit.edu/2023/learning-language-molecules-predict-properties-0707 أطلعت عليه بتاريخ 6/4/2024.
2- موقع https://www.sciencedirect.com/science/article/abs/pii/S1740674920300032 أطلعت عليه بتاريخ 6/4/2024.
BaddieHub I do not even understand how I ended up here, but I assumed this publish used to be great