با همکاری مشترک انجمن علوم و فناوری‌های شیمیایی ایران

نوع مقاله : مقاله پژوهشی کامل

نویسنده

بخش شیمی، دانشگاه پیام نور، تهران، ایران

چکیده

انتخاب ویژگی‌ها در مطالعات رابطه کمّی ساختار-فعالیت (QSAR) بسیار مهم است، زیرا عملکرد الگوریتم‌های یادگیری را بهبود می‌بخشد و هزینه‌های محاسباتی را کاهش می‌دهد. این مطالعه تأثیر هشت روش انتخاب متغیر را بر طبقه‌بندی لیگاندهای ایزوفورم-انتخابی برای اهداف Bcl-2 و Bcl-xL با استفاده از سه تکنیک یادگیری ماشین: شبکه کوهونن نظارت‌شده (SKN)، ماشین بردار پشتیبان (SVM) و تحلیل تفکیکی حداقل مربعات جزئی (PLS-DA) ارزیابی می‌کند. مدل‌های طبقه‌بندی با استفاده از پارامترهای ماتریس سردرگمی، اعتبارسنجی متقاطع ۱۰-تایی و مجموعه‌های آزمون ارزیابی شدند.
نتایج نشان می‌دهد که PLS-DA و SVM قابلیت‌های طبقه‌بندی مشابهی دارند و از SKN بهتر عمل می‌کنند. با این حال، PLS-DA گاهی برخی لیگاندها را بدون تخصیص باقی می‌گذارد، که SVM را به یک انتخاب قوی‌تر و کارآمدتر تبدیل می‌کند. با وجود استفاده از روش‌های مختلف انتخاب متغیر، هیچ مزیت واضحی برای هیچ روش خاصی یافت نشد و همه حدود ۷۰٪ دقت طبقه‌بندی را در سری‌های اعتبارسنجی و آزمون به دست آوردند. این نشان می‌دهد که انتخاب روش انتخاب متغیر به طور مداوم بر نتایج در تمام تکنیک‌ها تأثیر نمی‌گذارد.
اطمینان از قابلیت اطمینان متغیرهای انتخاب‌شده شامل ارزیابی دقیق کیفیت داده‌ها، مرور ادبیات و اعتبارسنجی متقاطع قوی است. حذف ویژگی‌های زائد برای مدل‌های طبقه‌بندی دقیق ضروری است، زیرا بسیاری از خواص فیزیکوشیمیایی ممکن است به فعالیت زیستی هدف مرتبط نباشند. در حالی که هیچ روش واحدی مدل‌های برتر را تضمین نمی‌کند، انتخاب متغیرهای مهم برای استخراج ویژگی‌های مرتبط حیاتی است. این مطالعه اهمیت انتخاب دقیق متغیرها در مطالعات QSAR را برجسته می‌کند و نقش آن را در کاهش ابعاد و بهبود تفسیر مدل‌ها تأکید می‌کند. در نهایت، این کارایی کشف دارو را با شناسایی ترکیبات ایمن‌تر و مؤثرتر افزایش می‌دهد و زمان و هزینه را کاهش می‌دهد.

کلیدواژه‌ها

 
[1]M. Eklund, U. Norinder, S. Boyer, and L. Carlsson, Choosing feature selection and learning algorithms in QSAR, J. Chem. Inf. Model 54 (2014) 837-843.
 [2]M. Eklund, U. Norinder, S. Boyer, and L. Carlsson, Benchmarking Variable Selection in QSAR, Mol. Inform31 (2012) 173–179.
[3]N. Georges, I. Mhiri, and I. Rekik, Alzheimer’s disease Neuroimaging Initiative Identifying the best datadriven feature selection method for boosting reproducibility in classification tasks, Pattern Recognition 101 (2020) 1- 14.
[4]M. K. Gilson, T. Liu, M. Baitaluk, G. Nicola, L. Hwang, and J. Chong, BindingDB in 2015: A public database for medicinal chemistry, computational chemistry and systems pharmacology, Nucleic Acids Res. 44(D1) (2016) D1045–D1053.
[5]S. Goswami, and A. Chakraborty, An efficient feature selection technique for clustering based on a new measure of feature importance, J. Intell. Fuzzy Syst. 32(6) (2017) 3847–3858.
[6]A. Mani-Varnosfaderani, M. S. Neiband, and A. Benvidi, Identification of molecular features necessary for selective inhibition of B cell lymphoma proteins using machine learning techniques, Mol. Divers. 23 (2019) 55–73.
[7]A. Mauri, V. Consonni, M. Pavan, and R. Todeschini, Dragon software: An easy approach to molecular descriptor calculations, Match, 56(2) (2006) 237-248.
[8]M. W. Mwadulo, A Review on Feature Selection Methods For Classification Tasks,  Int. J. Comput. Appl. Technol. 5 (2016) 395-402.
[9]N. M. O'Boyle, M. Banck, C. A. James, C. Morley, T. Vandermeersch, and G. R. Hutchison, Open Babel: An open chemical toolbox, J. Chem. inf. 3 (2011) 33.
[10]H. Kaneko, Examining variable selection methods for the predictive performance of regression models and the proportion of selected variables and selected random variables, Heliyon 7 (2021).
[11]R. Davronov, and S. Kushmuratov, Comparative analysis of QSAR feature selection methods, In AIP Conference Proceedings 3004 (2024).
[12]P. De, S. Kar, P. Ambure, and K. Roy, Prediction reliability of QSAR models: an overview of various validation tools, Arch. Toxicol. 96 (2022) 1279-1295.
[13]S. Kausar, and A. O. Falcao, An automated framework for QSAR model building,  J. Chem. Inf. Comput. Sci. 10 (2018) 1.
[14]I. Ponzoni, V. Sebastián-Pérez, C. Requena-Triguero,  C. Roca, M. J. Martínez, F. Cravero, M. F. Díaz, J. A. Páez, R. G. Arrayás, J. Adrio, and  N. E.  Campillo, Hybridizing Feature Selection and Feature Learning Approaches in QSAR Modeling for Drug Discovery, Sci. Rep. 7 (2017) 2403.
[15]J. Tang, S. Alelyani, and H. Liu, Feature selection for classification: A review, Data Classification: Algorithms and Applications book (2014) 37-64.
[16]L. Yu, and H. Liu, Efficient feature selection via analysis of relevance and redundancy,  J. Mach. Learn. Res5 (2004) 1205-1224.