با همکاری مشترک انجمن علوم و فناوری‌های شیمیایی ایران

نوع مقاله : مقاله پژوهشی کامل

نویسنده

بخش شیمی، دانشگاه پیام نور، تهران، ایران

چکیده

انتخاب ویژگی‌ها در مطالعات رابطه کمّی ساختار-فعالیت (QSAR) بسیار مهم است، زیرا عملکرد الگوریتم‌های یادگیری را بهبود می‌بخشد و هزینه‌های محاسباتی را کاهش می‌دهد. این مطالعه تأثیر هشت روش انتخاب متغیر را بر طبقه‌بندی لیگاندهای ایزوفورم-انتخابی برای اهداف Bcl-2 و Bcl-xL با استفاده از سه تکنیک یادگیری ماشین: شبکه کوهونن نظارت‌شده (SKN)، ماشین بردار پشتیبان (SVM) و تحلیل تفکیکی حداقل مربعات جزئی (PLS-DA) ارزیابی می‌کند. مدل‌های طبقه‌بندی با استفاده از پارامترهای ماتریس سردرگمی، اعتبارسنجی متقاطع ۱۰-تایی و مجموعه‌های آزمون ارزیابی شدند.
نتایج نشان می‌دهد که PLS-DA و SVM قابلیت‌های طبقه‌بندی مشابهی دارند و از SKN بهتر عمل می‌کنند. با این حال، PLS-DA گاهی برخی لیگاندها را بدون تخصیص باقی می‌گذارد، که SVM را به یک انتخاب قوی‌تر و کارآمدتر تبدیل می‌کند. با وجود استفاده از روش‌های مختلف انتخاب متغیر، هیچ مزیت واضحی برای هیچ روش خاصی یافت نشد و همه حدود ۷۰٪ دقت طبقه‌بندی را در سری‌های اعتبارسنجی و آزمون به دست آوردند. این نشان می‌دهد که انتخاب روش انتخاب متغیر به طور مداوم بر نتایج در تمام تکنیک‌ها تأثیر نمی‌گذارد.
اطمینان از قابلیت اطمینان متغیرهای انتخاب‌شده شامل ارزیابی دقیق کیفیت داده‌ها، مرور ادبیات و اعتبارسنجی متقاطع قوی است. حذف ویژگی‌های زائد برای مدل‌های طبقه‌بندی دقیق ضروری است، زیرا بسیاری از خواص فیزیکوشیمیایی ممکن است به فعالیت زیستی هدف مرتبط نباشند. در حالی که هیچ روش واحدی مدل‌های برتر را تضمین نمی‌کند، انتخاب متغیرهای مهم برای استخراج ویژگی‌های مرتبط حیاتی است. این مطالعه اهمیت انتخاب دقیق متغیرها در مطالعات QSAR را برجسته می‌کند و نقش آن را در کاهش ابعاد و بهبود تفسیر مدل‌ها تأکید می‌کند. در نهایت، این کارایی کشف دارو را با شناسایی ترکیبات ایمن‌تر و مؤثرتر افزایش می‌دهد و زمان و هزینه را کاهش می‌دهد.

کلیدواژه‌ها