طراحی از نو پروتئین ها پتانسیل بسیار زیادی برای دستیابی به ترکیبات برتر از عملکردهای جدید و خواص مکانیکی دارند و در نتیجه کاربردهای بیولوژیکی و مهندسی را پیش می برند. با این حال، آزمایش تعداد زیادی از توالیهای اسید آمینه احتمالی، علاوه بر هزینههای آزمایشی مرتبط با طراحی پروتئینهای جدید با ویژگیها یا ویژگیهای ساختاری هدفمند، همچنان یک چالش است.
در مطالعه اخیر منتشر شده در مجله شیمیمحققان از مدلهای انتشار مبتنی بر توجه برای تولید مؤثر توالیهای پروتئینی جدید با ساختارهای ثانویه تجویز شده استفاده میکنند.
مطالعه: طراحی تولیدی پروتئینهای نو بر اساس محدودیتهای ساختار ثانویه با استفاده از مدل انتشار مبتنی بر توجه. اعتبار تصویر: PopTika / Shutterstock.com
در مورد مطالعه
در مطالعه حاضر، محققان دو مدل یادگیری عمیق مولد را مورد بحث قرار میدهند که توالیهای اسید آمینه را پیشبینی میکنند و ساختارهای سهبعدی (3D) پروتئینها را بر اساس محدودیتهای طراحی ساختارهای ثانویه از طریق ساختار هر باقیمانده یا محتوای کلی تولید میکنند.
این تیم بر روی خواص مکانیکی پروتئین ها برای تجزیه و تحلیل و نقشه برداری بین توالی های اسید آمینه اولیه و ساختارهای پروتئین ثانویه تمرکز کردند. مدلها توصیفهای شرطیسازی را به عنوان ورودی برای تولید توالی اسید آمینه از طریق انتشار شرطی بر اساس توجه در نظر گرفتند.
از روش های AlphaFold و OmegaFold برای تولید ساختارهای پروتئینی سه بعدی استفاده شد. دو مدل با استفاده از مجموعه داده بانک داده پروتئین (PDB) آموزش داده شدند.
مدل A ورودیهای کسری از ساختارهای ثانویه پروتئینی را دریافت کرد، در حالی که مدل B دادههای هر باقیمانده ساختارهای ثانویه را به عنوان ورودی برای ساخت مدلهای پروتئین سه بعدی و پیشبینی توالی اسید آمینه پروتئینها در نظر گرفت. مدلها قادر به تولید نمونههایی برای محدود کردن بیشتر توالیها با انتخاب بهترین نمونههایی بودند که ورودیهای شرطیسازی را بیشتر برآورده میکردند یا آنهایی که کمترین شباهت را با پروتئینهای شناختهشده نشان دادند.
مدلهای انتشار از شبکههای عصبی کانولوشنال U-Net با ترانسفورماتور به هم پیوسته و لایهبندی کانولوشن، اتصالات پرش و ماژولهای توجه برای شناسایی نویز در هر مرحله برای حذف بعدی استفاده کردند.
را از نو پروتئینها با ارزیابی انتقادی پروتئینهای پیشبینی ساختار (CASP) -14 و 15 با انجام تجزیه و تحلیل ابزار جستجوی همترازی محلی پایه (BLAST) برای ارزیابی تازگی پروتئین مقایسه شدند. مدلهای مولد توالیهای پروتئینی را از سیگنالهای تصادفی تحت شرطیسازی با معکوس کردن فرآیند انتشار به صورت گام به گام ساختند. هشت پارامتر مرتبط با ساختار ثانویه پروتئین ها با استفاده از کدهای تعریف ساختار ثانویه پروتئین ها (DSSP) مورد ارزیابی قرار گرفت.
برای مدل A، پارامترهای بردار تهویه شامل مارپیچ α، ترکیب ورق β موازی و/یا ضد موازی گسترده، سه، چهار یا پنج پیچ با پیوند هیدروژنی، پارامتر بدون ساختار، پل β، 3/3 بود.10 مارپیچ، مارپیچ π، و خم می شود.
برای مدل B، پنج مورد با توزیع ساختار ثانویه متفاوت در نظر گرفته شد. اینها شامل یک ورقه β غالب، یک مارپیچ α بلند با یک شکن در مرکز، یک مارپیچ α کوچک، یک ورقه β که بین دو حوزه آلفا-مارپیچ قرار گرفته، و یک پروتئین مارپیچ تا حدی نامنظم بود.
یافته های مطالعه
مدلهای انتشار به طور موثری پروتئینها را با مشخصات ساختار ثانویه طراحی میکنند از نو توالی اسیدهای آمینه که قبلاً کشف نشده بودند.
مدلهای مولد، حتی برای ورودیهای ناقص و طراحیهای غیرواقعی، نتایج قوی ارائه کردند. در نتیجه، استفاده از این مدلها این پتانسیل را دارد که برای تولید پروتئینهایی با سایر ویژگیهای مرتبط بالینی و عملکردی گسترش یابد.
مدل مبتنی بر ساختار ثانویه به ازای باقیمانده دقیقتر بود و توالیهای اسید آمینه متنوعتری را بهویژه برای ساختارهای α-مارپیچ به همراه داشت.
هر دو مدل اهداف طراحی متنوع را به خوبی انجام دادند و رویکردهای جدیدی برای کشف مواد و سیستم های پروتئینی برتر ارائه کردند. تجزیه و تحلیل مدل A چندین مورد علامتی را شناسایی کرد، مانند مواردی که دارای محتوای ورقه β بالا، مخلوطی از محتوای ورقه α-مارپیچ و β، محتوای آلفا-مارپیچ خالص، مارپیچ های α به طور قابل توجهی آشفته و پروتئین های کاملاً بی نظم بودند.
تجزیه و تحلیل AlphaFold و OmegaFold از مجموعه رشته β پیشبینیشده در ساختارهای رشتهای مرتبه بالاتر نتایج قابل مقایسه ای را به همراه داشت. تجزیه و تحلیل BLAST ساختارهایی شبیه به توالیهای اسید آمینه موجود را پیشبینی کرد که میتوان با افزایش احتمال شرطیسازی یا افزودن نویز به بردارهای شرطیسازی در طول تمرین، افزایش یافت.
نتایج مدل B تطابق خوبی با اهداف طراحی نشان داد، بنابراین تأیید میکند که مدل تولید پروتئین میتواند طراحی شود از نو پروتئین ها با مشخصات هندسی و مکان یابی ساختار ثانویه. توسعه مدلهایی که مختصات اتمی دقیق را ارائه میدهند، میتواند طراحی پروتئین را بهبود بخشد.
برای مدل B، تجزیه و تحلیل BLAST شباهت 50٪ تا 60٪ بین پروتئین های موجود و پروتئین های تولید شده را نشان داد. مدل B پروتئین ها را موثرتر از مدل A تولید کرد.
نتیجه گیری
مطالعه حاضر دو مدل یادگیری عمیق را گزارش میکند که میتوانند توالی اسیدهای آمینه و ساختارهای پروتئینی سه بعدی را بر اساس اهداف طراحی ساختار ثانویه پیشبینی کنند. این مدلهای جدید قوی، قابل اعتماد هستند و میتوانند توالیهای پروتئینی جدیدی تولید کنند که هنوز از مکانیسمها یا سیستمهای طبیعی کشف نشدهاند.
مدلها توالیهای پروتئینی با ساختارهای ثانویه مورد نظر تولید کردند. این داده ها را می توان برای به دست آوردن یک توالی پروتئین با استفاده از مدل A ادغام کرد، در حالی که مدل B می تواند برای اصلاح توالی با مشخص کردن جزئیات سطح باقیمانده ساختارهای ثانویه استفاده شود.
مدلها نه تنها به دنبال احترام گذاشتن به ورودیهای مشروط هستند، بلکه به محدودیتهای اساسی ساختارهای ثانویه ممکن فیزیکی که در طول آموزش آموخته شدهاند نیز تسلیم میشوند. این رویکرد دارای پتانسیل تسریع در طراحی پروتئین های جدید برای استفاده در پزشکی، صنعت و سایر کاربردهای مهندسی زیستی است.
تحقیقات بیشتر باید شامل شرطی سازی اضافی، بررسی خواص عملکردی پروتئین های تولید شده برای خواص مختلف فراتر از اهداف ساختاری، مانند فعالیت بیولوژیکی، و بهبود تنوع توالی نسبت به پروتئین های موجود باشد.
مرجع مجله:
- Ni، B.، Kaplan، DL، و Buehler، MJ (2023). طراحی تولیدی پروتئینهای نو بر اساس محدودیتهای ساختار ثانویه با استفاده از مدل انتشار مبتنی بر توجه. شیمی. doi:10.1016/j.chempr.2023.03.02