یک ابزار پرکاربرد که مراجع دقیق مورد نیاز برای مشخص کردن تفاوت‌ها در DNA ما را پیدا می‌کند، به تازگی تازه شده است.

در 17 جولای، کمیته راهبری استانداردهای اتحاد جهانی برای ژنومیک و سلامت (GA4GH) به انتشار نسخه refget نسخه 2.0 رأی داد. با سازگاری بهتر برای طیف وسیعی از نام‌ها، قالب‌ها و سیستم‌های ژنوم مرجع، نسخه جدید refget بازیابی توالی‌های مرجع ژنومی تایید شده را آسان‌تر از همیشه می‌کند.

یک زیرساخت حیاتی

شما حتی ممکن است متوجه نباشید که قبلاً از refget استفاده می کنید.

تیموت سزارد، یکی از رهبران تیمی که نسخه جدید refget و سرپرست پروژه در موسسه بیوانفورماتیک اروپایی EMBL (EMBL-EBI) را تولید کرده است، گفت: “تقریباً هر کسی که از یک فایل CRAM استفاده می کند از refget استفاده می کند.” فشرده سازی، فشرده سازی، همه ابزارهای CRAM – مثلاً برای تبدیل به فرمت های دیگر یا تجزیه و تحلیل مستقیم -؛ در بالای refget بنشینید.

CRAM یک فرمت فایل محبوب و کارآمد برای ذخیره سازی توالی های DNA است که می تواند هزینه های ذخیره سازی را تا 50 درصد کاهش دهد. با تکیه بر یک توالی مرجع به آن فشرده سازی خیره کننده دست می یابد -; مقداری از DNA معمولی در نظر گرفته می شود.

ژن های خود را با مرجع مقایسه کنید، و شروع به مشاهده تنوع خواهید کرد: تفاوت های ژنتیکی که می تواند منجر به همه چیز از کک و مک گرفته تا خطر بالای سرطان سینه شود.

به جای ذخیره هر سه میلیارد جفت باز از توالی مرجع در کنار DNA مورد مطالعه، فایل های CRAM به سادگی روی نام توالی مرجع قرار می گیرند.

وقتی زمان فشرده‌سازی داده‌ها فرا می‌رسد، مراحل را مجدداً تنظیم کنید -؛ به شما کمک می کند “مرجع” مورد نیاز خود را “دریافت” کنید.

حل معضل فرهنگ لغت

CRAM تنها نمونه‌ای از این است که چگونه refget عدم قطعیت خطرناک را از داده‌های ژنومی حذف می‌کند.

اندرو یتس، توسعه‌دهنده refget و یکی از رهبران تیم در EMBL-EBI می‌گوید: refget هر دنباله مرجع را با استفاده از ویژگی‌های منحصربه‌فرد ذاتی خود شناسایی می‌کند، بنابراین همیشه می‌توانید اعتماد کنید که یک دنباله حاوی آنچه روی برچسب نوشته شده است.

او گفت: “عواقب مقایسه داده‌های ژنومی با توالی‌های مرجع نادرست یا نادرست جدی است. انواع ژنتیکی ممکن است به‌طور نادرست به عنوان بیماری‌زا یا بی‌ضرر طبقه‌بندی شوند و بیماران مراقبت‌های نامناسب دریافت کنند. دقیق بودن مهم است.”

با اختصاص یک شناسه منحصر به فرد به دنباله های مرجع، refget یک مشکل نامگذاری پیچیده در ژنومیک را حل می کند.

مقامات مرکزی مانند همکاری بین‌المللی پایگاه داده توالی نوکلئوتیدی (INSDC)، Ensembl، و مرورگر ژنوم دانشگاه کالیفرنیا، سانتا کروز (UCSC) از قراردادهای نام‌گذاری متفاوتی برای یک توالی مرجع استفاده می‌کنند.

به این فکر کنید که چگونه فرهنگ لغت انگلیسی آکسفورد و مریام وبستر گاهی اوقات یک کلمه انگلیسی را متفاوت می نویسند و تعریف می کنند. سپس سعی کنید یک انگلیسی زبان انگلیسی را متقاعد کنید که به جای استفاده از رنگ از “رنگ” استفاده کند، و چالش استانداردسازی نامگذاری را خواهید دید.

نام های غیر منحصر به فرد در هنگام تجزیه و تحلیل داده ها عدم اطمینان بیشتری ایجاد می کنند. به عنوان مثال، یکی دیگر از نام‌گذاری‌های رایج بر اساس تعداد کروموزوم شمارش می‌شود، که با کروموزوم 1 به عنوان بزرگ‌ترین شروع می‌شود. اما ژنوم مرجع بسیاری از موجودات دارای کروموزوم به نام “1” است. مثلاً چگونه می دانید که کروموزوم انسانی دریافت می کنید و نه موش؟ کدام «1» برای استفاده مناسب است؟

refget هرگونه سردرگمی را برطرف می کند.

سزارد گفت: “refget بسیار ساده است. شما یک نام دارید، یک دنباله را می گیرید. شما یک دنباله دارید، شما نام را می سازید.” “نیازی نیست به هیچ مرجع نامگذاری تکیه کنید.”

چرا برای هر تجزیه و تحلیل ژنومی به refget نیاز دارید؟

برای انتشار اولیه refget در سال 2018، GA4GH Large Scale Genomics Work Stream API را برای پشتیبانی از CRAM طراحی کرد.

اما Yates و تیم به سرعت متوجه شدند که refget می تواند مشکلات موجود در سایر قالب ها و مدل های داده ژنومی را برطرف کند. VCF و SAM همچنین از شناسه‌های refget پشتیبانی می‌کنند و علاقه جامعه به استفاده از آنها افزایش می‌یابد.

Yates می گوید: «رجت یک بلوک اساسی برای استانداردهای GA4GH است. “این می تواند مشکلاتی فراتر از CRAM، برای هر فرمت فایل یا مدل داده ای که به دنباله مرجع نیاز دارد، حل کند. با refget، دقیقاً می دانید در مورد چه دنباله ای صحبت می کنید.”

به عنوان مثال، refget در حال حاضر در حال حل مشکلات برای GA4GH Variation Representation Specification (VRS) است، که چارچوبی برای توصیف انواع ژنتیکی فراهم می کند که رایانه ها می توانند به راحتی آن ها را مقایسه و تجزیه و تحلیل کنند.

Yates و Cezard از نزدیک با تیم VRS برای توسعه refget v2.0 که از شناسه‌های دنباله VRS پشتیبانی می‌کند، همکاری کردند. اکنون بیمارستان‌ها، آزمایشگاه‌ها و پایگاه‌های اطلاعاتی مانند ClinGen با بودجه NIH که از VRS برای نمایش و اشتراک‌گذاری انواع ژنتیکی استفاده می‌کنند، از طریق refget به دنباله‌های مرجع پیوند می‌دهند.

لری باب، یکی از رهبران VRS می‌گوید: “تا حد زیادی به دلیل refget، GA4GH VRS به اشتراک گذاری و مقایسه داده‌های مختلف در بین مؤسسات را بسیار قابل اعتمادتر می‌کند. refget به ما امکان می‌دهد توالی مرجع دقیق را مشخص کنیم، که سپس به ما کمک می‌کند تا تغییرات را به‌طور واضح نشان دهیم.” تیم، مهندس نرم افزار اصلی در موسسه Broad MIT و هاروارد، و قهرمان پروژه درایور GA4GH برای ClinGen.

الکس واگنر گفت: “با استفاده از شناسه‌های refget در VRS، می‌توانیم با چالش‌های مهم قابلیت همکاری که هنگام مقایسه شواهد از توالی‌های مرجع جدید به وجود می‌آیند، مقابله کنیم. این استراتژی قبلاً در دنیای واقعی در پروژه‌ای با Atlas of Variant Effects Alliance کار کرده است.” دیگر رهبر تیم VRS، که محقق اصلی در بیمارستان کودکان سراسری و قهرمان پروژه راننده GA4GH برای کنسرسیوم تفسیری برای سرطان است.

یکی دیگر از منابع اصلی برای جامعه ژنومیک، آرشیو نوکلئوتید اروپا (ENA)، قبلاً refget v2.0 را پیاده سازی کرده است.

ENA شامل تمام DNA و RNA توالی شده در حوزه عمومی است – نزدیک به سه میلیارد سکانس برای فشرده‌سازی فایل‌ها از پایگاه داده، محققان از رجیستری مرجع CRAM استفاده می‌کنند که روی refget اجرا می‌شود.

نسخه جدید refget نیز در مرورگر ژنوم Ensembl عرضه خواهد شد. این مجموعه از بیش از 50000 ژنوم (نماینده تنوع زیادی در درون و بین گونه‌ها، از انسان گرفته تا ذرت تا گورخرماهی) ابزارهایی برای تجزیه و تحلیل و مقایسه ارائه می‌دهد.

یتس گفت: “refget زیرساخت‌های Ensembl جدید ما را نیرو می‌دهد. این نقاط پایانی refget در آینده نزدیک در دسترس قرار خواهند گرفت و دسترسی به پروتئین‌ها و دنباله‌های رونوشت میزبان Ensembl را فراهم می‌کنند.”

ویژگی های جدید در نسخه 2.0

آخرین نسخه refget قابلیت های API را گسترش می دهد و آن را در دسترس تر و سازگارتر با سیستم های دیگر می کند.

کار با تیم VRS منجر به ایجاد یک الگوریتم ترجیحی جدید برای تعریف شناسه ها شد. سایر ویژگی‌های جدید که در مشخصات ذکر شده شامل بهترین روش‌های توصیه شده (مانند رشته‌های مرجع نامگذاری حروف کوچک)، و گزینه‌هایی هنگام جستجوی یک شناسه خاص (با یا بدون فضای نام) است.

یک تغییر کلیدی -؛ با هدف گسترش گروه هایی که می توانند از refget بهره مند شوند – به شما امکان می دهد نه تنها با شناسه refget منحصر به فرد، بلکه با قرارداد نامگذاری دیگری جستجو کنید. در فرهنگ لغت، می‌توانید «رنگ» یا «رنگ» را جستجو کنید و همچنان تعریف درست را بازیابی کنید.

Cezard گفت: “سرورهای refget اکنون می توانند با استفاده از یک قرارداد نامگذاری متفاوت، همان دنباله را بازیابی کنند. نسخه جدید با سیستم های دیگر که به مقامات نامگذاری متکی هستند، قابل همکاری است، بنابراین حتی اگر به خود توالی مرجع دسترسی ندارید، می توانید جستجو کنید.” .

او افزود: “شما می توانید نامی را وارد کنید که یک شناسه refget نیست و همچنان همان دنباله تایید شده و قابل اعتماد را دریافت کنید – که سپس می توانید دوباره آن را در یک شناسه refget محاسبه کنید.”

نسخه جدید شامل راه حل های فنی برای مدیریت نام های غیر منحصر به فرد است.

این به‌روزرسانی‌های اصلی نسخه 2.0 مستلزم کار بزرگی برای پیاده‌کننده‌ها نیست: همه مشتریان refget موجود می‌توانند به استفاده از API ادامه دهند. تنها تغییر شکسته حداقل یک تغییر است و سرورهای refget را با GA4GH Service Info API سازگار می کند، که به یافتن سرویس های وب برای تجزیه و تحلیل داده های ژنومی کمک می کند.

برای کل ژنوم refget کنید

با تکیه بر همان اصول refget، تیم در حال حاضر در حال توسعه مشخصات جدیدی است که هویت مجموعه‌ای از دنباله‌ها را تأیید می‌کند.

سزارد گفت: “refget یک نام را برای یک توالی منفرد، مانند یک کروموزوم، تعریف می کند. Sequence Collections نامی را برای گروهی از توالی ها تعریف می کند، که ما اغلب از آنها برای مجموعه ها یا یک ژنوم کامل استفاده می کنیم.”

مجموعه‌های Sequence ویژگی‌های جدید بسیاری را فراتر از تعریف نام‌ها، از جمله جستجو در داخل و مقایسه مجموعه‌ها، ارائه می‌کنند.

در این میان، سزارد، یتس و همکاران قصد دارند پشتیبانی از refget را در طیف وسیعی از فرمت‌های فایل ژنومی، از BED تا SAM تا VCF تقویت کنند و نشان دهند که refget چقدر می‌تواند مفید باشد.

یتس می‌گوید: «رجت در حال حاضر از یک گام مهم در تجزیه و تحلیل ژنومی برای محققان در سراسر جهان محافظت می‌کند. این نسخه دوم، مفهوم شناسه‌های منحصربه‌فرد واقعاً حیاتی است، چه شما یک توالی مرجع واحد، یک ژنوم کامل یا حتی یک پانژنوم را شناسایی کنید.»

منبع:

اتحاد جهانی برای ژنومیک و سلامت

منبع : news medical

دیدگاهتان را بنویسید

Home
Account
shop
0
back
سبد خرید0
There are no products in the cart!
دریافت پیش فاکتور