یک ابزار پرکاربرد که مراجع دقیق مورد نیاز برای مشخص کردن تفاوتها در DNA ما را پیدا میکند، به تازگی تازه شده است.
در 17 جولای، کمیته راهبری استانداردهای اتحاد جهانی برای ژنومیک و سلامت (GA4GH) به انتشار نسخه refget نسخه 2.0 رأی داد. با سازگاری بهتر برای طیف وسیعی از نامها، قالبها و سیستمهای ژنوم مرجع، نسخه جدید refget بازیابی توالیهای مرجع ژنومی تایید شده را آسانتر از همیشه میکند.
یک زیرساخت حیاتی
شما حتی ممکن است متوجه نباشید که قبلاً از refget استفاده می کنید.
تیموت سزارد، یکی از رهبران تیمی که نسخه جدید refget و سرپرست پروژه در موسسه بیوانفورماتیک اروپایی EMBL (EMBL-EBI) را تولید کرده است، گفت: “تقریباً هر کسی که از یک فایل CRAM استفاده می کند از refget استفاده می کند.” فشرده سازی، فشرده سازی، همه ابزارهای CRAM – مثلاً برای تبدیل به فرمت های دیگر یا تجزیه و تحلیل مستقیم -؛ در بالای refget بنشینید.
CRAM یک فرمت فایل محبوب و کارآمد برای ذخیره سازی توالی های DNA است که می تواند هزینه های ذخیره سازی را تا 50 درصد کاهش دهد. با تکیه بر یک توالی مرجع به آن فشرده سازی خیره کننده دست می یابد -; مقداری از DNA معمولی در نظر گرفته می شود.
ژن های خود را با مرجع مقایسه کنید، و شروع به مشاهده تنوع خواهید کرد: تفاوت های ژنتیکی که می تواند منجر به همه چیز از کک و مک گرفته تا خطر بالای سرطان سینه شود.
به جای ذخیره هر سه میلیارد جفت باز از توالی مرجع در کنار DNA مورد مطالعه، فایل های CRAM به سادگی روی نام توالی مرجع قرار می گیرند.
وقتی زمان فشردهسازی دادهها فرا میرسد، مراحل را مجدداً تنظیم کنید -؛ به شما کمک می کند “مرجع” مورد نیاز خود را “دریافت” کنید.
حل معضل فرهنگ لغت
CRAM تنها نمونهای از این است که چگونه refget عدم قطعیت خطرناک را از دادههای ژنومی حذف میکند.
اندرو یتس، توسعهدهنده refget و یکی از رهبران تیم در EMBL-EBI میگوید: refget هر دنباله مرجع را با استفاده از ویژگیهای منحصربهفرد ذاتی خود شناسایی میکند، بنابراین همیشه میتوانید اعتماد کنید که یک دنباله حاوی آنچه روی برچسب نوشته شده است.
او گفت: “عواقب مقایسه دادههای ژنومی با توالیهای مرجع نادرست یا نادرست جدی است. انواع ژنتیکی ممکن است بهطور نادرست به عنوان بیماریزا یا بیضرر طبقهبندی شوند و بیماران مراقبتهای نامناسب دریافت کنند. دقیق بودن مهم است.”
با اختصاص یک شناسه منحصر به فرد به دنباله های مرجع، refget یک مشکل نامگذاری پیچیده در ژنومیک را حل می کند.
مقامات مرکزی مانند همکاری بینالمللی پایگاه داده توالی نوکلئوتیدی (INSDC)، Ensembl، و مرورگر ژنوم دانشگاه کالیفرنیا، سانتا کروز (UCSC) از قراردادهای نامگذاری متفاوتی برای یک توالی مرجع استفاده میکنند.
به این فکر کنید که چگونه فرهنگ لغت انگلیسی آکسفورد و مریام وبستر گاهی اوقات یک کلمه انگلیسی را متفاوت می نویسند و تعریف می کنند. سپس سعی کنید یک انگلیسی زبان انگلیسی را متقاعد کنید که به جای استفاده از رنگ از “رنگ” استفاده کند، و چالش استانداردسازی نامگذاری را خواهید دید.
نام های غیر منحصر به فرد در هنگام تجزیه و تحلیل داده ها عدم اطمینان بیشتری ایجاد می کنند. به عنوان مثال، یکی دیگر از نامگذاریهای رایج بر اساس تعداد کروموزوم شمارش میشود، که با کروموزوم 1 به عنوان بزرگترین شروع میشود. اما ژنوم مرجع بسیاری از موجودات دارای کروموزوم به نام “1” است. مثلاً چگونه می دانید که کروموزوم انسانی دریافت می کنید و نه موش؟ کدام «1» برای استفاده مناسب است؟
refget هرگونه سردرگمی را برطرف می کند.
سزارد گفت: “refget بسیار ساده است. شما یک نام دارید، یک دنباله را می گیرید. شما یک دنباله دارید، شما نام را می سازید.” “نیازی نیست به هیچ مرجع نامگذاری تکیه کنید.”
چرا برای هر تجزیه و تحلیل ژنومی به refget نیاز دارید؟
برای انتشار اولیه refget در سال 2018، GA4GH Large Scale Genomics Work Stream API را برای پشتیبانی از CRAM طراحی کرد.
اما Yates و تیم به سرعت متوجه شدند که refget می تواند مشکلات موجود در سایر قالب ها و مدل های داده ژنومی را برطرف کند. VCF و SAM همچنین از شناسههای refget پشتیبانی میکنند و علاقه جامعه به استفاده از آنها افزایش مییابد.
Yates می گوید: «رجت یک بلوک اساسی برای استانداردهای GA4GH است. “این می تواند مشکلاتی فراتر از CRAM، برای هر فرمت فایل یا مدل داده ای که به دنباله مرجع نیاز دارد، حل کند. با refget، دقیقاً می دانید در مورد چه دنباله ای صحبت می کنید.”
به عنوان مثال، refget در حال حاضر در حال حل مشکلات برای GA4GH Variation Representation Specification (VRS) است، که چارچوبی برای توصیف انواع ژنتیکی فراهم می کند که رایانه ها می توانند به راحتی آن ها را مقایسه و تجزیه و تحلیل کنند.
Yates و Cezard از نزدیک با تیم VRS برای توسعه refget v2.0 که از شناسههای دنباله VRS پشتیبانی میکند، همکاری کردند. اکنون بیمارستانها، آزمایشگاهها و پایگاههای اطلاعاتی مانند ClinGen با بودجه NIH که از VRS برای نمایش و اشتراکگذاری انواع ژنتیکی استفاده میکنند، از طریق refget به دنبالههای مرجع پیوند میدهند.
لری باب، یکی از رهبران VRS میگوید: “تا حد زیادی به دلیل refget، GA4GH VRS به اشتراک گذاری و مقایسه دادههای مختلف در بین مؤسسات را بسیار قابل اعتمادتر میکند. refget به ما امکان میدهد توالی مرجع دقیق را مشخص کنیم، که سپس به ما کمک میکند تا تغییرات را بهطور واضح نشان دهیم.” تیم، مهندس نرم افزار اصلی در موسسه Broad MIT و هاروارد، و قهرمان پروژه درایور GA4GH برای ClinGen.
الکس واگنر گفت: “با استفاده از شناسههای refget در VRS، میتوانیم با چالشهای مهم قابلیت همکاری که هنگام مقایسه شواهد از توالیهای مرجع جدید به وجود میآیند، مقابله کنیم. این استراتژی قبلاً در دنیای واقعی در پروژهای با Atlas of Variant Effects Alliance کار کرده است.” دیگر رهبر تیم VRS، که محقق اصلی در بیمارستان کودکان سراسری و قهرمان پروژه راننده GA4GH برای کنسرسیوم تفسیری برای سرطان است.
یکی دیگر از منابع اصلی برای جامعه ژنومیک، آرشیو نوکلئوتید اروپا (ENA)، قبلاً refget v2.0 را پیاده سازی کرده است.
ENA شامل تمام DNA و RNA توالی شده در حوزه عمومی است – نزدیک به سه میلیارد سکانس برای فشردهسازی فایلها از پایگاه داده، محققان از رجیستری مرجع CRAM استفاده میکنند که روی refget اجرا میشود.
نسخه جدید refget نیز در مرورگر ژنوم Ensembl عرضه خواهد شد. این مجموعه از بیش از 50000 ژنوم (نماینده تنوع زیادی در درون و بین گونهها، از انسان گرفته تا ذرت تا گورخرماهی) ابزارهایی برای تجزیه و تحلیل و مقایسه ارائه میدهد.
یتس گفت: “refget زیرساختهای Ensembl جدید ما را نیرو میدهد. این نقاط پایانی refget در آینده نزدیک در دسترس قرار خواهند گرفت و دسترسی به پروتئینها و دنبالههای رونوشت میزبان Ensembl را فراهم میکنند.”
ویژگی های جدید در نسخه 2.0
آخرین نسخه refget قابلیت های API را گسترش می دهد و آن را در دسترس تر و سازگارتر با سیستم های دیگر می کند.
کار با تیم VRS منجر به ایجاد یک الگوریتم ترجیحی جدید برای تعریف شناسه ها شد. سایر ویژگیهای جدید که در مشخصات ذکر شده شامل بهترین روشهای توصیه شده (مانند رشتههای مرجع نامگذاری حروف کوچک)، و گزینههایی هنگام جستجوی یک شناسه خاص (با یا بدون فضای نام) است.
یک تغییر کلیدی -؛ با هدف گسترش گروه هایی که می توانند از refget بهره مند شوند – به شما امکان می دهد نه تنها با شناسه refget منحصر به فرد، بلکه با قرارداد نامگذاری دیگری جستجو کنید. در فرهنگ لغت، میتوانید «رنگ» یا «رنگ» را جستجو کنید و همچنان تعریف درست را بازیابی کنید.
Cezard گفت: “سرورهای refget اکنون می توانند با استفاده از یک قرارداد نامگذاری متفاوت، همان دنباله را بازیابی کنند. نسخه جدید با سیستم های دیگر که به مقامات نامگذاری متکی هستند، قابل همکاری است، بنابراین حتی اگر به خود توالی مرجع دسترسی ندارید، می توانید جستجو کنید.” .
او افزود: “شما می توانید نامی را وارد کنید که یک شناسه refget نیست و همچنان همان دنباله تایید شده و قابل اعتماد را دریافت کنید – که سپس می توانید دوباره آن را در یک شناسه refget محاسبه کنید.”
نسخه جدید شامل راه حل های فنی برای مدیریت نام های غیر منحصر به فرد است.
این بهروزرسانیهای اصلی نسخه 2.0 مستلزم کار بزرگی برای پیادهکنندهها نیست: همه مشتریان refget موجود میتوانند به استفاده از API ادامه دهند. تنها تغییر شکسته حداقل یک تغییر است و سرورهای refget را با GA4GH Service Info API سازگار می کند، که به یافتن سرویس های وب برای تجزیه و تحلیل داده های ژنومی کمک می کند.
برای کل ژنوم refget کنید
با تکیه بر همان اصول refget، تیم در حال حاضر در حال توسعه مشخصات جدیدی است که هویت مجموعهای از دنبالهها را تأیید میکند.
سزارد گفت: “refget یک نام را برای یک توالی منفرد، مانند یک کروموزوم، تعریف می کند. Sequence Collections نامی را برای گروهی از توالی ها تعریف می کند، که ما اغلب از آنها برای مجموعه ها یا یک ژنوم کامل استفاده می کنیم.”
مجموعههای Sequence ویژگیهای جدید بسیاری را فراتر از تعریف نامها، از جمله جستجو در داخل و مقایسه مجموعهها، ارائه میکنند.
در این میان، سزارد، یتس و همکاران قصد دارند پشتیبانی از refget را در طیف وسیعی از فرمتهای فایل ژنومی، از BED تا SAM تا VCF تقویت کنند و نشان دهند که refget چقدر میتواند مفید باشد.
یتس میگوید: «رجت در حال حاضر از یک گام مهم در تجزیه و تحلیل ژنومی برای محققان در سراسر جهان محافظت میکند. این نسخه دوم، مفهوم شناسههای منحصربهفرد واقعاً حیاتی است، چه شما یک توالی مرجع واحد، یک ژنوم کامل یا حتی یک پانژنوم را شناسایی کنید.»
منبع:
اتحاد جهانی برای ژنومیک و سلامت