Пазлы опознания. Создан инструмент для расшифровки генома коронавирусов

18.07.2020

Всемирно известный флагманский продукт лаборатории «Центр алгоритмической биотехнологии» СПбГУ, созданной в 2014 году в рамках мегагранта, геномный сборщик SPAdes (Saint Petersburg Assembler) расширил набор режимов работы благодаря новому модулю coronaSPAdes. Сборка генома мало чем отличается от сборки пазла из миллиона частей, и это одна из самых сложных алгоритмических проблем в биоинформатике. Для ее решения применяют специальные инструменты — геномные сборщики.

SPAdes используют тысячи специалистов в области геномики по всему миру. Он позволяет производить расшифровку геномов живых организмов (в том числе вирусов), с его помощью ученые анализируют патогены, вызвавшие вспышки ближневосточного респираторного синдрома (MERS) в Саудовской Аравии, Эболы в Конго, гонореи в Англии, менингита в Гане, лихорадки денге на Суматре и десятки других вспышек. По предварительным данным, с помощью этой разработки уже удалось восстановить последовательности геномов ранее неизвестных коронавирусов.

На создание модуля coronaSPAdes нас подвигли запросы научного сообщества,

— рассказал один из основных авторов нового продукта, сотрудник Центра алгоритмической биотехнологии СПбГУ Антон Коробейников.

Специалисты разных лабораторий нас неоднократно спрашивали о том, как с помощью утилит (вспомогательных компьютерных программ) семейства SPAdes собирать РНК-вирусы.

В числе таких научных центров — Европейский институт биоинформатики (EMBL-EBI), с которым у нас есть совместный грант Российского фонда фундаментальных исследований, а также сообщество ученых, работающих в рамках коллаборации Serratus над поиском новых корона- и других вирусов в публичных данных. Так как существовавшие модули сборщика SPAdes не давали ощутимого преимущества перед программами-конкурентами, была поставлена задача создать новый, который бы учитывал уникальные особенности строения генома коронавирусов и данных секвенирования.
Решающая роль в реализации этой разработки принадлежит сотруднику Центра алгоритмической биотехнологии СПбГУ Дмитрию Мелешко. Важно отметить, что coronaSPAdes основан на предыдущих разработках лаборатории и кодовой базе семейства сборщиков SPAdes (metaSPAdes, rnaSPAdes, metaviralSPAdes, biosyntheticSPAdes). Без этих наработок появление модуля было бы невозможным.

Первая версия coronaSPAdes была создана за пару недель. Выполнить работу в столь сжатые сроки помогли тестовые данные, предоставленные участниками коллаборации Serratus. Сегодня создатели сборщика заняты его дальнейшим совершенствованием, однако уже сейчас он позволяет восстанавливать геномы коронавирусов de novo (вновь, с самого начала) гораздо эффективнее и качественнее, чем это делается с помощью иных альтернативных инструментов.

Модуль coronaSPAdes учитывает особенности данных секвенирования РНК, а также реализует уникальные алгоритмические решения, нацеленные на улучшение восстановления последовательности генома коронавирусов. Более того, подходы, заложенные в coronaSPAdes, могут быть задействованы в дальнейшем для разработки новых сборщиков, использующих информацию о структуре иных типов геномов.

— Сборщик coronaSPAdes сразу стал активно применяться учеными, однако границы этого применения оценить сложно, поскольку всех пользователей мы не отслеживаем. CoronaSPAdes, — программа с открытым исходным кодом (open source), доступная всем для скачивания и использования. По нашим данным, помимо EMBL-EBI интерес к сборщику проявили такие крупные исследовательские сообщества, как Serratus, MetaSUB Consortium и NextFlow, —  отметил А.Коробейников.

Как рассказала заместитель директора Центра алгоритмической биотехнологии Института трансляционной биомедицины СПбГУ Алла Лапидус, за короткое время в лаборатории создано несколько новых программ, нацеленных на быструю и качественную обработку геномных данных и необходимых для анализа различных болезнетворных вирусов (и не только), в первую очередь коронавирусов.

— В 2020 году эпидемиологическая ситуация в мире не позволяет ученым и медикам расслабиться: не успели справиться с COVID-19, как появились сообщения о штамме свиного гриппа, получившем название G4 EA H1N1, — сообщила А.Лапидус. — Выяснить, действительно ли он новый или это ранее известный сезонный штамм, поможет в первую очередь анализ его генома. А недавно появились сообщения о случаях бубонной чумы в Китае, вызываемой бактерией Yersinia pestis. В такой непростой обстановке возрастает не только потребность в аналитических методах, но и в грамотных специалистах. В этом году впервые в истории СПбГУ состоялся выпуск магистров, обучавшихся по программе «Биоинформатика», и я желаю им больших научных достижений и открытий.

По материалам пресс-службы СПбГУ

Нет комментариев