[PDF] Modern tools for annotation of small genomes of non-model eukaryotes

Abstract

Nowadays, due to the increasing amount of experimental data obtained by sequencing, the most interest is focused on determining the functions and characteristics of its individual parts of the genome instead of determining the nucleotide sequence of the genome. The genome annotation includes the identification of coding and non-coding sequences, determining the structure of the gene and determining the functions of these sequences. Despite the significant achievements in computational technologies working with sequencing data, there is no general approach to the functional annotation of the genome in the reason of the large number of unresolved molecular determination of the function of some genomes parts. Nevertheless, the scientific community is trying to solve this problem. This review analyzed existing approaches to eukaryotic genome annotation. This work includes 3 main parts: introduction, main body and discussion. The introduction reflects the development of independent tools and automatic pipelines for annotation of eukaryotic genomes, which are associated with existing achievements in annotating prokaryotic ones. The main body consists of two distinguished parts, the first one is devoted to instructions for annotating genomes of non-model eukaryotes, and the second block is about recent versions of automatic pipelines that require minimal user's curation. The question of assessing the quality and completeness of the annotated genome is noted briefly, and the tools to conduct this analysis are discussed. Currently, there is no universal automatic software for eukaryotic genome annotation, covering the whole list of tasks, without manual curation or using additional external tools and resources. Thus it leads to the task of developing a wider functional and universal protocol for automatic annotation of small eukaryotic genomes.

Full PDF

MMODERN TOOLS FOR ANNOTATION OF SMALL GENOMES OF NON-MODEL EUKARYOTES

M.A. Galchenkova, A.A. Korzhenkov*

NRC Kurchatov Institute, Kurchatova sq. 1, 123182, Moscow, Russia* e-mail: [email protected]

Summary . Nowadays, due to the increasing amount of experimental data obtained bysequencing, the most interest is focused on determining the functions and characteristics of itsindividual parts of the genome instead of determining the nucleotide sequence of the genome.The genome annotation includes the identification of coding and non-coding sequences,determining the structure of the gene and determining the functions of these sequences.Despite the significant achievements in computational technologies working with sequencingdata, there is no general approach to the functional annotation of the genome in the reason of thelarge number of unresolved molecular determination of the function of some genomes parts.Nevertheless, the scientific community is trying to solve this problem. This review analyzedexisting approaches to eukaryotic genome annotation.This work includes 3 main parts: introduction, main body and discussion. The introductionreflects the development of independent tools and automatic pipelines for annotation ofeukaryotic genomes, which are associated with existing achievements in annotating prokaryoticones. The main body consists of two distinguished parts, the first one is devoted to instructionsfor annotating genomes of non-model eukaryotes, and the second block is about recent versionsof automatic pipelines that require minimal user's curation. The question of assessing the qualityand completeness of the annotated genome is noted briefly, and the tools to conduct thisanalysis are discussed.Currently, there is no universal automatic software for eukaryotic genome annotation, coveringthe whole list of tasks, without manual curation or using additional external tools and resources.Thus it leads to the task of developing a wider functional and universal protocol for automaticannotation of small eukaryotic genomes.

Keywords: bioinformatics, genomics of eukaryotes, structural annotation, functional annotation

ОВРЕМЕННЫЕ ИНСТРУМЕНТЫ АННОТАЦИИ МАЛЫХ ГЕНОМОВНЕМОДЕЛЬНЫХ ЭУКАРИОТ

М.А. Галченкова, А.А. Корженков*

НИЦ Курчатовский институт, пл. Академика Курчатова, д. 1, 123182 Москва, Россия* e-mail: [email protected]

Аннотация.

На сегодняшний день в связи с возрастающим количеством полученныхэкспериментальных данных секвенирования растет потребность не столько копределению нуклеотидной геномной последовательности, сколько к поиску и описаниюфункциональных единиц генома. Аннотация генома включает в себя идентификациюкодирующих и некодирующих последовательностей, определение структуры гена,включая нетранслируемые регионы, интроны и экзоны, и определение функцийнайденных последовательностей. Несмотря на имеющиеся значимые достижения ввычислительных технологиях, направленных на работу с геномными итранскриптомными данными, обработка эукариотических геномов является труднойвычислительной задачей, а разнообразие инструментов может поставить исследователя,впервые сталкивающегося с такой задачей в затруднительное положение.В данной работе был выполнен обзор существующих подходов к аннотации геномовэукариот, включающий как отдельные инструменты, так и полуавтоматическиепрограммные конвейеры для аннотации геномов эукариот. В первой части обзорадетально рассмотрен пошаговый алгоритм аннотации эукариотических геномов суказанием программного обеспечения и баз данных, применяемых для решения данныхзадач. Вторая часть посвящена существующим актуальным автоматизированнымпрограммным конвейерам для аннотации эукариотических геномов. Дополнительно,упомянуты инструменты для оценки качества и полноты генома.Несмотря на наличие разработанного подхода к аннотированию геномов эукариот, несуществует универсального автоматического программного обеспечения, способноговыполнить весь спектр поставленных задач. Современные программные конвейерыимеют ряд недостатков, включая многочисленные зависимости, сложность настройки изапуска, низкую универсальность, невозможность автономной работы, что подчеркиваетнеобходимость разработки программного обеспечения для автоматической аннотациималых геномов немодельных эукариот.

Ключевые слова: биоинформатика, геномика эукариот, структурная аннотация,функциональная аннотация ведение

Повышение доступности высокопроизводительного секвенирования вызвалоэкспоненциальный рост объема геномных данных. На примере базы NCBI RefSeq,которая стремится к максимальному сокращению избыточности данных, хорошовидно, что трехкратный рост обусловлен не просто повышением количестваданных, но и повышением их разнообразия — качественным ростом. Так, базаданных

NCBI RefSeq за 5 лет от версии 74 (11 января 2016,https://ftp.ncbi.nlm.nih.gov/refseq/release/release-notes/archive/RefSeq-release74.txt) кверсии 204 (4 января 2021,https://ftp.ncbi.nlm.nih.gov/refseq/release/release-notes/RefSeq-release204.txt)выросла с 22,36 млрд аминокислотных остатков (а.о.) в 58,5 млнпоследовательностей до 73.97 млрд а.о. (331%) в 191,41 млн последовательностей(327%). В тоже время размер баз

NCBI GenBank и NCBI WGS

RAST (https://rast.nmpdr.org/; Brettin et al.,2015),

KBase (https://kbase.us/; Arkin et al. 2018),

IGS Prokaryotic AnnotationPipeline

NCBI PGAP (Tatusova et al., 2016),

IMG M/ER (Huntemann et al., 2015).чевидными достоинством этих систем является графический интерфейс,отсутсвие установки, необходимости скачивания баз данных, обеспечениевычислительных ресурсов и пр., однако, стоит помнить, что такие инструментыне могут быть использованы для анализа конфиденциальных данных. В качествеоффлайн инструментов, предоставляющих полный спектр инструментов анализаи форматирование полученных данных в соответствии со стандартами INSDC дляпоследующей публикации и дружественных в процессе установки ииспользования, можно отметить

Prokka (Seemann, 2014) и

DFAST (Tanizawa etal., 2018).Ввиду большего размера геномов эукариот и более сложного механизмаэкспрессии генов, поточный анализ эукариотических геномов представляетсяболее сложной задачей. Для ряда модельных организмов существуютспециализированные базы данных, содержащие аннотированные референсныегеномы. В первую очередь стоит отметить портал

Ensembl

Основные этапы аннотации эукариотических геномов

Аннотация малых геномов эукариот включает в себя три основных этапа:определение и маскировка повторяющихся последовательностей, структурнаяаннотация и функциональная аннотация (Yandell, 2012). В качестве альтернативывыделяют идентификацию некодирующих участков генома, поиск открытыхрамок считывания и функциональную аннотацию белок-кодирующих генов(Haridas S. et al., 2018). По сравнению с прокариотическими организмами геномыэукариот содержат значительное количество повторяющихсяпоследовательностей, которые усложняют процесс аннотирования и должны бытьпредварительно выявлены в анализируемом геноме. К структурной аннотацииотносят задачи идентификации белок-кодирующих последовательностей, включаяопределение сайтов сплайсинга, генов функциональных РНК (тРНК, рРНК,микроРНК и др.). Вслед за структурной аннотацией следует функциональная,которая заключается в определении функциональных признаков аннотированныхструктур. Существует большое разнообразие программных инструментов дляаннотирования геномов, различающихся по условиям использования: свободное,бесплатные академические лицензии, исключительно платное использование,открытости и лицензии исходного кода, доступности онлайн и возможностилокальной установки. В обзоре мы по возможности сосредоточим внимание наинструментах с открытым исходным кодом или как минимум доступныхбесплатно для академического использования. Инструменты и базы данныхвыделены полужирным начертанием и при первом упоминании указываетсяссылка на статью, а также, при наличии веб-интерфейса, поддерживаемогоразработчиками, приводится ссылка и на него.

Идентификация некодирующих участков генома - поиск и маскирование повторов и транспозонов:

RepeatModeler

RepeatModeler2 (Flynn et al., 2020), epeatMasker (Tempel, 2012), tantan (Frith, 2011), база данных

Dfam (Hubley etal., 2016); - поиск генов тРНК: tRNAscan-SE (http://lowelab.ucsc.edu/tRNAscan-SE/;Lowe et al., 1997; Chan et al, 2019),

Aragorn (Laslett & Canbäck, 2004),

Arwen (Laslett & Canbäck, 2008); - идентификация генов малых ядрышковых РНК — snoSeeker (Yang J. H.et al., 2006), генов микроРНК — miRDeep (An J. et al., 2013), miRanalyzer (Hackenberg et al., 2011); генов прочих нкРНК —

ERPIN (Gautheret et al., 2001), miRAlign (Wang X. et al., 2005);- альтернативно, поиск генов некодирующих РНК можно осуществить припомощи инструментов cmsearch и cmscan из пакета

Infernal (Eddy et al., 2013) иковариационных моделей базы данных

Rfam (https://rfam.xfam.org/; Kalvari et al.,2018).

Определение белок-кодирующих генов

Определение белок-кодирующих генов возможно при помощи одного изследующих подходов, либо их комбинации:1. Предсказание генов ab initio может быть проведено при помощи

GeneMark-ES (Ter-Hovhannisyan et al., 2008),

FGENESH (Zhang S. et al.,2008),

AUGUSTUS (Keller et al., 2011),

SNAP (Korf, 2004) и

GlimmerHMM (Majoros et al., 2004).2. Предсказание генов на основе гомологии осуществляется путемвыравнивания последовательностей из баз данных, например,

UniProt / SwissProt

GeneWise (Birney et al., 2004),

Spaln (Gotoh, 2008), exonerate (Slater & Birney, 2005),

GeneMark-EP+ (Brůna et al., 2020) илиальтернативных программ.3. Предсказание генов, основанное на транскриптомных данных включаетсборку транскриптов de novo или на основании картирования прочтений ипоследующее выравнивание транскриптов на геном. . de novo сборка транскриптов может быть осуществлена при помощи

Trinity (Grabherr et al., 2011), rnaSPAdes (Bushmanova et al., 2019),

Trans-ABySS (Robertson et al., 2010),

Bridger (Chang Z., 2015) и

SOAPdenovo-Trans (Xie Y. et al., 2014), перечисленные программыпоказали лучшие результаты в de novo сборке транскриптома порезультатам сравнительного анализа (Hölzer & Marz, 2019). b. Сборка транскриптов на основе картирования прочтений, ихвыравнивание транскриптов и предсказание генов может бытьпроведено при помощи

TopHat и Cufflinks (Trapnell et al., 2012),

STAR (Dobin et al., 2013),

PASA (Haas et al., 2003),

GeneMark-ET (Lomsadze et al., 2014) или mGene.ngs (Behr et al., 2010).Оценка и сопоставление предсказаний могут быть проведены при помощисредств визуализации, в частности

IGV (https://igv.org/; Thorvaldsdóttir et al.,2013). Для оценки, фильтрации и консолидации результатов предсказания геномнесколькими инструментам могут быть использованы

EvidenceModeler (Haas etal., 2008),

MAKER (Cantarel B. L. et al., 2008) и другие программы,рассматриваемые во второй части обзора.

Функциональная аннотация

Функциональной аннотации проводится на основании предсказанных белок-кодирующих последовательностей и включает в себя 3 общих подхода:(1) характеристика частей последовательности белка, таких как домены;(2) поиск гомологии с уже охарактеризованными последовательностями;(3) аннотация в соответствии с существующими схемами классификации: Eu k aryotic O rthologous G roups ( KOG ; Koonin E. V. et al., 2004),

Gene Ontology ( GO Kyoto Encyclopedia ofGenes and Genomes ( KEGG

Enzyme Commission ( ЕС Pfam (http://pfam.xfam.org/; El-Gebali et al.,2019) при помощи hmmscan (http://hmmer.org; Eddy, 2011).b. Идентификации сигнальных пептидов, предполагающих секрецию белкав предсказанных генах signalP

TMHMM

InterProScan

NCBIBLAST (Camacho et al., 2009),

BLAT (Kent, 2002), diamond (Buchfink et al., 2015)или аналогичных инструментов против универсальных баз, таких как

NCBI nr SwissProt

UniProt

MEROPS (http://merops.sanger.ac.uk; Rawlingset al., 2010) для идентификации пептидаз.f. Классификация генов: (1) Присвоение терминов GO одной из трех категорий:биологический процесс, молекулярная функция и клеточный компартментпри помощи баз данных Interpro

SwissProt . (2) Сопоставление генов с ферментами метаболических путей базы

KEGG и присвоение кодов ЕС при помощи KEGG Mapper (Kanehisa &Sato, 2020).(3) Отнесение к кластеру ортологичных эукариотических генов

KOG .g. Поиск групп ортологичных генов при помощи:

OrthoFinder (Emms etal., 2015),

OrthoMCL (Li L. et al., 2003). ннотация генома митохондрий

Отдельно стоит выделить аннотацию митохондриального генома, т.к.генетический материал митохондрий отличается от ядерного и требуетиспользования дополнительных инструментов. Аннотация митохондриальногогенома состоит из следующих основных шагов:1. Предсказание генов, в том числе фрагментированных, кодирующих тРНК,с помощью tRNAscan-SE (Chan P. P. et al, 2019),

ARWEN (Laslett D. et al.,2008) и

RNAweasel (Gautheret D. et al., 2001).2. Предсказание белок-кодирующих генов возможно по одному изследующих методов: a. de novo предсказание с использованием генетического кода имоделей генов, специфичных для митохондриальных геномов;b. Выравнивание интрон-содержащих генов с использованием

TBLASTN (Gertz et al., 2006) без учета согласований сайтовсплайсинга и уточнение границ с сохранением рамки считыванияили с использованием

GeneWise (Birney et al., 2004).3. Предсказание генов рРНК с помощью

Infernal (Eddy et al., 2013) сиспользованием ковариационных моделей генов малой и большойсубъединиц рРНК из базы данных

Rfam (Kalvari et al., 2018).4. Определение артефактов, вызванных линейным представлением сборкикольцевого генома (характерного для митохондрий животных), напримерповторяющихся фрагментов на обоих концах последовательности,отсутствующих в реальном митохондриальном геноме. Дупликации илифрагментация генов из канонического набора потенциально являетсяпризнаком описанного артефакта сборки. В таких случаях рекомендуетсяручная правка последовательности и ее повторная аннотация.Вышеописанные подходы весьма специфичны для каждого набора данных итребует непосредственного включения пользователя на этапе очистки сподготовкой для дальнейшей аннотации и фильтрации полученныхредсказанных функциональных участков генома, что увеличивает время работыс данными. Также отсутствие единого автоматизированного протоколасущественно усложняет процесс постобработки экспериментальных данных.

Автоматические системы аннотации эукариотических геномов

Данный раздел обзора посвящен реализованным (полу)автоматическимпайплайнам, комбинирующим в себе различные внешние инструменты,упомянающиеся ранее. Нижеописанные пайплайны аннотирования используюткомбинацию предсказаний ab initio и предсказаний, основанных на фактическихданных, для создания точных консенсусных аннотаций.

MAKER — это полностьюавтоматизированный инструмент аннотации, который широко используется дляаннотирования эукариотических геномов (Cantarel B. L. et al., 2008) и включаетследующие этапы: - поиск и маскирование повторов: RepeatMasker и NCBI BLASTX (Camacho et al., 2009), - de novo предсказание белок-кодирующих генов: GeneMark-ES (Ter-Hovhannisyan et al., 2008),

FGENESH (Zhang S. et al, 2008),

AUGUSTUS (Keller et al., 2011),

SNAP (Korf, 2004), - выравнивание нуклеотидных и аминокислотных последовательностей NCBI BLAST (Camacho et al., 2009) с последующей оптимизациейвыравнивания ( exonerate (Slater & Birney, 2005)). Полученные данные подвергаются автоматическому анализу для выбораоптимального предсказания гена, включая нетранслируемые регионы и сайтыальтернативного сплайсинга, и проводится количественная оценка качествапредсказания. Для тестирования инструмента работает онлайн-версия —http://weatherby.genetics.utah.edu/cgi-bin/mwas/maker.cgi с ограничениями на длинуаннотируемых последовательностей. MAKER бесплатно доступен для научнойработы, однако необходима предварительная регистрация.

RAKER1 (Hoff K. J. et al., 2016) и его расширение

BRAKER2 (Brůna et al., 2021)— это инструмент для структурной аннотации геномов с возможностью анализатранскриптомных данных и последовательностей гомологичных белков.

BRAKER использует

GeneMark-ES/ET/EP (Brůna et al., 2020) и

AUGUSTUS . Напервом этапе производится предварительное предсказание генов:

GeneMark-ES проводит ab initio предсказание генов основываясь на геномнойпоследовательности, при наличии транскриптомных данных используется

GeneMark-ET (Lomsadze et al., 2014), при наличии гомологичныхаминокислотных последовательностей генов, например из базы

OrthoDB , онивыравниваются на геном при помощи

ProtHint (https://github.com/gatech-genemark/ProtHint) и на основании выравнивания

GeneMark-EP проводитпредсказание генов. Полученные предсказания используются на втором этапе дляобучения инструмента

AUGUSTUS и финального предсказания генов.

BRAKER реализован на языке Perl и активно развивается.

CodingQuarry — это программный пакет, реализованный на языке C++, дляпредсказания генов на основании транскриптомных данных, оптимизированныйдля анализа геномов грибов, которые обладают меньшим, чем у высших эукариот,размером интронов (Testa et al., 2015). В этом инструменте транскриптом,собранный при помощи

Cufflinks (Trapnell et al., 2012), используется дляпостроения обобщенной скрытой марковской модели, которая используется дляпредсказания генов. Последнее обновление инструмента (версия 2.0) былоопубликовано в 2016 году, что указывает на прекращение разработки.

OMIGA (Optimized Maker-Based Insect Genome Annotation) — это инструмент дляаннотации геномов насекомых (Liu J. et al., 2014), основанный на программе

MAKER . Кратко обработка данных состоит в маскировании повторов припомощи

RepeatMasker и RepeatModeler . Затем проводится картированиетранскриптомных прочтений на геном при помощи

Bowtie2 (Langmead &Salzberg, 2012) для определения транскрибируемых регионов и сборкиранскриптов при помощи

Cufflinks . Высококачественные транскрипты былииспользованы для обучения и последующего предсказания генов при помощи

AUGUSTUS , SNAP и GeneMark . Структура генов была проверена и исправленапри помощи Exonerate. В завершение была проведена интеграция всехпредсказаний при помощи

MAKER . Несмотря на успешные результатыиспользования этого инструмента на реальных данных в настоящее время оннедоступен для скачивания.

EuGene — это автоматизированный инструмент для поиска генов впрокариотических (Sallet et al., 2014) и эукариотических геномах (Sallet et al.,2019). EuGene использует: - Инструменты для поиска геномных повторов:

Red (Girgis, 2015),

LTRHarvest (Ellinghaus et al., 2008),

NCBI BLASTX и базу данных

Repbase Update (Bao et al., 2015). - Вероятностные модели межгенных, интронных, транскрибируемых итранслируемых регионов и их границ (например, сайты сплайсинга). - Транскриптомные данные: картированные при помощи

GMAP (Wu &Watanabe, 2005) прочтения или транскриптомные сборки. - Инструменты выравнивания аминокислотных последовательностей diamond и NCBI BLAST+ для поиска гомологов. - Инструменты поиска функциональных РНК:

RNAmmer или

Infernal . - Импортированную информацию специализированных инструментов вформате GFF3.

EuGene реализован на языке Perl, документация и исходный код доступны на веб-сайте http://eugene.toulouse.inra.fr/.

GeMoMa (Gene Model Mapper) позволяет проводить предсказание белок-кодирующих генов на основе геномных и, факультативно, транскриптомныхданных (Keilwagen et al., 2016; Keilwagen et al., 2019).

GeMoMa написан на языкеJava и доступен в виде JAR-файла, не требующего установки. Аннотациявключает несколько стадий:

Обработка транскриптомных данных. Прочтения картируют на геном иопределяют позиции интронов при помощи

TopHat2 или

STAR . - Поиск фрагментов белок-кодирующих генов. При помощианнотированных сборок референсных геномов получают информацию офрагментах белок кодирующих генов, отвечающих экзонам,комбинируемую с информацией об интронах с предыдущего шага длясоздания моделей генов. - Поиск гомологичных последовательностей белок-кодирующих генов спомощью

TBLASTN на основании референсных последовательностей. - Предсказание транскриптов по результатам выравнивания. Предсказаниесайтов сплайсинга проводится по данным транскриптомногосеквенирования, либо при низком покрытии по консервативным сайтамGT/GC и AT. При наличии нескольких альтернативных вариантов экзоновв соответствующем регионе генома все комбинации, соответствующиерамке считывания рассматриваются и проходят оценку. - На заключительном этапе проводится фильтрация предсказанныхтранскриптов по разным критериям, включая относительный балл

GeMoMa для транскрипта, полноту транскрипта (наличие старт-кодона истоп-кодона) и число референсных геномов, подтверждающихпредсказанный транскрипт. Выходные данные — отфильтрованная икомбинированная аннотация в формате GFF.Стоит отметить, что в отсутствие транскриптомных данных возможноиспользование только референсных геномных сборок. К недостаткам инструментаможно отнести невозможность предсказания нетранслируемых регионов гена(UTR).

FunGAP — это автоматизированный программный пакет для предсказания ианнотации белок-кодирующих генов в геномах грибов (Min B. et al., 2017).

FunGAP использует три программы для предсказания белок-кодирующих генов:

AUGUSTUS , Braker и MAKER . В качестве входных данных используетсягеномная последовательность, мРНК-прочтения и база референсныхминокислотных последовательностей для поиска гомологичных генов.Аннотация состоит из трех этапов: 1. предварительная обработка: маскирование повторов в геноме и сборкатранскриптома;2. предсказание генов при помощи доступных входных данных тремяинструментами;3. оценка предварительных результатов:- Выравнивание против референсного протеома с помощью

BLASTP (Camacho et al., 2009).- Выравнивание против моделей консервативных однокопийных генов избазы

BUSCO (Seppey et al., 2019).- Идентификация доменов

Pfam при помощи

InterProScan .Каждый метод предоставляет количественную оценку, рассчитываемую как весвыравнивания умноженный на долю длины гена, покрытого этим выравниванием.Для каждого предсказанного гена эти значения суммируются и учитываются наэтапе фильтрации как качество предсказания. В процессе фильтрации

FunGAP находит «генные блоки» — наборы перекрывающихся генов — и для каждогоблока отбирает предсказание с наивысшим качеством. Конечными даннымиявляются: аминокислотные последовательности белков в формате FASTA, файланнотации в формате GFF3 и общая сводка результатов в формате HTML.

FunGAP реализован на интерпретируемом языке Python версии 2.7, что в своюочередь ограничивает интеграцию и поддержку этого инструмента.

Funannotate является программным пакетом широкого назначения дляпредсказания и аннотации генов и проведения сравнительного анализаэукариотических геномов (Palmer & Stajich, 2020). Изначально funannotate былпредназначен для аннотирования геномов грибов и имел ограничение на размергенома до 30 млн п. н., но сейчас предоставляется возможность работы сгеномами высших эукариот. Для аннотированных геномов можно провестисравнительный анализ, результат которого будет представлен в формате HTML. unannotate включает стадию предварительной обработки генома: удалениенебольших повторяющихся контигов из сборки, сортировка и переименованиезаголовков контигов для совместимости с биоинформатическими инструментамии базами данных, маскирование повторов при помощи tantan , RepeatMasker или

RepeatModeler .Предсказание белок-кодирующих генов проводится при помощи

EvidenceModeler (Haas et al., 2008), который использует данные различных инструментовдля предсказания генов:

AUGUSTUS , SNAP , glimmerHMM , CodingQuarry и GeneMark-ES/ET . В анализ кроме геномной последовательности могут бытьдополнительно включены транскриптомные данные секвенирования и/илиреференсные последовательности генов и геномов. При наличиитранскриптомных данных возможно уточнение предсказания генов и аннотациинетранслируемых областей при помощи

PASA (Haas et al., 2008).После предсказания белок-кодирующих генов проводится их функциональнаяаннотация: идентификация доменов

Pfam , семейств CAZYmes

SignalP (Almagro Armenteros et al., 2019),определение семейств протеаз базы

MEROPS и принадлежность к группамортологичных генов

BUSCO . Дополнительно может быть проведена аннотация спомощью

InterProScan5 , которая включает присвоение терминов InterPro,онтологии GO и поиск транскрипционных факторов. Если eggNOG-mapper (Huerta-Cepas J. et al, 2017) установлен локально, то аннотации eggNOG и COG также могут быть добавлены к функциональной аннотации. Предсказание генов,отвечающих за вторичные метаболиты может быть проведено с использованием antiSMASH (https://antismash.secondarymetabolites.org/; Blin et al., 2019).Результатом работы funannotate является набор файлов популярныхбиоинформатических форматов, в том числе геномная аннотация в форматеGenBank. Как и в случае

FunGAP , funannotate реализован на интерпретируемомязыке Python 2.7, что ограничивает возможности его дальнейшей поддержки вслучае обновление внутренних пакетов и их, как следствие, их несовместимости. oReAn (Cook et al., 2019) — это набор инструментов, который используеттранскриптомные прочтения, полученные с использованием технологийсеквенирования Oxford Nanopore и Pacific Biosciences, для повышения качествапредсказания белок-кодирующих генов. LoReAn обеспечивает повышеннуюточность аннотации, объединяя данные траснкриптомного секвенирования сприменением разных платформ секвенирования, референсные аминокислотныепоследовательности и результаты ab initio предсказания генов. Обработка данныхпроисходит в два этапа:Первый этап с небольшими модификациями соответствует инструменту

BAP (Haas et al., 2011). В качестве дополнительных данных могут использоватьсяпоследовательности генов близких видов и видовое название референсной моделидля инструмента

AUGUSTUS . РНК-прочтения используются для предсказаниягенов при помощи

Braker (Hoff et al., 2016),

AUGUSTUS и GeneMark-ES/ET .Кроме того прочтения используются для сборки транскриптов при помощи

Trinity (Grabherr et al., 2011). Полученные транскрипты выравниваются на геномпри помощи

PASA (Haas et al., 2008) и

GMAP (Wu & Watanabe, 2005).

EVidenceModeler (Haas et al., 2008) используется для объединения данных всехметодов предсказания.На втором этапе длинные прочтения картируют при помощи

GMAP . Регионы,отвечающие экзонам определяются при помощи gffread , и, объединяя с даннымипервого этапа, кластеризуют и проводят реконструкцию транскриптов припомощи bedtools и iAssembler . Заключительную верификацию транскриптовпроводят при помощи GMAP и PASA . Инструменты онлайн-аннотацииNCBI Eukaryotic Genome Annotation Pipeline (Thibaud-Nissen et al., 2013) — этоавтоматизированный конвейер, который осуществляет аннотацию полныхгеномов и предварительных геномных сборок. Конвейер использует модульнуюструктуру для выполнения всех задач аннотации, начиная с выборкинеобработанных и курируемых данных, с предпочтением последних, изобщедоступных баз данных (

NCBI

RefSeq , NCBI

GenBank , SwissProt , TSA , bEST и NCBI

SRA ), путем выравнивания последовательностей и предсказаниягенов, до конечной аннотации для публичных баз данных. Основными компонентами конвейера являются программы выравнивания

Splign (Kapustin et al., 2008) и

ProSplign (Kiryutin et al., 2007) и программа предсказаниягенов

Gnomon (Souvorov et al, 2010), объединяющая информацию извыравниваний экспериментальных данных и из моделей, созданных ab initio спомощью алгоритма на основе скрытых марковских моделей. Повторыпредварительно маскируют при помощи

RepeatMasker и WindowMasker (Morgulis et al., 2006). Аннотация РНК включает поиск микроРНК при помощибазы данных miRBase и Splign , тРНК при помощи tRNAscan-SE , рРНК и малыхядерных и ядрышковых РНК при помощи базы данных

Rfam с использованиемcmsearch из пакета

Infernal . На середину 2020 года посредством NCBI EGAPбыло аннотировано 659 геномов.

YGAP ( http://wolfe.ucd.ie/annotation/; Proux-Wéra E. et al. 2012) является онлайнинструментом аннотации геномных последовательностей дрожжей. YGAP использует существующие аннотированные геномы родственных видов дрожжей,для переноса структурных и функциональных аннотации генома с помощью

TBLASTN . Аннотации генов тРНК выполняется при помощи tRNAScan-SE сиспользованием настроек по умолчанию.

YGAP подходит для работы споследовательностями генома дрожжей прошедших и не прошедшихполногеномную дупликацию.

Входными данными является сборка генома вформате FASTA, содержащая не более 702 последовательностей, что исключаетиз анализа сильно фрагментированные предварительные сборки геномов,полученные из коротких прочтений. Дополнительно можно предоставить файл спрочтениями в формате FASTA, используемый для коррекции сдвигов рамкисчитывания, однако максимальный размер загружаемых файлов составляет 500МБ, что ограничивает использование прочтений высокопроизводительногосеквенирования, в частности полученных по технологии Illumina.Помимо непосредственной аннотации

YGAP генерирует несколько спискомгенов определенных категорий, которые позволяют судить о качестве генома: (1)ниверсальные гены дрожжевых геномов (Gordon et al., 2009) не найденные ванализируемом геноме, (2) гены длиной более 150 а.к., не имеющиеаннотированных гомологов, (3) значительно отличающие гомологи,определенные анализом синтении при помощи

SearchDOGS (ÓhÉigeartaigh et al.,2011), (4) гены, не входящие в пространственные кластеры

YGOB (Yeast GeneOrder Browser): гены, уникальные для вида или рода, дуплицированные гены,гены, полученные в ходе горизонтального переноса генов и др.Другим примером веб-платформы для структурной и функциональной аннотациигенома является

GenSAS (The

Gen ome S equence A nnotation S JBrowse (Ruels et al., 2016) и

Apollo (Lee E. et al., 2013). Пользователимогут просматривать данные аннотаций и вручную создавать модели генов сиспользованием графического интерфейса, сопровождаемого подсказками иинструкциями. В качестве дополнительных данных пользователи могут загружатьпоследовательности специфических для организма транскриптов и белков, атакже транскриптомные данные для дальнейшего использования в процессеаннотирования. Проекты аннотирования геномов могут использоваться совместнос другими пользователями

GenSAS , обеспечивая возможность совместнойаннотации. Основные этапы аннотации

GenSAS включают: (1) идентификацию имаскирование повторов, (2) выравнивание доступных (публичных иподгруженных пользователем) данных на геном, (3) структурную аннотацию, (4)функциональную аннотацию белок-кодирующих генов, (5) дополнительноеручное редактирование генных моделей и создание окончательных файлованнотаций. По завершении аннотации

GenSAS генерирует файлы геномнойаннотации в общераспространенных форматах.

Инструменты оценки полноты геномных сборок

Помимо непосредственно аннотации геномных последовательностей дляисследователя важно понимать насколько качественной геномной сборкой онасполагает. Помимо количественных метрик, таких как число контигов илискафолдов, N50, L50, N90, L90 важна информация о полноте и контаминациигенома. Ниже мы рассмотрим несколько инструментов, позволяющих провестианализ полноты и контаминации генома.

BUSCO — B enchmarking sets of U niversal S ingle- C opy O rthologs (Seppey et al.,2019) — инструмент для оценки полноты генома по наборам маркерных генов избазы OrthoDB

SEPP (https://github.com/smirarab/sepp). Приуказании таксона требуемые базы данных будут автоматически скачаны, если онине были загружены ранее.

BUSCO присваивает каждому маркерному гену одно изчетырёх состояний: полный и однокопийный, полный и многокопийный,фрагментированный или отсутствующий и выводит финальную статистику окачестве анализируемых данных.

DOGMA — это инструмент для оценки полноты протеома и транскриптома наосновании последовательностей консервативных белковых доменов впредсказанных белок-кодирующих генах(https://domainworld.uni-muenster.de/programs/dogma/; Dohmen et al., 2016). Дляоценки полноты генома используются наборы моделей из базы

Pfam дляследующих групп организмов: эукариоты, позвоночные, млекопитающие,членистоногие, насекомые, растения, двудольные (эвдикоты), однодольные(монокоты), грибы, бактерии, археи. Кроме того, пользователь может создаватьсобственные наборы генов. Для аннотирования доменов может применяться дваинструмента на выбор:

Pfam_scan.pl (скрипт на языке Perl), либо

RADIANT (https://domainworld.uni-muenster.de/programs/radiant/), второй вариант позволяетскорить обработку данных за счёт подгрузки базы в оперативную память(используется около 3 ГБ). Программа может быть использована онлайнhttps://domainworld-services.uni-muenster.de/dogma/, либо быть установленалокально. Исходный код написан на языке Python и доступен онлайн.

FGMP (Fungal Genome Mapping Pipeline) представляет собой инструмент дляоценки полноты геномов грибов, реализованный на Perl (Cissé & Stajich, 2019).

FGMP проводит анализ на основании 593 генов и 31 высококонсервативногогеномного сегмента. Обработка данных происходит в три этапа:1. Поиск однокопийных маркерных генов при помощи

EXONERATE ,инструментов sixpack и csplit из пакета EMBOSS (Rice et al., 2000) споследующим предсказанием белок-кодирующих генов при помощи

AUGUSTUS и валидацией результата при помощи pHMMER (Eddy, 2011).2. Определение представленности длинных консервативных некодирующихпоследовательностей ДНК, характерных для грибов при помощи nHMMER (Eddy, 2011).3. Определение числа копий многокопийных белков при помощи pHMMER для оценки ошибок сборки, таких как объединение повторяющихсярегионов в один.Стоит отметить, что при помощи данного инструмента возможен анализполноты генома на основании геномных прочтений, реализуемый при помощи

NCBI BLASTX . Заключение

На сегодняшний день большинство доступных инструментов аннотацииэукариотических геномов обладают существенными недостатками, средикоторых: - неполный спектр реализуемых задач структурной и функциональнойаннотации - высокая специфичность для узкого спектра организмов необходимость предоставление специфических данных, например,протеомов близкородственных организмов или данных транскриптомногосеквенирования - особенности лицензирования, ограничивающие использование или доступк исходному коду - использование неактуальных и неподдерживаемых версийинтерпретаторов языков программирования. - сложность установки соответствующих версий всех необходимыхзависимостейПо рассмотрении всего спектра программ стоит выделить два актуальных исвободно доступных инструмента: BRAKER2 — программный пакет длякомбинированного предсказания белок-кодирующих последовательностей и

Funannotate , который обладает большой гибкостью в используемых входныхданных и сочетает значительный набор инструментов для структурной ифункциональной аннотации белок-кодирующих генов и некодирующих РНК.

Благодарности

Данная работа была проведена при поддержке Министерства высшегообразования и науки Российской Федерации в рамках создания Центра геномныхисследований мирового уровня “Курчатовский геномный центр”, Соглашение №075-15-2019-1659 от 31 октября 2019 года.

Конфликт интересов

Авторы заявляют об отсутствии конфликта интересов.

Conflict of interest

The authors declare no conflict of interest.