Визуализация данных секвенирования РНК
Визуализа́ция да́нных секвени́рования РНК — способ визуального представления данных, полученных с помощью РНК-секвенирования (RNA-seq) в наглядной форме, с помощью которого можно увидеть картирование полученных чтений на геном и анализировать уровень экспрессии гена. Существует множество программ, позволяющих осуществить визуализацию.
РНК-секвенирование
РНК-секвенирование (RNA-seq) — технология, позволяющая определять последовательности молекул РНК, причём как кодирующих мРНК, так и некодирующих РНК. В основе метода лежит использование технологии секвенирования нового поколения NGS, которая позволяет устанавливать фрагменты кДНК (комплементарной ДНК), в которую предварительно переводят выделенную из биологического образца РНК[1]. С разработкой методов NGS стало возможным проще проводить анализ транскриптома, в том числе и транскриптома отдельной клетки, что было ранее невозможно при применении более старого способа с использованием ДНК-микрочипов[2][3]. Помимо мРНК данная технология позволяет также исследовать миРНК, тРНК и рРНК[4].
Подготовка и картирование данных секвенирования РНК
Получив «сырые» данные секвенирования РНК одним из методов NGS, их прежде всего нужно подготовить: удалить плохие по качеству прочтения и обрезать у оставшихся края, содержащие ошибки и последовательности адаптеров, чтобы в итоге получились последовательности длиной примерно 50 нуклеотидов с высоким показателем качества. Стандартной программой для выполнения подобной коррекции является Trimmomatic. Она разработана для операционной системы Linux и запускается из командной строки[5].
Для проверки качества часто пользуются программой FastQC, которая обращает внимание на несколько критериев, таких как распределение качества прочтенных остатков и процент встречаемости нуклеотидов каждого типа в зависимости от их положения, а также распределение последовательностей по их среднему качеству и GC-составу. Одним из важных показателей является процент уникальных последовательностей (то есть тех, что присутствуют в наборе данных с минимальной степенью дубликации), так как их содержание < 50 % говорит о переамплификации образцов на финальном этапе подготовки, что приводит к потере детекции мРНК, присутствующих в клетках в небольших количествах[6]. Если уровень качества прочтений в целом неудовлетворительный, то повторно проводят коррекцию и чистку «сырых» данных. Если же результаты оказались удовлетворительными, то данные картируют на референсный геном для оценки того, как именно получившиеся прочтения (риды, англ. reads) распределены[7].
Для этого существует также огромное количество программ в зависимости от поставленной задачи. Все их можно разделить на две части: для сборки de novo (например Trinity[8], SOAPdenovo-Trans[9], Rnnotator[10] и Trans-ABySS[11]) и для сборки при наличии референсного генома (например STAR[12], Bowtie2[13], TopHat[14] и BWA[15]). После картирования также необходимо проверить качество получившихся выравниваний такими программами, как Picard[16], RNA-SeQC[17], FasrQC[6] и RSeQC[18]. Здесь одним из наиболее важных параметров является процент откартировавшихся прочтений, который отражает точность секвенирования. В норме для генома человека он должен составлять не менее 70 % от всех ридов. Другим ключевым показателем является процент уникальных последовательностей, то есть тех, что специфически откартировались на геном (в одно конкретное место). Если он больше или равен 30 %, можно утверждать, что полученные данные достоверны. И только после того, как очищенные и картированные данные с РНК-секвенирования пройдут последний контроль качества, можно приступать к их нормировке и визуализации[7].
Визуализация данных секвенирования РНК
Данные, получаемые в результате секвенирования РНК, очень велики, могут достигать гига- и терабайтов. Для того, чтобы любой желающий мог визуализировать данные, выложенные в открытом доступе или полученные в своей лаборатории, и существуют программы-визуализаторы. Они позволяют увидеть неровное покрытие, в то время как компьютерные численные методы анализа данных РНК-секвенирования предполагают, что покрытие транскрипта чтениями более-менее равномерное или зависит от нескольких факторов (таких как mappability, GC-содержание), однако это не всегда так. Помимо этого, использование данных программ позволяет подготавливать качественные изображения, приемлемые для использования в научных статьях[19].
Визуализация данных РНК-секвенирования также упрощает процесс анализа качества данных, уровня дифференциальной экспрессии генов, поиск альтернативного сплайсинга и однонуклеотидных полиморфизмов. Все существующие на данный момент программы-визуализаторы можно подразделить на три типа[20]:
- Геномные браузеры. Это онлайн-серверы, позволяющие загружать данные и обращаться к уже существующим (в открытом доступе), например, UCSC Genome Browser и Zenbu.
- Автономные приложения. Устанавливаются на пользовательский компьютер или локальный сервер. Централизованно хранят большое количество данных. Например, Integrative Genomics Viewer, Integrated Genome Browser с графическим пользовательским интерфейсом и ASCIIGenome с запуском из консоли.
- Гибридные программы. Предоставляют функциональность геномных браузеров как в виде онлайн-сервера, так и в виде автономного приложения. Типичный пример: BioUML.
Программы для визуализации данных секвенирования РНК
Программа Integrative Genomics Viewer (IGV) была разработана в Broad Institute в 2011 году[21]. Integrative Genomics Viewer позволяет интуитивно в реальном времени исследовать крупномасштабные наборы геномных данных через настольное Java-приложение, веб-приложение IGV-Web, а также igv.js — компонент JavaScript, который может быть встроен в веб-страницы[22]. IGV может быть использован на компьютерах с операционными системами Windows, Mac и Linux, а также на iPad. Эта программа представляет собой мощный инструмент не только для визуализации данных РНК-секвенирования, но и для просмотра других данных секвенирования нового поколения, а также данных, полученных с помощью секвенирования на чипах. Он поддерживает гибкую интеграцию широкого спектра типов геномных данных, включая чтение выравненных последовательностей, мутации, копийность, RNAi-скрины, экспрессию генов, метилирование и геномные аннотации[23].
Использовать данную программу можно при необходимости анализировать данные загруженные как из локальных, так и из удаленных источников, включая облачные ресурсы, что позволяет исследователям просматривать свои собственные наборы геномных данных вместе с общедоступными данными. Так как основная проблема работы с геномными данными это их размер, был использован подход, основанный на предварительной обработке данных в различных масштабах. Была разработана пирамидальная структура данных (так называемая data tiling), позволяющая тратить минимум памяти. Для IGV был также разработан специальный файловый формат TDF (англ. tiled data format)[24]. Для обработки данных RNA-seq рекомендуются форматы TDF и WIG, однако, помимо этих, дополнительно поддерживаются неиндексированные форматы, такие как GFF и BED, индексированные форматы, такие как BAM и Goby, а также форматы файлов с различным разрешением: bigWig и bigBed[23].
Программа в своём функционале имеет возможность масштабирования и перемещения по геному на любом уровне детализации — от целого генома до пары оснований. В зависимости от масштаба IGV будет отображать различные параметры, такие как покрытие, выравнивание и т. д. До загрузки данных необходимо сперва загрузить референсный геном, который можно выбрать либо из представленных самим IGV, либо импортировать из вне. Для анализа данных выравниваний используется цветовая кодировка, а также уровень прозрачности, что позволяет удобным образом выявлять однонуклеотидные полиморфизмы. Помимо этого, существуют инструменты для идентификации повторов, вставок, делеций и т. д. Предусмотрена возможность взаимодействия с Matlab и программами Microsoft Office[21].
Sashimi Plot — утилита, позволяющая визуализировать данные анализа РНК-секвенирования для изучения экспрессии изоформ. Данная программа начала разрабатываться в 2011 году и является частью проекта MISO (Mixture of ISOforms), который занимается проблемами альтернативного сплайсинга в данных РНК-секвенирования[25].
Sashimi Plot можно запускать из командной строки, установив пакет MISO, или использовать через IGV[25]. Программа принимает на вход сырые данные, и строит распределения результатов RNA-seq вокруг экзонов для нескольких выборок, одновременно визуализируя модель гена, на который картируются риды[26].
Sashimi Plot позволяет строить графики, отражающие уровень экспрессии экзонов и их возможные соединения. Благодаря этому можно сформировать предположения о возможной структуре изоформ гена, а также синтезировать графики распределения длин вставок. Также он показывает оценки MISO для рассматриваемых событий и способен совмещать несколько образцов на одном и том же рисунке. Утилита позволяет создавать изображения, готовые к публикации, и разрешает сохранять картинки в нескольких форматах (включая PDF и PNG)[25].
Tablet — программа-визуализатор геномных данных, позволяющая просматривать данные РНК-секвенирования. Данная программа написана на Java и доступна на компьютерах с операционными системами Windows, Mac и Linux, поддерживает цветовую кодировку для построения выравниваний и форматы данных ACE, AFG, MAQ, SOAP2, SAM, BAM, FASTA, FASTQ и GFF3. Tablet была разработана специально для обработки данных, получаемых с помощью технологий второго поколения секвенирования в 2009 году[27]. Последняя версия программы была выпущена в 2017 году[28].
Tablet позволяет сопоставлять транскриптомные данные с референсным геномом для оценки существующих моделей генов, например границ интронов и экзонов в эукариотах. Программа позволяет визуально оценивать вероятность альтернативного сплайсинга, а также может использоваться для поиска SNP (однонуклеотидных полиморфизмов) на основании данных RNA-seq[29].
RNAseqViewer предназначена для визуализации одного или нескольких образцов РНК-секвенирования. Программа была разработана в 2013 году. Она доступна на трех языках (английский, китайский или французский) и совместима с операционными системами Windows, Ubuntu, Debian, а также возможен запуск через консоль[30].
Основная задача — визуализация уровня экспрессии генов и альтернативного сплайсинга. Интерфейс позволяет плавно перемещаться по геному с помощью мыши, клавиатуры или кнопок управления программы, также возможно обращение к конкретной точке генома через координаты или название гена[19].
Программа имеет инновационный подход к представлению транскрипционных данных. На вход программа принимает 7 типов файловых форматов. В зависимости от формата программа может визуализировать тепловую карту (SAM/BAM), связи между ридами (BED), нуклеотиды (FASTA), аннотацию генов (RefFlat/GTF) и гистограмму экспрессии (Wiggle), а также позволяет осуществлять просмотр всего транскриптома (GFF). Программа предоставляет возможность экспортировать данные во множество различных форматов, в том числе и PDF[19].
Integrated Genome Browser (IGB) — программа, разработанная компанией Affymetrix в 2004 году, позволяющая просматривать данные РНК-секвенирования и ChIP-секвенирования вдоль аннотации генома[31]. IGB была создана на основе Java библиотеки Genoviz SDK, она совместима с операционными системами UNIX, Linux, Mac и Windows[32].
CBrowse — инструмент для визуализации и анализа, основанный на использовании форматов SAM или BAM. Программа была разработана в лаборатории Liang в 2012 году[33]. На официальном сайте можно скачать программу, а также найти видеоролик об ее установке и использовании, инструкцию и примеры вывода каждой команды. На вход программе необходимо передать файл с последовательностью контигов, а также соответствующий SAM/BAM файл. Она обрабатывает входные данные, проводит поиск однонуклеотидных полиморфизмов и повторов, создает изображение, JSON-, MySQL-совместимые файлы, которые могут быть использованы в других программах[34].
Непосредственно за визуализацию отвечает программа Alignment Viewer, которая позволяет визуализировать выравнивание последовательностей в различном масштабе (от просмотра целых последовательностей до отдельных нуклеотидов), причём с различной цветовой кодировкой различий в нуклеотидных позициях[34].
Помимо этого существует еще 4 инструмента для анализа[34]:
- Contig viewer — программа для просмотра контигов, предоставляет общую информацию о сборке, также как и об индивидуальном контиге.
- Sequence viewer — программа-просмотрщик, позволяет пользователям искать нуклеотидные последовательности в контигах.
- Polymorphism Viewer — программа, предназначенная для поиска полиморфизмов (однонуклеотидные полиморфизмы, а также одиночные вставки/делеции и другие полиморфизмы), она показывает их координаты и частоту в каждом контиге.
- SSR Viewer — программа, обеспечивающая поиск простых повторов в последовательности в каждом контиге (повтор с размером 1-12 нуклеотидов, причём как с идеальным соответствием, так и с неполным совпадением).
svist4get — программа для визуализации данных высокопроизводительного секвенирования, в том числе RNA-seq. Разработана в 2019 году. Поддерживается операционной системой Linux. Сама программа написана на языке программирования Python 3 и позволяет получать наглядные изображения для публикации в научных журналах[20].
svist4get можно использовать как инструмент командной строки, а также в режиме API. Инструмент использует визуализацию в векторной графике и поддерживает широкую кастомизацию. Удобен еще и тем, что позволяет на одном изображении отобразить данные из разных биологических образцов и полученные разными методами[20].
- Artemis — геномный браузер и программа для аннотирования, визуализирующая данные РНК-секвенирования и позволяющая просмотреть белковую последовательность в 6 возможных рамках считывания. Написана на языке программирования Java и устанавливается на операционные системы UNIX, Macintosh и Windows[35].
- Apollo — программа для визуализации и аннотирования, удобна для использования несколькими людьми — позволяет синхронизировать данные между ними[36].
- BamView — позволяет просматривать BAM-файлы[37].
- Degust — интерактивный инструмент для визуализации данных дифференциальной экспрессии генов. Он не показывает, как именно прочтения откартировались на референсный геном, но позволяет наглядно по спектру показателей изучить полученные данные. Работает с входными данными в CSV формате[38].
- GBrowse — пакет программ, которые позволяют визуализировать данные и анализировать их. Позволяет на одном экране одновременно отображать как расположение интересующего участка на хромосоме, так и более детальное покрытие интересующего участка ридами, а также расположение полиморфизмов и GC-состав[39].
- GenomeView — автономная программа визуализатор и редактор, позволяющая работать с множеством форматов файлов[40].
- Tbrowse — простой, интуитивно понятный автономный браузер для визуализации данных РНК-секвенирования. Написан на языке программирования Java. Последнее обновление было в 2010 году[41].
- Savant — автономный инструмент для визуализации данных высокопроизводительного секвенирования (в том числе и РНК-секвенирования). Функционал визуализации минимален, пригоден для личного пользования, но не для публикаций[42].
- Gviz и ggbio — пакеты на языке программирования R, которые позволяют генерировать картинки по данным РНК-секвенирования, пригодные для публикации в научных журналах[43][44].
- fluff и ngs.plot — утилиты, запускаемые с командной строки. Предоставляют расширенный функционал для анализа данных, но минималистичные возможности визуализации конкретных сегментов генома[45][46].


