Визуализация данных секвенирования РНК

Визуализа́ция да́нных секвени́рования РНК — способ визуального представления данных, полученных с помощью РНК-секвенирования (RNA-seq) в наглядной форме, с помощью которого можно увидеть картирование полученных чтений на геном и анализировать уровень экспрессии гена. Существует множество программ, позволяющих осуществить визуализацию.

РНК-секвенирование

РНК-секвенирование (RNA-seq) — технология, позволяющая определять последовательности молекул РНК, причём как кодирующих мРНК, так и некодирующих РНК. В основе метода лежит использование технологии секвенирования нового поколения NGS, которая позволяет устанавливать фрагменты кДНК (комплементарной ДНК), в которую предварительно переводят выделенную из биологического образца РНК[1]. С разработкой методов NGS стало возможным проще проводить анализ транскриптома, в том числе и транскриптома отдельной клетки, что было ранее невозможно при применении более старого способа с использованием ДНК-микрочипов[2][3]. Помимо мРНК данная технология позволяет также исследовать миРНК, тРНК и рРНК[4].

Подготовка и картирование данных секвенирования РНК

Получив «сырые» данные секвенирования РНК одним из методов NGS, их прежде всего нужно подготовить: удалить плохие по качеству прочтения и обрезать у оставшихся края, содержащие ошибки и последовательности адаптеров, чтобы в итоге получились последовательности длиной примерно 50 нуклеотидов с высоким показателем качества. Стандартной программой для выполнения подобной коррекции является Trimmomatic. Она разработана для операционной системы Linux и запускается из командной строки[5].

Для проверки качества часто пользуются программой FastQC, которая обращает внимание на несколько критериев, таких как распределение качества прочтенных остатков и процент встречаемости нуклеотидов каждого типа в зависимости от их положения, а также распределение последовательностей по их среднему качеству и GC-составу. Одним из важных показателей является процент уникальных последовательностей (то есть тех, что присутствуют в наборе данных с минимальной степенью дубликации), так как их содержание < 50 % говорит о переамплификации образцов на финальном этапе подготовки, что приводит к потере детекции мРНК, присутствующих в клетках в небольших количествах[6]. Если уровень качества прочтений в целом неудовлетворительный, то повторно проводят коррекцию и чистку «сырых» данных. Если же результаты оказались удовлетворительными, то данные картируют на референсный геном для оценки того, как именно получившиеся прочтения (риды, англ. reads) распределены[7].

Для этого существует также огромное количество программ в зависимости от поставленной задачи. Все их можно разделить на две части: для сборки de novo (например Trinity[8], SOAPdenovo-Trans[9], Rnnotator[10] и Trans-ABySS[11]) и для сборки при наличии референсного генома (например STAR[12], Bowtie2[13], TopHat[14] и BWA[15]). После картирования также необходимо проверить качество получившихся выравниваний такими программами, как Picard[16], RNA-SeQC[17], FasrQC[6] и RSeQC[18]. Здесь одним из наиболее важных параметров является процент откартировавшихся прочтений, который отражает точность секвенирования. В норме для генома человека он должен составлять не менее 70 % от всех ридов. Другим ключевым показателем является процент уникальных последовательностей, то есть тех, что специфически откартировались на геном (в одно конкретное место). Если он больше или равен 30 %, можно утверждать, что полученные данные достоверны. И только после того, как очищенные и картированные данные с РНК-секвенирования пройдут последний контроль качества, можно приступать к их нормировке и визуализации[7].

Визуализация данных секвенирования РНК

Данные, получаемые в результате секвенирования РНК, очень велики, могут достигать гига- и терабайтов. Для того, чтобы любой желающий мог визуализировать данные, выложенные в открытом доступе или полученные в своей лаборатории, и существуют программы-визуализаторы. Они позволяют увидеть неровное покрытие, в то время как компьютерные численные методы анализа данных РНК-секвенирования предполагают, что покрытие транскрипта чтениями более-менее равномерное или зависит от нескольких факторов (таких как mappability, GC-содержание), однако это не всегда так. Помимо этого, использование данных программ позволяет подготавливать качественные изображения, приемлемые для использования в научных статьях[19].

Визуализация данных РНК-секвенирования также упрощает процесс анализа качества данных, уровня дифференциальной экспрессии генов, поиск альтернативного сплайсинга и однонуклеотидных полиморфизмов. Все существующие на данный момент программы-визуализаторы можно подразделить на три типа[20]:

  • Геномные браузеры. Это онлайн-серверы, позволяющие загружать данные и обращаться к уже существующим (в открытом доступе), например, UCSC Genome Browser и Zenbu.
  • Автономные приложения. Устанавливаются на пользовательский компьютер или локальный сервер. Централизованно хранят большое количество данных. Например, Integrative Genomics Viewer, Integrated Genome Browser с графическим пользовательским интерфейсом и ASCIIGenome с запуском из консоли.
  • Гибридные программы. Предоставляют функциональность геномных браузеров как в виде онлайн-сервера, так и в виде автономного приложения. Типичный пример: BioUML.

Программы для визуализации данных секвенирования РНК

Integrative Genomics Viewer

Программа Integrative Genomics Viewer (IGV) была разработана в Broad Institute в 2011 году[21]. Integrative Genomics Viewer позволяет интуитивно в реальном времени исследовать крупномасштабные наборы геномных данных через настольное Java-приложение, веб-приложение IGV-Web, а также igv.js — компонент JavaScript, который может быть встроен в веб-страницы[22]. IGV может быть использован на компьютерах с операционными системами Windows, Mac и Linux, а также на iPad. Эта программа представляет собой мощный инструмент не только для визуализации данных РНК-секвенирования, но и для просмотра других данных секвенирования нового поколения, а также данных, полученных с помощью секвенирования на чипах. Он поддерживает гибкую интеграцию широкого спектра типов геномных данных, включая чтение выравненных последовательностей, мутации, копийность, RNAi-скрины, экспрессию генов, метилирование и геномные аннотации[23].

Использовать данную программу можно при необходимости анализировать данные загруженные как из локальных, так и из удаленных источников, включая облачные ресурсы, что позволяет исследователям просматривать свои собственные наборы геномных данных вместе с общедоступными данными. Так как основная проблема работы с геномными данными это их размер, был использован подход, основанный на предварительной обработке данных в различных масштабах. Была разработана пирамидальная структура данных (так называемая data tiling), позволяющая тратить минимум памяти. Для IGV был также разработан специальный файловый формат TDF (англ. tiled data format)[24]. Для обработки данных RNA-seq рекомендуются форматы TDF и WIG, однако, помимо этих, дополнительно поддерживаются неиндексированные форматы, такие как GFF и BED, индексированные форматы, такие как BAM и Goby, а также форматы файлов с различным разрешением: bigWig и bigBed[23].

Программа в своём функционале имеет возможность масштабирования и перемещения по геному на любом уровне детализации — от целого генома до пары оснований. В зависимости от масштаба IGV будет отображать различные параметры, такие как покрытие, выравнивание и т. д. До загрузки данных необходимо сперва загрузить референсный геном, который можно выбрать либо из представленных самим IGV, либо импортировать из вне. Для анализа данных выравниваний используется цветовая кодировка, а также уровень прозрачности, что позволяет удобным образом выявлять однонуклеотидные полиморфизмы. Помимо этого, существуют инструменты для идентификации повторов, вставок, делеций и т. д. Предусмотрена возможность взаимодействия с Matlab и программами Microsoft Office[21].

Sashimi Plot

Sashimi Plot — утилита, позволяющая визуализировать данные анализа РНК-секвенирования для изучения экспрессии изоформ. Данная программа начала разрабатываться в 2011 году и является частью проекта MISO (Mixture of ISOforms), который занимается проблемами альтернативного сплайсинга в данных РНК-секвенирования[25].

Sashimi Plot можно запускать из командной строки, установив пакет MISO, или использовать через IGV[25]. Программа принимает на вход сырые данные, и строит распределения результатов RNA-seq вокруг экзонов для нескольких выборок, одновременно визуализируя модель гена, на который картируются риды[26].

Sashimi Plot позволяет строить графики, отражающие уровень экспрессии экзонов и их возможные соединения. Благодаря этому можно сформировать предположения о возможной структуре изоформ гена, а также синтезировать графики распределения длин вставок. Также он показывает оценки MISO для рассматриваемых событий и способен совмещать несколько образцов на одном и том же рисунке. Утилита позволяет создавать изображения, готовые к публикации, и разрешает сохранять картинки в нескольких форматах (включая PDF и PNG)[25].

Tablet

Tablet — программа-визуализатор геномных данных, позволяющая просматривать данные РНК-секвенирования. Данная программа написана на Java и доступна на компьютерах с операционными системами Windows, Mac и Linux, поддерживает цветовую кодировку для построения выравниваний и форматы данных ACE, AFG, MAQ, SOAP2, SAM, BAM, FASTA, FASTQ и GFF3. Tablet была разработана специально для обработки данных, получаемых с помощью технологий второго поколения секвенирования в 2009 году[27]. Последняя версия программы была выпущена в 2017 году[28].

Tablet позволяет сопоставлять транскриптомные данные с референсным геномом для оценки существующих моделей генов, например границ интронов и экзонов в эукариотах. Программа позволяет визуально оценивать вероятность альтернативного сплайсинга, а также может использоваться для поиска SNP (однонуклеотидных полиморфизмов) на основании данных RNA-seq[29].

RNAseqViewer

RNAseqViewer предназначена для визуализации одного или нескольких образцов РНК-секвенирования. Программа была разработана в 2013 году. Она доступна на трех языках (английский, китайский или французский) и совместима с операционными системами Windows, Ubuntu, Debian, а также возможен запуск через консоль[30].

Основная задача — визуализация уровня экспрессии генов и альтернативного сплайсинга. Интерфейс позволяет плавно перемещаться по геному с помощью мыши, клавиатуры или кнопок управления программы, также возможно обращение к конкретной точке генома через координаты или название гена[19].

Программа имеет инновационный подход к представлению транскрипционных данных. На вход программа принимает 7 типов файловых форматов. В зависимости от формата программа может визуализировать тепловую карту (SAM/BAM), связи между ридами (BED), нуклеотиды (FASTA), аннотацию генов (RefFlat/GTF) и гистограмму экспрессии (Wiggle), а также позволяет осуществлять просмотр всего транскриптома (GFF). Программа предоставляет возможность экспортировать данные во множество различных форматов, в том числе и PDF[19].

Integrated Genome Browser

Integrated Genome Browser (IGB) — программа, разработанная компанией Affymetrix в 2004 году, позволяющая просматривать данные РНК-секвенирования и ChIP-секвенирования вдоль аннотации генома[31]. IGB была создана на основе Java библиотеки Genoviz SDK, она совместима с операционными системами UNIX, Linux, Mac и Windows[32].

CBrowse

CBrowse — инструмент для визуализации и анализа, основанный на использовании форматов SAM или BAM. Программа была разработана в лаборатории Liang в 2012 году[33]. На официальном сайте можно скачать программу, а также найти видеоролик об ее установке и использовании, инструкцию и примеры вывода каждой команды. На вход программе необходимо передать файл с последовательностью контигов, а также соответствующий SAM/BAM файл. Она обрабатывает входные данные, проводит поиск однонуклеотидных полиморфизмов и повторов, создает изображение, JSON-, MySQL-совместимые файлы, которые могут быть использованы в других программах[34].

Непосредственно за визуализацию отвечает программа Alignment Viewer, которая позволяет визуализировать выравнивание последовательностей в различном масштабе (от просмотра целых последовательностей до отдельных нуклеотидов), причём с различной цветовой кодировкой различий в нуклеотидных позициях[34].

Помимо этого существует еще 4 инструмента для анализа[34]:

  • Contig viewer — программа для просмотра контигов, предоставляет общую информацию о сборке, также как и об индивидуальном контиге.
  • Sequence viewer — программа-просмотрщик, позволяет пользователям искать нуклеотидные последовательности в контигах.
  • Polymorphism Viewer — программа, предназначенная для поиска полиморфизмов (однонуклеотидные полиморфизмы, а также одиночные вставки/делеции и другие полиморфизмы), она показывает их координаты и частоту в каждом контиге.
  • SSR Viewer — программа, обеспечивающая поиск простых повторов в последовательности в каждом контиге (повтор с размером 1-12 нуклеотидов, причём как с идеальным соответствием, так и с неполным совпадением).

svist4get

svist4get — программа для визуализации данных высокопроизводительного секвенирования, в том числе RNA-seq. Разработана в 2019 году. Поддерживается операционной системой Linux. Сама программа написана на языке программирования Python 3 и позволяет получать наглядные изображения для публикации в научных журналах[20].

svist4get можно использовать как инструмент командной строки, а также в режиме API. Инструмент использует визуализацию в векторной графике и поддерживает широкую кастомизацию. Удобен еще и тем, что позволяет на одном изображении отобразить данные из разных биологических образцов и полученные разными методами[20].

Другие

  • Artemis — геномный браузер и программа для аннотирования, визуализирующая данные РНК-секвенирования и позволяющая просмотреть белковую последовательность в 6 возможных рамках считывания. Написана на языке программирования Java и устанавливается на операционные системы UNIX, Macintosh и Windows[35].
  • Apollo — программа для визуализации и аннотирования, удобна для использования несколькими людьми — позволяет синхронизировать данные между ними[36].
  • BamView — позволяет просматривать BAM-файлы[37].
  • Degust — интерактивный инструмент для визуализации данных дифференциальной экспрессии генов. Он не показывает, как именно прочтения откартировались на референсный геном, но позволяет наглядно по спектру показателей изучить полученные данные. Работает с входными данными в CSV формате[38].
  • GBrowse — пакет программ, которые позволяют визуализировать данные и анализировать их. Позволяет на одном экране одновременно отображать как расположение интересующего участка на хромосоме, так и более детальное покрытие интересующего участка ридами, а также расположение полиморфизмов и GC-состав[39].
  • GenomeView — автономная программа визуализатор и редактор, позволяющая работать с множеством форматов файлов[40].
  • Tbrowse — простой, интуитивно понятный автономный браузер для визуализации данных РНК-секвенирования. Написан на языке программирования Java. Последнее обновление было в 2010 году[41].
  • Savant — автономный инструмент для визуализации данных высокопроизводительного секвенирования (в том числе и РНК-секвенирования). Функционал визуализации минимален, пригоден для личного пользования, но не для публикаций[42].
  • Gviz и ggbio — пакеты на языке программирования R, которые позволяют генерировать картинки по данным РНК-секвенирования, пригодные для публикации в научных журналах[43][44].
  • fluff и ngs.plot — утилиты, запускаемые с командной строки. Предоставляют расширенный функционал для анализа данных, но минималистичные возможности визуализации конкретных сегментов генома[45][46].

Примечания