Язык R для анализа и визуализации данных

ТРЕК
Общий
ДЛИТЕЛЬНОСТЬ
14 занятий
ФОРМАТ
Лекции, семинары
СТАТУС КУРСА
Обязательный
ОТЧЕТНОСТЬ
Зачет

Данные для анализа далеко не всегда попадают в руки исследователя в приемлемой форме. Обычно достаточно большое время уходит на подготовку материала к анализу, сведение информации из разных источников, преобразование данных в необходимую форму или формат. Еще одна проблема заключается в том, что предложенные для анализа данные могут быть плохого качества, содержать много пропущенных значений, выбросов, ошибок. Прежде чем приступать к исследованию необходимо убедиться, что материал пригоден для работы. Разведывательный анализ данных может сильно сэкономить время и поможет выявить проблемы в исходных данных на начальном этапе. Язык R обладает мощным функционалом для решения подобных задач. Более того, это стремительно развивающийся язык. Наука об анализе данных динамична, требует современных, более быстрых, мощных и эффективных решений. Новые и обновленные возможности языка R своевременно закрывают актуальные потребности пользователей.

В первой вводной части курса мы со студентами познакомимся с средой разработки RStudio, обсудим подходы к организации рабочего пространства, возможности получения справочной информации, а также научимся работать с отчетами в виде R Markdown. Знакомство с самим языком программирования мы начнем с синтаксиса базового R и работы с данными табличного типа, обсудим такие структуры данных как вектор, матрица, список. Один из необходимых навыков работы с языком R – умение пользоваться пакетами, созданными для более удобного и быстрого анализа тех или иных данных. Большое сообщество активных разработчиков обеспечивает появление новых и, что крайне важно, развитие и обновление уже существующих пакетов.

Хранение и представление информации в виде таблиц является одним из наиболее универсальных и распространенных подходов представления данных в различных областях науки. Работа с огромными таблицами не всегда удобна для человеческого восприятия, важно уметь быстро фильтровать и проводить первичный анализ своих данных, а также красиво визуализировать результаты, что делает их более наглядными и подкрепляет полученные выводы. Для решения этих задач мы изучим коллекцию пакетов Tidyverse, чему посвящена основная часть курса. Синтаксис внутри пакетов Tidyverse несколько отличается от базового R. На сравнительных примерах мы разберем основные функции, необходимые для исследования таблиц и закрепим полученные навыки в работе с реальными данными.

Одной из сильный сторон языка R является визуализация. Средствами пакета ggplot2 можно довольно быстро отрисовать график любого типа, настроить элементы графика, включая цветовую палитру, любые текстовые элементы на графике и многое другое. На занятиях мы разберем обширный спектр всевозможных видов графиков, обсудим, какого типа бывают данные, какие вопросы можно и нужно задавать для понимания устройства входной информации и как выбрать нужный тип графика для наиболее информативного представления своих результатов. Помимо пакета ggplot2 мы изучим возможности других актуальных пакетов, позволяющих дополнить и расширить функционал ggplot2. В соответствии с растущей потребностью в создании качественных научных иллюстраций, основанных на проводимом с помощью языков программирования анализе данных, в курс включены занятия, посвященные созданию распространенных вариантов визуализации данных, которые, однако, редко рассматриваются в базовых курсах по R. На этих занятиях будет рассмотрена визуализация процессов с помощью потоков (sankey diagram), визуализация сетей с помощью графов и т.д. Подготовка графика к публикации, будь то квалификационная работа, публикация, отчет, презентация является одним из важных этапов представления результатов исследования. Мы обсудим принципы комбинирования нескольких графиков на одном рисунке, а также сохранение рисунков в виде, подходящем для тех или иных целей. Кроме того, мы познакомимся с концепцией создания интерактивных графиков и дашбордов, которые активно используются для презентации информации в индустрии.

В заключительной части курса мы сосредоточимся на изучении принципов обработки данных биологической направленности. Одной из наиболее востребованных областей биоинформатики на сегодняшний день является анализ данных высокопроизводительного секвенирования (NGS). Существует огромное количество специфических программ и пакетов для анализа такого типа данных, разработано множество форматов файлов для хранения информации, получаемой в ходе исследования. Специализированные пакеты позволяют исследовать данные NGS с помощью языка R. В рамках нашего курса мы познакомимся с репозиторием пакетов для языка R для решения биологических задач Bioconductor, кратко обсудим основные форматы данных NGS, поговорим о работе с геномными интервалами и способах представления результатов анализа, включая подходы к визуализации. Еще одной задачей биологической направленности является работа с списком генов или белков. На занятиях будут освещены подходы к решению проблем разнообразия номенклатуры, а также проведение исследования обогащения с помощью профильных баз данных.

Материалы, изученные в рамках курса «Язык R для анализа и визуализации данных», потребуются студентам при освоении курсов «Прикладная математическая статистика» и «Введение в NGS». Приобретение навыка программирования на языке R позволит студентам по-новому взглянуть на подход к анализу и визуализации данных, а в будущем при необходимости учащиеся смогут легко осваивать новые инструменты, использующие язык программирования R.

 

Преподаватели

  • Анастасия Жарикова

Для просмотра остальных курсов или людей перейдите, пожалуйста, в соответствующий раздел меню.