Курс “Машинное обучение” предназначен для студентов, уже обладающих основными знаниями и навыками в области математического анализа, линейной алгебры и теории вероятностей. Занятия посвящены основам и наиболее часто применяющимся алгоритмам “классического” машинного обучения.
В ходе курса будут изучены основные понятия машинного обучения и такие повсеместно применяющиеся алгоритмы, как линейная регрессия, метод опорных векторов, случайный лес и градиентный бустинг в их различных реализациях.
Особое внимание будет уделено проблеме правильного разбиения биологических данных на обучающие и тестовые наборы и подбору гиперпараметров моделей.
Будут разобраны типичные ошибки, допускаемые в статьях по классическому машинному обучению, приводящие к утечкам данным и завышенной оценке качества полученной модели.
Кроме этого будут рассмотрены классические методы обучения кластеризации и понижения размерности, такие как K-Means, Gaussian Mixture Models, DBSCAN, иерархическая кластеризация, PCA, t-SNE и UMAP. Будут разобраны допущения данных методов и типичные ошибки, допускаемые при использовании методов понижения размерности.
В курсе будет уделено внимание проблемы интерпретации предсказания полученных моделей и разобраны наиболее популярные методы объяснения работы модели.
Помимо этого, отдельное занятие будет посвящено работе с пропущенными данными, которые повсеместно встречаются в биологических и особенно медицинских данных и часто не позволяют работать классическими методами или требуют дополнительной осторожности при обработке.
В качестве семинаров и домашних заданий слушатели будут решать задачи на знания общих свойств алгоритмов машинного обучения и особенностей их работы с биологическими данными. Помимо этого, в ходе курса слушатели реализуют несколько алгоритмов “с нуля”, что позволит им получить более глубокое понимание принципов работы рассмотренных моделей.
Преподаватели
- Дмитрий Пензар