Python для Data Science

Старт обучения
Дату уточните у администрации
51 час. по 2-3 раза в неделю

Описание курса

Данный курс ориентирован на специалистов в различных областях информационных технологий, имеющих опыт в программировании и желающих получить представление о современных методах машинного обучения с использованием технологии Big Data. Эти методы применимы в анализе сырых данных, поиске скрытых закономерностей, решении задач классификации и прогнозирования.

После курса вы сможете:

  • Применять основной инструментарий специалиста в области Data Science: язык программирования Python, библиотеки numpy, pandas, matplotlib, scikit-learn,  среды разработки PyCharm, Jupyter Notebook
  • Решать задачи классификации, кластеризации и регрессии при помощи алгоритмов машинного обучения, а также оценивать качество моделей
  • Строить системы машинного обучения на основе данных большого объема с использованием BigData-фреймворка Spark

Программа курса:

  • Модуль 1. Введение в машинного обучения и Data science
    • Определение машинного обучения и науки о данных, их задачи.
    • Инструментарий для анализа данных: языки программирования Python и R.
    • Типы машинного обучения.
    • Составные части модели машинного обучения.
    • Базовые концепты машинного обучения.
  • Модуль 2. Основы языков программирования Python и R для Data science
    • IDE для удобной работы: Jupyter, Spyder & Rstudio.
    • Семантика языка.
    • Типы данных.
    • Структуры данных.
    • Операторы контроля исполнения (разветвления и циклов).
    • Векторизация в Python (numpy) i R.
  • Модуль 3. Функциональное программирование в Python и R
    • Comprehension, Generators, Iterators в Python.
    • Функции в Python i R.
    • Встроенные функции Python.
    • Apply-family функции в R.
    • Библиотека purrr для функционального программирования в R.
  • Модуль 4. Исследование и подготовка данных к анализу
    • Numpy.
    • Pandas.
    • Фильтрация и агрегация данных в dplyr.
    • Long & wide форматы таблиц, их преобразования в библиотеках pandas & tidyr.
  • Модуль 5. Визуализация данных в R i Python
    • Визуализация данных в R.
    • ggplot2 - grammar of graphics.
    • Интерактивная графика в R.
    • Matplotlib & seaborn.
  • Модуль 6. Основные понятия статистического анализа
    • Scipy.stats.
    • Описательные статистики.
    • Зависимости между переменными.
  • Модуль 7. Типичные проблемы в подготовке данных к анализу
    • Преобразование факторных переменных.
    • Борьба с пробелами в данных.
    • Проблема мультиколлинеарности.
    • Шкалирования данных.
    • Выбор информативных переменных для модели.
    • Типичный алгоритм подготовки данных к моделированию.
  • Модуль 8. Базовые регрессионные модели
    • Линейная регрессия.
    • Полиномиальная регрессия.
    • Метод ближайших соседей.
    • Метрики оценки качества регрессии.
    • Тюнинг регрессионных моделей.
  • Модуль 9. Базовые модели классификации
    • Логистическая регрессия.
    • Метод опорных векторов.
    • Наивный Байесовский классификатор.
    • Метрики оценки качества классификации.
    • Тюнинг параметров моделей классификации.
  • Модуль 10. Базовые модели кластеризации и снижения размерности
    • Метод к-средних.
    • Иерархический кластерный анализ.
    • DBSCAN.
    • Анализ.
    • Кореспонденс-анализ.
  • Модуль 11. Деревья решений и ансамбли
    • Базовые древовидные модели.
    • Random forest.
    • Xgboost, lightgbm.
    • Тюнинг гиперпараметров в ансамблевых моделях.
  • Модуль 12. Методы улучшения качества моделей машинного обучения
    • Аугментация.
    • Feature engineering.
    • Cross-validation.
    • Борьба с переобучением.
    • Борьба с дисбалансом данных.
    • Регуляризация модели.
  • Модуль 13. Введение в архитектуры нейронных сетей. Нейронные сети для классификации изображений
    • Keras.
    • tensorflow.
    • Персептрон.
    • CNN.
  • Модуль 14. Прогнозирование временных рядов
    • AR, MA, ARMA.
    • ARIMA.
    • VAR.
    • Lstm.
  • Модуль 15. Документация data science проектов, data science in prod
    • Пути организации продакшна для data science-проектов.
    • Специфика документации data science проектов.
    • Markdown, Latex.
  • Модуль 16. Практикум по пути улучшения качества моделей
    • Презентация и обсуждение курсовых проектов
    • Подведение итогов курса

Минимальные требования:

  • Опыт программирования на любом процедурном языке;
  • Знания математики в рамках школьного курса.
  • Наличие собственного ноутбука для занятий в аудиториях

* Указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!

spinner-it