Python для Data Science
Старт обучения
Дату уточните у администрации
51 час. по 2-3 раза в неделю
Описание курса
Данный курс ориентирован на специалистов в различных областях информационных технологий, имеющих опыт в программировании и желающих получить представление о современных методах машинного обучения с использованием технологии Big Data. Эти методы применимы в анализе сырых данных, поиске скрытых закономерностей, решении задач классификации и прогнозирования.
После курса вы сможете:
- Применять основной инструментарий специалиста в области Data Science: язык программирования Python, библиотеки numpy, pandas, matplotlib, scikit-learn, среды разработки PyCharm, Jupyter Notebook
- Решать задачи классификации, кластеризации и регрессии при помощи алгоритмов машинного обучения, а также оценивать качество моделей
- Строить системы машинного обучения на основе данных большого объема с использованием BigData-фреймворка Spark
Программа курса:
- Модуль 1. Введение в машинного обучения и Data science
- Определение машинного обучения и науки о данных, их задачи.
- Инструментарий для анализа данных: языки программирования Python и R.
- Типы машинного обучения.
- Составные части модели машинного обучения.
- Базовые концепты машинного обучения.
- Модуль 2. Основы языков программирования Python и R для Data science
- IDE для удобной работы: Jupyter, Spyder & Rstudio.
- Семантика языка.
- Типы данных.
- Структуры данных.
- Операторы контроля исполнения (разветвления и циклов).
- Векторизация в Python (numpy) i R.
- Модуль 3. Функциональное программирование в Python и R
- Comprehension, Generators, Iterators в Python.
- Функции в Python i R.
- Встроенные функции Python.
- Apply-family функции в R.
- Библиотека purrr для функционального программирования в R.
- Модуль 4. Исследование и подготовка данных к анализу
- Numpy.
- Pandas.
- Фильтрация и агрегация данных в dplyr.
- Long & wide форматы таблиц, их преобразования в библиотеках pandas & tidyr.
- Модуль 5. Визуализация данных в R i Python
- Визуализация данных в R.
- ggplot2 - grammar of graphics.
- Интерактивная графика в R.
- Matplotlib & seaborn.
- Модуль 6. Основные понятия статистического анализа
- Scipy.stats.
- Описательные статистики.
- Зависимости между переменными.
- Модуль 7. Типичные проблемы в подготовке данных к анализу
- Преобразование факторных переменных.
- Борьба с пробелами в данных.
- Проблема мультиколлинеарности.
- Шкалирования данных.
- Выбор информативных переменных для модели.
- Типичный алгоритм подготовки данных к моделированию.
- Модуль 8. Базовые регрессионные модели
- Линейная регрессия.
- Полиномиальная регрессия.
- Метод ближайших соседей.
- Метрики оценки качества регрессии.
- Тюнинг регрессионных моделей.
- Модуль 9. Базовые модели классификации
- Логистическая регрессия.
- Метод опорных векторов.
- Наивный Байесовский классификатор.
- Метрики оценки качества классификации.
- Тюнинг параметров моделей классификации.
- Модуль 10. Базовые модели кластеризации и снижения размерности
- Метод к-средних.
- Иерархический кластерный анализ.
- DBSCAN.
- Анализ.
- Кореспонденс-анализ.
- Модуль 11. Деревья решений и ансамбли
- Базовые древовидные модели.
- Random forest.
- Xgboost, lightgbm.
- Тюнинг гиперпараметров в ансамблевых моделях.
- Модуль 12. Методы улучшения качества моделей машинного обучения
- Аугментация.
- Feature engineering.
- Cross-validation.
- Борьба с переобучением.
- Борьба с дисбалансом данных.
- Регуляризация модели.
- Модуль 13. Введение в архитектуры нейронных сетей. Нейронные сети для классификации изображений
- Keras.
- tensorflow.
- Персептрон.
- CNN.
- Модуль 14. Прогнозирование временных рядов
- AR, MA, ARMA.
- ARIMA.
- VAR.
- Lstm.
- Модуль 15. Документация data science проектов, data science in prod
- Пути организации продакшна для data science-проектов.
- Специфика документации data science проектов.
- Markdown, Latex.
- Модуль 16. Практикум по пути улучшения качества моделей
- Презентация и обсуждение курсовых проектов
- Подведение итогов курса
Минимальные требования:
- Опыт программирования на любом процедурном языке;
- Знания математики в рамках школьного курса.
- Наличие собственного ноутбука для занятий в аудиториях
* Указанные скидки не суммируются с другими действующими акциями и специальными предложениями. Если у Вас возникли вопросы, обращайтесь за консультацией к нашим менеджерам!
Рекомендуемые курсы
Data Science/Machine Learning Fundamentals
4 620 0003 465 000 UZS
Длительность курса: 21 ч.