Скачать 

[МФТИ] Старт в Data Engineering [Антон Поляков, Гайк Инанц]

Цена: 195 РУБ
Организатор: Robot
Список участников складчины:
  • 1. fotonS
  • 2. Tomik1982
Robot
Robot
Складчик
  • #1

[МФТИ] Старт в Data Engineering [Антон Поляков, Гайк Инанц]

Ссылка на картинку
  • Автоматизируете процессы сбора, очистки и анализа реальных данных без разработчиков (ETL)
  • Освоите инструменты: Git, SQL, базовый Python
  • Научитесь работать с хранилищами данных (DWH)
Для кого курс?

Аналитики
  • Получите навыки работы с хранилищами данных.
  • Сможете автоматизировать сбор, трансформацию и очистку данных с помощью SQL и Python без разработчиков.
  • Повысите компетенции для перехода в роль data engineer или data scientist.
Начинающие IT-специалисты
  • Получите навыки работы с хранилищами данных, SQL, базовым Python и репозиторием GitHub.
  • Набьете руку в сборе, очистке и хранении данных.
  • Сможете дальше развиваться как data engineer или аналитик.
Маркетологи
  • Научитесь быстро извлекать нужные данные без помощи разработчиков.
  • Научитесь считать статистику по извлеченным данным без привлечения аналитиков.
  • Научитесь работать с одними из самых востребованных в ИТ инструментами: SQL, Python, GitHub.
Менеджеры, владельцы бизнесов
  • Узнаете, как устроены процессы сбора, очистки, хранения и анализа данных в современных компаниях.
  • Поймете, зачем нужны хранилища данных (DWH) и как их использовать.
  • Научитесь быстро извлекать нужные данные без помощи разработчиков.
Начинающие разработчики
  • Научитесь проектировать и реализовывать процессы сбора, очистки, хранения и анализа данных.
  • Получите навыки работы с хранилищами данных, SQL, Python и GitHub.
  • Повысите компетенции для перехода в роль data engineer или data scientist.
Описание курса
На курсе мы научимся настраивать и автоматизировать процессы сбора, трансформации, очистки, хранения и первичного анализа данных с помощью SQL и базового Python на примерах реальных задач (примеры задач можно посмотреть в программе ниже).
Во втором блоке курса начинается работа над выпускным проектом, для которого есть два варианта выполнения:
  • взять задачу, заранее подготовленную преподавателями;
  • согласовать собственную тему, например, связанную с работой слушателя.
На проекте, который подготовили преподаватели, слушателей ждет работа с реальными транзакционными банковскими данными. C помощью Python и SQL слушатели реализуют:
  • собственное хранилище данных – DWH;
  • процесс сбора, очистки, трансформации и хранения данных;
  • систему автоматического поиска мошеннических операций (AntiFraud-система).
Спойлер: Программа
БЛОК I
Неделя 1.
Создание и заполнение таблиц, базовый синтаксис запросов SQL

Научимся строить таблицы, задавать в них форматы полей и ограничения, заполнять таблицы данными. Будем практиковаться писать обращения к таблицам и получать из них данные по простым условиям.
Мы вместе выполним следующее задание:
- создадим ER-модель процесса покупки-продажи акций компании пользователем;
- создадим таблицы по спроектированной модели;
- сформируем таблицы с данными определенных групп пользователей:
- пользователи из Москвы;
- акции компаний, выставленные на торги менее недели назад;
- данные об акциях определенной ценовой категории;
- данные об акциях определенных компаний.
Неделя 2.
Объединение и агрегация данных

Научимся объединять данные из разных таблиц и формировать более сложные запросы, обращаясь сразу к нескольким таблицам. Попрактикуемся в агрегации данных, что позволит нам строить запросы для получения простейшей статистики из данных.
Мы загрузим таблицу о клиентах интернет-магазина, таблицу с их заказами и таблицу с описанием этих заказов. После чего ответим на вопросы:
- Сколько клиенты всего потратили денег за год?
- Какое соотношение онлайн и оффлайн заказов среди клиентов?
- Каких товаров продали больше всего?
- Какие товары принесли наибольшую выручку за последний год?
Неделя 3.
Регулярные выражения и очистка данных

Разберем продвинутые методы работы с строками, изучим регулярные выражения. Это позволит делать более сложную и тонкую обработку строк и поиск по строкам. Кроме того, начнем практиковаться в очистке данных.
Мы реализуем процесс по очистке, валидации и приведению к единому виду данных, оставленных пользователями при регистрации в wifi-сети банковского отделения.
БЛОК II
Неделя 4.
Старт выпускного проекта. Основы UNIX (Linux) систем. Python для создания процессов обработки данных

Начнем готовиться к выпускному проекту и выбирать тему. Слушатель может выполнять заранее подготовленный преподавателем проект, либо согласовать собственную задачу. На этой неделе мы научимся выстраивать полноценный процесс обработки данных с использованием нескольких самописных Python приложений.
Кроме того, на этой неделе будет краткий экскурс в *nix системы, узнаем, как подключаться по ssh к *nix серверу, как выполнять пакеты и как планировать задачи с помощью crontab.
Неделя 5.
Оконные функции в SQL. Библиотека SQLite

Научимся создавать CRUD приложения на python, которое будет сохранять данные в базе данных SQLite.
После этого мы перейдем к довольно сложной, но очень полезной теме – оконным функциям. С их помощью мы научимся решать сложные аналитические задачи.
Научимся создавать локальные базы данных (без подключения к стороннему серверу) и обрабатывать данные – очень полезно, например, если служба безопасности не дает подключаться к сторонним сервисам.
Неделя 6.
Оконные функции и паттерны хранения данных

Разберемся, какие существуют шаблоны (паттерны) хранения данных и продолжим практиковаться в написании сложных оконных функций. Изучим, какие шаблоны хранения используются в современных DWH, научимся хранить историю изменения данных.
Неделя 7.
Инкрементальная загрузка. Оптимизация запросов

Мы изучим подход инкрементальной загрузки, что позволяет снимать с системы актуальное состояние и записывать данные в историческую таблицу. Кроме того, мы будем практиковаться в анализе запросов и их оптимизации.
Мы создадим ETL-процесс ежедневной загрузки транзакционных данных телекома и с помощью индексов ускорим работу некоторых запросов.
Неделя 8.
Разбор задач с собеседований и повторение материала

Будем практиковаться в решении наиболее часто встречающихся задач с собеседований на начинающих Data Engineer, аналитиков и другие близких data-специальностей. Вспомним и еще раз систематизируем все, что изучили на курсе.
Неделя 9-10.
Доработка выпускного проекта. Консультации с преподавателями

В эти две недели дорабатываем выпускные проекты, консультируемся с преподавателями.
Слушатели приходят к преподавателю на консультации с своими вопросами
Неделя 11.
Защита проектов. Подведение итогов курса.
 
Зарегистрируйтесь , чтобы посмотреть скрытый авторский контент.
Похожие складчины
  • в разделе: Программирование
  • в разделе: Программирование

Войдите или зарегистрируйтесь, чтобы комментировать и скачивать складчины!

Учетная запись позволит вам участвовать в складчинах и оставлять комментарии

Регистрация

Создайте аккаунт на форуме. Это не сложно!

Вход

Вы уже зарегистрированы? Войдите.

Сверху