Продюсер направления Data Science Нетологии Елена Герасимова рассказала, что представляет из себя отрасль и как построить в ней карьеру.
Обучение в онлайн-университете: курс "Data Scientist"
Что такое Data Science
Data Science - наука о данных и их анализе. Сфера охватывает сбор больших массивов структурированных и неструктурированных данных и преобразование их в человекочитаемый формат, включая визуализацию, работу со статистикой и аналитическими методами - машинным и глубоким обучением, анализом вероятностей и построением предиктивных моделей, построением нейронных сетей и их применением для решения актуальных задач.
Сфера работы с данными - огромная отрасль, в которой выделяют несколько ключевых направлений, включая Data Science
- Искусственный интеллект - обучение машин думать для упрощения рутинных процессов и освобождение людского ресурса для творческих задач. Первыми моделями ИИ считают машины Тьюринга, созданные в 1936 году. Несмотря на долгую историю, сегодня ИИ в большинстве областей еще не способен полностью заменить человека. И соревнования искусственного интеллекта с человеком в шахматах, и шифрование данных - две стороны одной медали.
- Машинное обучение - создание инструментов для извлечения знаний из данных. В ML модели могут обучаться на данных самостоятельно или поэтапно: обучение с учителем, то есть наличие подготовленных человеком данных ⟶ обучение без учителя, работа со стихийными, зашумленными данными.
- Глубокое обучение - создание многослойных нейронных сети в областях, где нужен более продвинутый или быстрый анализ и традиционное машинное обучение не справляется. "Глубину" обеспечивает более чем один скрытый слой нейронов в сети, которая проводит математические вычисления.
- Data Science - придача массивам данных смысла, визуализация, сбор инсайтов и принятие на основе данных решений. Специалисты направления использует некоторые методы машинного обучения и Big Data - облачные вычисления, инструменты создания виртуальной среды разработки и многое другое.
- Big Data - работа с огромными объемами часто неструктурированных данных. Специфика сферы - инструменты и системы, способные выдержать высокую нагрузку.
Как и где зарабатывать на данных
- Собирать и продавать данные - в соцсетях, поисковых системах, медиа сайтах.
- Обслуживать данные - в софтверных компаниях-гигантах Google, Amazon и других.
- Разрабатывать продукты, использующие Data-решения - в компаниях, которые создают беспилотники и другую инновационную технику.
- Извлекать из данных пользу - в рекомендательных системах, сервисах прогноза погоды и других сферах, полезных рядовым пользователям.
Самая обширная сфера - извлечение пользы из данных. Она охватывает:
- обнаружение аномалий, например, аномального поведения клиентов, мошенничества;
- персонализированный маркетинг - персональные e-mail рассылки, ретаргетинг, рекомендательные системы;
- прогнозы метрик - показателей эффективности, качества рекламных кампаний и других направлений деятельности;
- скоринговые системы - обрабатывают большие объемы данных и помогают принять решение, например, о выдаче кредита;
- базовое взаимодействие с клиентом - стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.
Из чего состоит аналитика данных
Сбор.Поиск каналов, где можно собирать данные, и способов их получения.
Проверка. Валидация, отсечение аномалий, которые не влияют на результат и сбивают с толку при дальнейшем анализе.
Анализ.Изучение данных, подтверждение предположений, выводы.
Визуализация.Представление в таком виде, который будет простым и понятным для восприятия человеком - в графиках, диаграммах.
Действие. Принятие решений на основе проанализированных данных, например, о смене маркетинговой стратегии, увеличении бюджета на какое-либо направление деятельности компании.
Кем можно работать в аналитических проектах
Аналитики McKinsey еще в 2012 году предсказали дефицит специалистов по данным. Только в США в 2018 году нехватка составила 140-190 тысяч человек. Недостаток менеджеров, которые могут задавать аналитикам правильные вопросы, еще больше - 1,5 миллионов человек. Эти прогнозы подтвердились, специалистов действительно не хватает.
Траектории обучения Data Scientist / Аналитик Данных / Аналитик BI в Нетологии
Уровень трансформации данных. ETL-специалисты преобразуют неструктурированные массивы данных в БД:
- Data Engineer - отвечает за целостность и оптимальное хранение данных;
- разработчик БД - обеспечивает работоспособность БД;
- архитектор БД - проектирует хранение данных.
Уровень обработки данных. Анализируют собранные на предыдущем уровне данные, чтобы получить из них знание и извлечь пользу:
- аналитик - анализирует метрики, проводит эксперименты, составляет прогнозы;
- Data scientist - разрабатывает продукт, основанный на данных, например, рекомендательную систему.
- BI-специалист - занимается визуализацией, интерактивным dashboard;
- ML Engineer - разрабатывает и отвечает за развитие Data Driven продуктов.
Больше всего карьерных треков у ML Engineer (по сути, разработчик алгоритмов). Это нейросети, голосовые помощники, Object detection - сфера безопасности, предсказание спроса, предиктивная аналитика, распознаванием объектов. Среди более сложных направлений: GAN - работа с изображениями, RL - игровые стратегии, геймдев, Black-box AI - коробочные решения для искусственного интеллекта.
Из каких профессий быстрее всего переквалифицироваться
Как разобраться в направлениях работы
Какие знания и навыки нужны аналитику данных
Чему обучают будущих аналитиков
Hard skills:
- собирать и анализировать требования заказчика к отчетности;
- получать, очищать и преобразовывать, визуализировать и представлять данные;
- интерпретировать данные, делать на их основе обоснованные выводы;
- разрабатывать требования к аналитическим инструментам, сопровождать их внедрение;
- проводить исследования и А/Б тесты, готовить аналитику для принятия стратегических решений.
Soft skills:
- знать основные математические методы и азы статистики;
- мыслить абстрактно;
- делать скетчи и прототипы;
- видеть в метриках физический смысл, находить причины и взаимосвязи событий;
- обладать развитым эмоциональным интеллектом;
- предоставлять рекомендации бизнесу.
Навыки верхнего уровня по направлениям работы в Data Science
С какими инструментами предстоит работать
Всем специалистам Data Science нужно освоить электронные таблицы и инструменты доступа и обработки данных: СУБД, хранилища данных, SQL, ETL.
BI-аналитику:инструменты BI, например, Power BI, Tableau, инструменты OLAP и майнинга: SAS, R, Weka, Python (ограниченно, под конкретные задачи), Knime, RapidMiner.
Data Scientist и аналитику данных:библиотеки визуализации и анализа внутри Python и R, инструменты майнинга - углубленно, интерактивные оболочки Jupiter, Zeppelin, инструменты автоматизации и развертывания Docker, Airflow.
Мнение автора и редакции может не совпадать. Хотите написать колонку для "Нетологии"? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.