Quantcast
Channel: Медиа Нетологии: об образовании в диджитале
Viewing all articles
Browse latest Browse all 2506

Data Science для начинающих: обзор сферы и профессий

$
0
0

Продюсер направления Data Science Нетологии Елена Герасимова рассказала, что представляет из себя отрасль и как построить в ней карьеру.

Обучение в онлайн-университете: курс "Data Scientist"

Что такое Data Science

Data Science - наука о данных и их анализе. Сфера охватывает сбор больших массивов структурированных и неструктурированных данных и преобразование их в человекочитаемый формат, включая визуализацию, работу со статистикой и аналитическими методами - машинным и глубоким обучением, анализом вероятностей и построением предиктивных моделей, построением нейронных сетей и их применением для решения актуальных задач.


Сфера работы с данными - огромная отрасль, в которой выделяют несколько ключевых направлений, включая Data Science

  • Искусственный интеллект - обучение машин думать для упрощения рутинных процессов и освобождение людского ресурса для творческих задач. Первыми моделями ИИ считают машины Тьюринга, созданные в 1936 году. Несмотря на долгую историю, сегодня ИИ в большинстве областей еще не способен полностью заменить человека. И соревнования искусственного интеллекта с человеком в шахматах, и шифрование данных - две стороны одной медали.

  • Машинное обучение - создание инструментов для извлечения знаний из данных. В ML модели могут обучаться на данных самостоятельно или поэтапно: обучение с учителем, то есть наличие подготовленных человеком данных ⟶ обучение без учителя, работа со стихийными, зашумленными данными.
  • Глубокое обучение - создание многослойных нейронных сети в областях, где нужен более продвинутый или быстрый анализ и традиционное машинное обучение не справляется. "Глубину" обеспечивает более чем один скрытый слой нейронов в сети, которая проводит математические вычисления.

  • Data Science - придача массивам данных смысла, визуализация, сбор инсайтов и принятие на основе данных решений. Специалисты направления использует некоторые методы машинного обучения и Big Data - облачные вычисления, инструменты создания виртуальной среды разработки и многое другое.
  • Big Data - работа с огромными объемами часто неструктурированных данных. Специфика сферы - инструменты и системы, способные выдержать высокую нагрузку.

Как и где зарабатывать на данных

  • Собирать и продавать данные - в соцсетях, поисковых системах, медиа сайтах.
  • Обслуживать данные - в софтверных компаниях-гигантах Google, Amazon и других.
  • Разрабатывать продукты, использующие Data-решения - в компаниях, которые создают беспилотники и другую инновационную технику.
  • Извлекать из данных пользу - в рекомендательных системах, сервисах прогноза погоды и других сферах, полезных рядовым пользователям.

Самая обширная сфера - извлечение пользы из данных. Она охватывает:

  • обнаружение аномалий, например, аномального поведения клиентов, мошенничества;
  • персонализированный маркетинг - персональные e-mail рассылки, ретаргетинг, рекомендательные системы;
  • прогнозы метрик - показателей эффективности, качества рекламных кампаний и других направлений деятельности;
  • скоринговые системы - обрабатывают большие объемы данных и помогают принять решение, например, о выдаче кредита;
  • базовое взаимодействие с клиентом - стандартные ответы в чатах, голосовые помощники, сортировка писем по папкам.

Из чего состоит аналитика данных

Сбор.Поиск каналов, где можно собирать данные, и способов их получения.

Проверка. Валидация, отсечение аномалий, которые не влияют на результат и сбивают с толку при дальнейшем анализе.

Анализ.Изучение данных, подтверждение предположений, выводы.

Визуализация.Представление в таком виде, который будет простым и понятным для восприятия человеком - в графиках, диаграммах.

Действие. Принятие решений на основе проанализированных данных, например, о смене маркетинговой стратегии, увеличении бюджета на какое-либо направление деятельности компании.

Кем можно работать в аналитических проектах

Аналитики McKinsey еще в 2012 году предсказали дефицит специалистов по данным. Только в США в 2018 году нехватка составила 140-190 тысяч человек. Недостаток менеджеров, которые могут задавать аналитикам правильные вопросы, еще больше - 1,5 миллионов человек. Эти прогнозы подтвердились, специалистов действительно не хватает.


Траектории обучения Data Scientist / Аналитик Данных / Аналитик BI в Нетологии

Уровень трансформации данных. ETL-специалисты преобразуют неструктурированные массивы данных в БД:

  • Data Engineer - отвечает за целостность и оптимальное хранение данных;
  • разработчик БД - обеспечивает работоспособность БД;
  • архитектор БД - проектирует хранение данных.

Уровень обработки данных. Анализируют собранные на предыдущем уровне данные, чтобы получить из них знание и извлечь пользу:

  • аналитик - анализирует метрики, проводит эксперименты, составляет прогнозы;
  • Data scientist - разрабатывает продукт, основанный на данных, например, рекомендательную систему.
  • BI-специалист - занимается визуализацией, интерактивным dashboard;
  • ML Engineer - разрабатывает и отвечает за развитие Data Driven продуктов.

Больше всего карьерных треков у ML Engineer (по сути, разработчик алгоритмов). Это нейросети, голосовые помощники, Object detection - сфера безопасности, предсказание спроса, предиктивная аналитика, распознаванием объектов. Среди более сложных направлений: GAN - работа с изображениями, RL - игровые стратегии, геймдев, Black-box AI - коробочные решения для искусственного интеллекта.


Из каких профессий быстрее всего переквалифицироваться

Как разобраться в направлениях работы

Какие знания и навыки нужны аналитику данных


Чему обучают будущих аналитиков

Hard skills:

  • собирать и анализировать требования заказчика к отчетности;
  • получать, очищать и преобразовывать, визуализировать и представлять данные;
  • интерпретировать данные, делать на их основе обоснованные выводы;
  • разрабатывать требования к аналитическим инструментам, сопровождать их внедрение;
  • проводить исследования и А/Б тесты, готовить аналитику для принятия стратегических решений.

Soft skills:

  • знать основные математические методы и азы статистики;
  • мыслить абстрактно;
  • делать скетчи и прототипы;
  • видеть в метриках физический смысл, находить причины и взаимосвязи событий;
  • обладать развитым эмоциональным интеллектом;
  • предоставлять рекомендации бизнесу.


Навыки верхнего уровня по направлениям работы в Data Science

С какими инструментами предстоит работать

Всем специалистам Data Science нужно освоить электронные таблицы и инструменты доступа и обработки данных: СУБД, хранилища данных, SQL, ETL.

BI-аналитику:инструменты BI, например, Power BI, Tableau, инструменты OLAP и майнинга: SAS, R, Weka, Python (ограниченно, под конкретные задачи), Knime, RapidMiner.

Data Scientist и аналитику данных:библиотеки визуализации и анализа внутри Python и R, инструменты майнинга - углубленно, интерактивные оболочки Jupiter, Zeppelin, инструменты автоматизации и развертывания Docker, Airflow.


Мнение автора и редакции может не совпадать. Хотите написать колонку для "Нетологии"? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.


Viewing all articles
Browse latest Browse all 2506

Trending Articles



<script src="https://jsc.adskeeper.com/r/s/rssing.com.1596347.js" async> </script>