Data Analyst vs. Data Scientist - в чем различие?
О различиях между профессиями, которые часто путают или вообще считают тремя названиями одной и той же деятельности.
Вот они, эти профессии:
- Data Analyst (аналитик данных)
- Data Mining Specialist (специалист по интеллектуальной обработке данных)
- Data Scientist (ученый по данным)
Хочу сразу оговориться, что на самом деле не существует каких-либо официальных определений каждой из этих профессий и, соответственно, непонятно, как их отличать друг от друга.
Поэтому я предлагаю свою версию того, чем же эти профессии отличаются — на основе данных с зарубежных блогов, зарубежных же объявлений о вакансиях и, само собой, своих собственных соображений.
Data Analyst
Итак, Data Analyst (аналитик данных) — это человек, который проводит описательный (дескриптивный) анализ данных, интерпретирует их и представляет отчет заинтересованным лицам.
То есть основными навыками данного персонажа являются:
- отличное знание предметной области, в пределах которой он анализирует данные. Под предметной областью понимается определенная сфера бизнеса (например, нефтегазовая отрасль или, скажем, торговля элитным алкоголем).
- знание особенностей ведения бизнеса той компании, где он работает
- хорошие презентационные навыки
- знание каких-то средств для визуализации данных (например, Tableau) и умение делать симпатичные и понятные неспециалистам графики-диаграммы
- базовые знания статистики, умение пользоваться простыми системами для анализа данных (например, Excel)
- возможно (но совсем необязательно) знание какого-нибудь языка программирования
Если собрать это все в одну картинку, то получится как-то так:
Data Mining Specialist
Data Mining Specialist (специалист по интеллектуальной обработке данных) — это технически подкованный специалист, который проводит полный цикл работы с данными — начиная с поиска этих самых данных и заканчивая созданием предиктивной модели. В процессе обработки данных он фокусируется на выявлении каких-то неизвестных доселе скрытых закономерностей и вовсю применяет технологии машинного обучения (Machine Learning).
То есть основными навыками данного персонажа являются:
- Неплохая математическая подготовка
- Умение находить и правильно готовить данные
- Умение программировать на одном или нескольких языках. Языки эти обычно высокоуровневые, вроде Python, Java, Matlab или R
- Знание методов и алгоритмов машинного обучения. Сюда могут входить и статистические алгоритмы, и нейросети, и генетические алгоритмы — тысячи их.
- Возможно (но необязательно), умение работать с большими данными (Big Data) — имеется в виду Hadoop, его стандартные и нестандартные модули.
Если собрать это все в одну картинку, то получится как-то так:
Data Scientist
Data Scientist (ученый по данным) — это универсальный игрок, который может делать как то, что делает аналитик данных, так и то, что делает специалист по интеллектуальной обработке данных. И плюс к этому он имеет какое-то особенное умение или особо узкую специализацию.
То есть основными навыками данного персонажа являются:
- отличные презентационные навыки, знание предметной области и умение представлять результаты своей работы неспециалистам (это от аналитика данных)
- хорошая математическая подготовка, навыки подготовки данных, машинное обучение (это от специалиста по интеллектуальному анализу данных)
- умение работать с Big Data (очень желательно, почти обязательно)
- какое-то особенное умение или дополнительная специализация (например, познания в области лингвистики — несколько иностранных языков, умение работать с текстом на продвинутом уровне, т.е. Natural Language Processing)
Впрочем, с ученым по данным не все так чисто — он может не иметь и половины указанных выше навыков, но все равно считаться ученым по данным, если, например, другими навыками он владеет в совершенстве. Скажем, он может не очень хорошо знать математику, но быть великолепным знатоком предметной области. Надеюсь, когда-нибудь позже я подробнее рассмотрю классификацию ученых по данным.
Если собрать это все в одну картинку, то получится как-то так:
Надо заметить, что здесь рассмотрены, так сказать, «чистые» представители профессий. В реальной жизни, например, навыков у аналитика данных может быть больше, а у ученого по данным может и не быть какого-нибудь хитрого умения.