Автоматический EDA с использованием Python
Используя библиотеки Python, мы экономим много времени, и именно поэтому Python так популярен в науке о данных и машинном обучении. В этой статье я собираюсь познакомить вас с учебным курсом по автоматическому EDA с использованием Python, и здесь мы разберемся со всей информацией и статистикой данных в нескольких строках кода.
Что такое автоматический EDA?
Роль Аналитика данных начинается с исследовательского анализа данных. Это – первый и самый важный шаг в любой задаче в области науки о данных. EDA помогает специалисту по данным понять изменения в данных, от отсутствующих значений до выбросов.
Итак, большинство практиков машинного обучения используют библиотеки Python, такие как Pandas, Matplotlib, Seaborn и даже Plotly, для исследовательского анализа данных. Но есть еще одна библиотека, которую можно использовать для EDA, dataprep. Она показывает всю необходимую статистику данных и всю необходимую информацию с помощью интерактивных визуализаций и сводной статистики.
Автоматический EDA с использованием Python
В этом разделе я представлю вам учебное пособие о данных по автоматическому EDA с использованием Python с использованием библиотеки dataprep в Python. Если вы никогда не использовали его раньше, то можете легко установить его с помощью команды pip; pip install dataprep. Теперь давайте начнем с импорта необходимых библиотек Python и набора данных:
import pandas as pd data = pd.read_csv('housing.csv') data.head()
Как и во всех задачах в науке о данных, я начал с просмотра первых 5 строк данных с помощью библиотеки Pandas в Python. Теперь нам просто нужен код в одну строку, чтобы показать интерактивную визуализацию всех столбцов и сводку статистики, которая завершит задачу автоматического EDA с использованием Python:
Итак, как вы можете видеть выше, мы только что просмотрели предварительный анализ данных всего набора данных. Если вы хотите увидеть EDA только для определенного столбца, просто выполните действие ниже, где я исследую столбец median_house_value в наборе данных:
plot(data, ’median_house_value’)
Резюме
Теперь, если вы щелкнете по столбцам один за другим, вы сможете увидеть различные виды визуализаций для изучения столбца.
Надеюсь, вам понравилась эта статья об автоматическом EDA с использованием языка программирования Python.