Часть 2. Узнайте о диаграммах рассеяния, блочных диаграммах и важности панд.

Добро пожаловать обратно в мою серию Seaborn. Я уже упоминал о важности визуализации данных. Способность превращать ваши данные в истории — это ключ к тому, чтобы стать успешным Data Scientist. Сегодня мы рассмотрим точечные диаграммы, важность панд и коробчатые диаграммы. Для этого эпизода я получил информацию от Elite Data Science (ссылка в конце статьи). Давайте подробнее изучим возможности Seaborn 🚀

Для введения, пожалуйста, ознакомьтесь с первой статьей в этой серии, в которой я рассказываю, какие инструменты и ресурсы я использую, чтобы вы могли настроить все для кода вместе со мной 🔥.



3. Графические функции Seaborn (продолжение)

У Seaborn нет специальной функции точечной диаграммы. Таким образом, вы видите диагональную линию. В нашем случае мы использовали функцию Сиборна для подгонки и построения линии регрессии. Что, если мы не хотим, чтобы линия регрессии отображалась в нашей визуализации, как показано ниже?

sns.lmplot(x='Attack', y='Defense', data=df)

Каждая функция построения графика имеет несколько полезных опций для настройки графика. Есть два аргумента, которые вы можете изменить, чтобы изменить график.

  1. Мы устанавливаем fit_reg=False, чтобы удалить линию регрессии и уменьшить визуализацию до точечной диаграммы.
  2. Мы можем установить hue="Stage", чтобы раскрасить точки данных в зависимости от стадии эволюции покемонов. Это дает нам возможность выразить третье измерение в нашей визуализации.
sns.lmplot(x='Attack', y='Defense', data=df,
    fit_reg=False,
    hue='Stage')

Ну, это уже выглядит намного лучше. Как мы можем улучшить визуализацию? В некоторых случаях вы можете столкнуться с некоторыми проблемами, связанными с ограничениями оси. Даже если у вас нет отрицательных значений, отрицательная область (ниже 0) также может отображаться. Чтобы решить эту проблему, вы можете добавить ylim и xlim.

sns.lmplot(x='Attack', y='Defense', data=df,
    fit_reg=False,
    hue='Stage')
plt.ylim(0, None)
plt.xlim(0, None)

Вы можете обратиться к скриншоту выше, так как в нашем случае нет никакой разницы в выводе.

Почему важно знать панд?

Я уже упоминал об этом несколько раз. Если вы входите в область науки о данных, вы можете наткнуться на библиотеку Pandas. Ну, конечно, будешь. Я создал серию, чтобы охватить наиболее важные функции. Первую статью вы можете найти здесь:



Но почему это важно для Seaborn? Seaborn выигрывает от хорошо сформированного фрейма данных. Давайте посмотрим на коробочную диаграмму с использованием Seaborn:

sns.boxplot(data=df)

Это сработало! Однако есть некоторые столбцы, которые мы должны удалить. Нам не нужны итоговые столбцы, а также «Этап» и «Легендарный». Почему? — Это не боевая статистика.

Как мы собираемся это сделать? Самый простой способ - напрямую отформатировать фрейм данных.

stats_df = df.drop(['Total', 'Stage', 'Legendary'], axis=1)
sns.boxplot(data=stats_df)

Выглядит лучше, верно? Это все на сегодня. Вам обязательно стоит взглянуть на мою серию Pandas, чтобы объединить эти две библиотеки и получить мастер визуализации данных. Удачного кодирования/изучения!

Спасибо за чтение этой статьи! Если вы хотите поддержать меня, вы можете сделать это следующим образом:
1. Подпишитесь на меня здесь, на Medium или в Twitter, Instagram, TikTok или YouTube.
2. Подпишитесь на статью.
> 3. Оставьте короткий комментарий

Я очень ценю любую поддержку! Каждое ваше взаимодействие с контентом поможет мне расти и со временем предоставлять более качественный контент. 🚀

Спасибо, VEGXCODES

Ресурсы:



Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Получите эксклюзивный доступ к возможностям написания и советам в нашем сообществе Discord.