Часть 2. Узнайте о диаграммах рассеяния, блочных диаграммах и важности панд.
Добро пожаловать обратно в мою серию Seaborn. Я уже упоминал о важности визуализации данных. Способность превращать ваши данные в истории — это ключ к тому, чтобы стать успешным Data Scientist. Сегодня мы рассмотрим точечные диаграммы, важность панд и коробчатые диаграммы. Для этого эпизода я получил информацию от Elite Data Science (ссылка в конце статьи). Давайте подробнее изучим возможности Seaborn 🚀
Для введения, пожалуйста, ознакомьтесь с первой статьей в этой серии, в которой я рассказываю, какие инструменты и ресурсы я использую, чтобы вы могли настроить все для кода вместе со мной 🔥.
3. Графические функции Seaborn (продолжение)
У Seaborn нет специальной функции точечной диаграммы. Таким образом, вы видите диагональную линию. В нашем случае мы использовали функцию Сиборна для подгонки и построения линии регрессии. Что, если мы не хотим, чтобы линия регрессии отображалась в нашей визуализации, как показано ниже?
sns.lmplot(x='Attack', y='Defense', data=df)
Каждая функция построения графика имеет несколько полезных опций для настройки графика. Есть два аргумента, которые вы можете изменить, чтобы изменить график.
- Мы устанавливаем fit_reg=False, чтобы удалить линию регрессии и уменьшить визуализацию до точечной диаграммы.
- Мы можем установить hue="Stage", чтобы раскрасить точки данных в зависимости от стадии эволюции покемонов. Это дает нам возможность выразить третье измерение в нашей визуализации.
sns.lmplot(x='Attack', y='Defense', data=df, fit_reg=False, hue='Stage')
Ну, это уже выглядит намного лучше. Как мы можем улучшить визуализацию? В некоторых случаях вы можете столкнуться с некоторыми проблемами, связанными с ограничениями оси. Даже если у вас нет отрицательных значений, отрицательная область (ниже 0) также может отображаться. Чтобы решить эту проблему, вы можете добавить ylim и xlim.
sns.lmplot(x='Attack', y='Defense', data=df, fit_reg=False, hue='Stage') plt.ylim(0, None) plt.xlim(0, None)
Вы можете обратиться к скриншоту выше, так как в нашем случае нет никакой разницы в выводе.
Почему важно знать панд?
Я уже упоминал об этом несколько раз. Если вы входите в область науки о данных, вы можете наткнуться на библиотеку Pandas. Ну, конечно, будешь. Я создал серию, чтобы охватить наиболее важные функции. Первую статью вы можете найти здесь:
Но почему это важно для Seaborn? Seaborn выигрывает от хорошо сформированного фрейма данных. Давайте посмотрим на коробочную диаграмму с использованием Seaborn:
sns.boxplot(data=df)
Это сработало! Однако есть некоторые столбцы, которые мы должны удалить. Нам не нужны итоговые столбцы, а также «Этап» и «Легендарный». Почему? — Это не боевая статистика.
Как мы собираемся это сделать? Самый простой способ - напрямую отформатировать фрейм данных.
stats_df = df.drop(['Total', 'Stage', 'Legendary'], axis=1) sns.boxplot(data=stats_df)
Выглядит лучше, верно? Это все на сегодня. Вам обязательно стоит взглянуть на мою серию Pandas, чтобы объединить эти две библиотеки и получить мастер визуализации данных. Удачного кодирования/изучения!
Спасибо за чтение этой статьи! Если вы хотите поддержать меня, вы можете сделать это следующим образом:
1. Подпишитесь на меня здесь, на Medium или в Twitter, Instagram, TikTok или YouTube.
2. Подпишитесь на статью.
> 3. Оставьте короткий комментарий
Я очень ценю любую поддержку! Каждое ваше взаимодействие с контентом поможет мне расти и со временем предоставлять более качественный контент. 🚀
Спасибо, VEGXCODES
Ресурсы:
Больше контента на plainenglish.io. Подпишитесь на нашу бесплатную еженедельную рассылку новостей. Получите эксклюзивный доступ к возможностям написания и советам в нашем сообществе Discord.