Вы готовы начать свое путешествие с пандами? Вот пошаговое руководство о том, как начать.

Введение

pandas, пожалуй, самый важный пакет Python для анализа данных. С более чем 100 миллионами загрузок в месяц это де-факто стандартный пакет для обработки данных и исследовательского анализа данных. Его способность читать и записывать в обширный список форматов делает его универсальным инструментом для специалистов по науке о данных. Его функции обработки данных делают его очень доступным и практичным инструментом для сбора, анализа и очистки данных. Pandas добавляет структуры данных и инструменты, предназначенные для работы с табличными данными, такими как Серии и Фреймы данных.

Что такое панды?

pandas — это пакет обработки данных в Python для табличных данных. То есть данные в виде строк и столбцов, также известные как DataFrames. Интуитивно вы можете думать о DataFrame как о листе Excel.

Функциональность pandas включает в себя преобразование данных, например сортировку строк и получение подмножеств, для вычисления сводной статистики, такой как среднее значение, изменение формы фреймов данных и объединение фреймов данных вместе. pandas хорошо работает с другими популярными пакетами обработки данных Python, часто называемыми экосистемой PyData, в том числе

· NumPy для численных вычислений

· Matplotlib, Seaborn, Plotly и другие пакеты визуализации данных

· scikit-learn для машинного обучения

Для чего используются панды?

pandas используется на протяжении всего рабочего процесса анализа данных. С пандами вы можете:

· Импорт наборов данных из баз данных, электронных таблиц, файлов с разделителями-запятыми (CSV) и т. д.

· Очистите наборы данных, например, обработав пропущенные значения.

· Аккуратные наборы данных путем преобразования их структуры в формат, подходящий для анализа.

· Агрегировать данные путем расчета сводной статистики, такой как среднее значение столбцов, корреляция между ними и многое другое.

· Визуализируйте наборы данных и раскрывайте идеи.

Установить панд

Установка pandas проста; просто используйте команду pip install в своем терминале.

pip install pandas

Импорт данных в пандах

Чтобы начать работу с pandas, импортируйте пакет pandas Python, как показано ниже. При импорте панд наиболее распространенным псевдонимом для панд является pd.

import pandas as pd

Серия панд

Что такое серия?

Серия Pandas похожа на столбец в таблице. Это одномерный массив, содержащий данные любого типа. Давайте создадим простую серию Pandas из списка:

import pandas as pd

a = [1, 7, 2]

myvar = pd.Series(a)

print(myvar)

Вывод

0    1
1    7
2    2
dtype: int64

Как видите, серия pandas — это всего лишь один столбец данных. Если мы хотим иметь несколько столбцов, мы используем фреймы данных. В приведенном ниже примере показано, что такое pandas DataFrames.

Фрейм данных Pandas

Что такое кадр данных

Pandas DataFrame – это двумерная потенциально гетерогенная табличная структура данных с изменяемым размером и помеченными осями (строки и столбцы). Фрейм данных — это двумерная структура данных, т. е. данные выровнены в виде таблицы в строках и столбцах. Pandas DataFrame состоит из трех основных компонентов: данных, строк и столбцов.

Создайте простой Pandas DataFrame:

import pandas as pd

data = {
  "calories": [420, 380, 390],
  "duration": [50, 40, 45]
}

#load data into a DataFrame object:
df = pd.DataFrame(data)

print(df)

Вывод

     calories  duration
  0       420        50
  1       380        40
  2       390        45

Как видно из приведенного выше результата, DataFrame похож на таблицу со строками и столбцами.

Фрейм данных с использованием словаря

Мы также можем создать кадр данных pandas, используя словарь

data = {'Name': ['Asabeneh', 'David', 'John'], 'Country':[
    'Finland', 'UK', 'Sweden'], 'City': ['Helsiki', 'London', 'Stockholm']}
df = pd.DataFrame(data)
print(df)

Вывод

  Name      Country   City
0 Asabeneh  Finland   Helsiki
1 David     UK        London
2 John      Sweden    Stockholm

давайте используем предыдущий пример для создания DataFrame. После того, как мы создадим DataFrame, мы начнем изменять столбцы и значения столбцов.

Изменение фрейма данных

Иногда вы хотите изменить или обновить данные столбца в кадре данных pandas. Затем в пандах есть функция, которая позволяет обновлять записи столбца или добавлять новый столбец.

Как всегда, сначала импортируем необходимые пакеты. Теперь давайте импортируем pandas и numpy, двух лучших друзей.

import pandas as pd
import numpy as np
data = [
    {"Name": "Asabeneh", "Country":"Finland","City":"Helsinki"},
    {"Name": "David", "Country":"UK","City":"London"},
    {"Name": "John", "Country":"Sweden","City":"Stockholm"}]
df = pd.DataFrame(data)
print(df)

Вывод

  Name      Country   City
0 Asabeneh  Finland   Helsinki
1 David     UK        London
2 John      Sweden    Stockholm

Добавление нового столбца

Давайте добавим столбец возрастов в DataFrame

ages = [74, 78, 69]
df['Weight'] = weights
print(df)

Вывод

  Name     Country  City      ages
0 Asabeneh Finland  Helsinki  74
1 David    UK       London    78
2 John     Sweden   Stockholm 69

Как вы можете видеть в DataFrame выше, мы добавили новые столбцы, возраст

Pandas Чтение CSV

Простой способ хранения больших наборов данных — использовать файлы CSV (файлы, разделенные запятыми). Файлы CSV содержат обычный текст и являются хорошо известным форматом, который могут читать все, включая Pandas. В наших примерах мы будем использовать файл CSV с именем data.csv.

import pandas as pd

df = pd.read_csv('data.csv')

print(df.to_string())

Вывод

    Duration  Pulse  Maxpulse  Calories
0          60    110       130     409.1
1          60    117       145     479.0
2          60    103       135     340.0
3          45    109       175     282.4
4          45    117       148     406.0
5          60    102       127     300.5
6          60    110       136     374.0
7          45    104       134     253.3
8          30    109       133     195.1
9          60     98       124     269.0
10         60    103       147     329.3
11         60    100       120     250.7
12         60    106       128     345.3
13         60    104       132     379.3
14         60     98       123     275.0
15         60     98       120     215.2
16         60    100       120     300.0
17         45     90       112       NaN
18         60    103       123     323.0
19         45     97       125     243.0
20         60    108       131     364.2
21         45    100       119     282.0
22         60    130       101     300.0

заключение

Следуя советам и методам, изложенным в этом руководстве по пандам для начинающих, вы сможете уверенно начать работу со своими собственными наборами данных и использовать возможности панд для извлечения значимой информации из ваших данных. Независимо от того, являетесь ли вы студентом, исследователем или аналитиком данных, pandas — незаменимый инструмент, который может помочь вам оптимизировать рабочий процесс и достичь поставленных целей. Итак, начните изучать панд сегодня и откройте для себя бесконечные возможности анализа данных и манипулирования ими.

Увидимся дальше.