Вы готовы начать свое путешествие с пандами? Вот пошаговое руководство о том, как начать.
Введение
pandas, пожалуй, самый важный пакет Python для анализа данных. С более чем 100 миллионами загрузок в месяц это де-факто стандартный пакет для обработки данных и исследовательского анализа данных. Его способность читать и записывать в обширный список форматов делает его универсальным инструментом для специалистов по науке о данных. Его функции обработки данных делают его очень доступным и практичным инструментом для сбора, анализа и очистки данных. Pandas добавляет структуры данных и инструменты, предназначенные для работы с табличными данными, такими как Серии и Фреймы данных.
Что такое панды?
pandas — это пакет обработки данных в Python для табличных данных. То есть данные в виде строк и столбцов, также известные как DataFrames. Интуитивно вы можете думать о DataFrame как о листе Excel.
Функциональность pandas включает в себя преобразование данных, например сортировку строк и получение подмножеств, для вычисления сводной статистики, такой как среднее значение, изменение формы фреймов данных и объединение фреймов данных вместе. pandas хорошо работает с другими популярными пакетами обработки данных Python, часто называемыми экосистемой PyData, в том числе
· NumPy для численных вычислений
· Matplotlib, Seaborn, Plotly и другие пакеты визуализации данных
· scikit-learn для машинного обучения
Для чего используются панды?
pandas используется на протяжении всего рабочего процесса анализа данных. С пандами вы можете:
· Импорт наборов данных из баз данных, электронных таблиц, файлов с разделителями-запятыми (CSV) и т. д.
· Очистите наборы данных, например, обработав пропущенные значения.
· Аккуратные наборы данных путем преобразования их структуры в формат, подходящий для анализа.
· Агрегировать данные путем расчета сводной статистики, такой как среднее значение столбцов, корреляция между ними и многое другое.
· Визуализируйте наборы данных и раскрывайте идеи.
Установить панд
Установка pandas проста; просто используйте команду pip install
в своем терминале.
pip install pandas
Импорт данных в пандах
Чтобы начать работу с pandas, импортируйте пакет pandas Python, как показано ниже. При импорте панд наиболее распространенным псевдонимом для панд является pd
.
import pandas as pd
Серия панд
Что такое серия?
Серия Pandas похожа на столбец в таблице. Это одномерный массив, содержащий данные любого типа. Давайте создадим простую серию Pandas из списка:
import pandas as pd a = [1, 7, 2] myvar = pd.Series(a) print(myvar)
Вывод
0 1 1 7 2 2 dtype: int64
Как видите, серия pandas — это всего лишь один столбец данных. Если мы хотим иметь несколько столбцов, мы используем фреймы данных. В приведенном ниже примере показано, что такое pandas DataFrames.
Фрейм данных Pandas
Что такое кадр данных
Pandas DataFrame – это двумерная потенциально гетерогенная табличная структура данных с изменяемым размером и помеченными осями (строки и столбцы). Фрейм данных — это двумерная структура данных, т. е. данные выровнены в виде таблицы в строках и столбцах. Pandas DataFrame состоит из трех основных компонентов: данных, строк и столбцов.
Создайте простой Pandas DataFrame:
import pandas as pd data = { "calories": [420, 380, 390], "duration": [50, 40, 45] } #load data into a DataFrame object: df = pd.DataFrame(data) print(df)
Вывод
calories duration 0 420 50 1 380 40 2 390 45
Как видно из приведенного выше результата, DataFrame похож на таблицу со строками и столбцами.
Фрейм данных с использованием словаря
Мы также можем создать кадр данных pandas, используя словарь
data = {'Name': ['Asabeneh', 'David', 'John'], 'Country':[ 'Finland', 'UK', 'Sweden'], 'City': ['Helsiki', 'London', 'Stockholm']} df = pd.DataFrame(data) print(df)
Вывод
Name Country City 0 Asabeneh Finland Helsiki 1 David UK London 2 John Sweden Stockholm
давайте используем предыдущий пример для создания DataFrame. После того, как мы создадим DataFrame, мы начнем изменять столбцы и значения столбцов.
Изменение фрейма данных
Иногда вы хотите изменить или обновить данные столбца в кадре данных pandas. Затем в пандах есть функция, которая позволяет обновлять записи столбца или добавлять новый столбец.
Как всегда, сначала импортируем необходимые пакеты. Теперь давайте импортируем pandas и numpy, двух лучших друзей.
import pandas as pd import numpy as np data = [ {"Name": "Asabeneh", "Country":"Finland","City":"Helsinki"}, {"Name": "David", "Country":"UK","City":"London"}, {"Name": "John", "Country":"Sweden","City":"Stockholm"}] df = pd.DataFrame(data) print(df)
Вывод
Name Country City 0 Asabeneh Finland Helsinki 1 David UK London 2 John Sweden Stockholm
Добавление нового столбца
Давайте добавим столбец возрастов в DataFrame
ages = [74, 78, 69] df['Weight'] = weights print(df)
Вывод
Name Country City ages 0 Asabeneh Finland Helsinki 74 1 David UK London 78 2 John Sweden Stockholm 69
Как вы можете видеть в DataFrame выше, мы добавили новые столбцы, возраст
Pandas Чтение CSV
Простой способ хранения больших наборов данных — использовать файлы CSV (файлы, разделенные запятыми). Файлы CSV содержат обычный текст и являются хорошо известным форматом, который могут читать все, включая Pandas. В наших примерах мы будем использовать файл CSV с именем data.csv.
import pandas as pd df = pd.read_csv('data.csv') print(df.to_string())
Вывод
Duration Pulse Maxpulse Calories 0 60 110 130 409.1 1 60 117 145 479.0 2 60 103 135 340.0 3 45 109 175 282.4 4 45 117 148 406.0 5 60 102 127 300.5 6 60 110 136 374.0 7 45 104 134 253.3 8 30 109 133 195.1 9 60 98 124 269.0 10 60 103 147 329.3 11 60 100 120 250.7 12 60 106 128 345.3 13 60 104 132 379.3 14 60 98 123 275.0 15 60 98 120 215.2 16 60 100 120 300.0 17 45 90 112 NaN 18 60 103 123 323.0 19 45 97 125 243.0 20 60 108 131 364.2 21 45 100 119 282.0 22 60 130 101 300.0
заключение
Следуя советам и методам, изложенным в этом руководстве по пандам для начинающих, вы сможете уверенно начать работу со своими собственными наборами данных и использовать возможности панд для извлечения значимой информации из ваших данных. Независимо от того, являетесь ли вы студентом, исследователем или аналитиком данных, pandas — незаменимый инструмент, который может помочь вам оптимизировать рабочий процесс и достичь поставленных целей. Итак, начните изучать панд сегодня и откройте для себя бесконечные возможности анализа данных и манипулирования ими.
Увидимся дальше.