Компании, занимающиеся оптовой торговлей, хорошо осведомлены о дилемме конкуренции: низкие цены, множественные конкуренты, а иногда и неверные покупатели. Таким образом, эти компании должны выделяться с помощью маркетинговых стратегий, которые сегментируют потребительский рынок, прогнозируют спрос и создают дифференциацию от конкурентов.

Используя искусственный интеллект и алгоритмы машинного обучения, мы можем создавать модели, которые помогают выявлять лучших клиентов и направлять ресурсы для маркетинговых каналов, а также прогнозировать всплески запасов и продаж.
Маркетинг имеет решающее значение для каждого бизнеса, и при правильном использовании он может повысить силу бренда, улучшить отношения с клиентами и уменьшить необходимость установления низких цен для продолжения бизнеса.

В этой статье мы продемонстрируем пример анализа компании на оптовом рынке, базирующейся в Португалии.
Данные реальны и доступны из репозитория: UCI Wholesale Customers.

Мы начали наш проект с импорта библиотек Python, необходимых для этого анализа, как всегда, Pandas, Numpy и Matplotlib будут первыми в этом процессе, которые обеспечат импорт набора данных и первоначальный исследовательский анализ данных.

После импорта мы уже можем посмотреть, как структурированы наши данные:

Наши переменные отражают простую, но очень распространенную базу данных в оптовых компаниях. Посмотрим его состав:

FRESH - общие годовые затраты на свежие продукты;
MILK - общие годовые затраты на молочные продукты;
GROCERY - общие годовые затраты на продукты из супермаркетов;
FROZEN - общие годовые затраты на замороженные продукты;
DETERGENTS_PAPER - общие годовые затраты на чистящие средства;
DELICATESSEN - общие годовые затраты на деликатесы;
CHANNEL - тип канала потребителя, 1. Horeca (отель / ресторан / кафе), 2. розничная торговля)
РЕГИОН - регион, в котором проживает потребитель: 1. Лиссабон, 2. Порту, 3. Прочие.

Детализируя наш набор данных немного подробнее, мы понимаем, что у нас есть 8 переменных (2 категориальных и 6 числовых) и 440 наблюдений. У нас нет повторяющихся строк или пропущенных значений, поэтому мы можем продолжить анализ без каких-либо первоначальных корректировок.

Теперь мы можем изучить данные и взглянуть на отношения и поведение некоторых клиентов. Начнем с распределения покупателей по регионам:

Наши клиенты сконцентрированы в других регионах, хотя Лиссабон является преобладающим, если рассматривать его как уникальный регион.
Теперь посмотрим, как распределяются клиенты по отношению к годовым расходам на молочные продукты:

Из нашей диаграммы мы замечаем, что у большинства клиентов годовые расходы ниже 10 тыс., С некоторыми «выпадающими» клиентами, то есть немногими клиентами, которые потратили значительную сумму в течение года.

Когда мы анализируем расходы на молочные продукты по каналам (см. Рис. Ниже), мы отмечаем, что сектор гостиниц, ресторанов и кафе имеет значительный объем покупок, но с низкими значениями. Сектор розничной торговли представляет собой меньший объем и более дорогие покупки.

Затем давайте построим график, показывающий все переменные, разделенные по регионам, и разберемся с ежегодным покупательским поведением наших клиентов:

Как видно из графика, свежие (FRESH) и продукты из супермаркетов (GROCERY) хорошо продаются в трех регионах. Мы можем использовать эту информацию, чтобы определить спрос или даже начать кампанию по привлечению наименее продаваемых продуктов в каждом регионе.

Но существуют ли другие корреляции между переменными, которые приводят к более точным выводам? Давайте воспользуемся графиком тепловой карты, чтобы увидеть и понять эти корреляции:

Хм… теперь для анализа начинают выявляться интересные закономерности. Обратите внимание, что переменная Detergents_Paper имеет корреляцию почти 1 (0,92) с переменной Grocecy, что свидетельствует о сильной взаимосвязи между покупкой средств для чистки и гигиены и обычных товаров в супермаркетах.

Работая с другими переменными, такими как продукты для супермаркетов (бакалея) и чистящие средства (Detergents_Paper), мы можем создать модель искусственного интеллекта (машинное обучение), которая сегментирует наших потребителей и позволяет запускать персонализированные маркетинговые кампании для этих клиентов. Для создания этой модели мы используем алгоритм KMeans, и результат этой сегментации показан на «диаграмме рассеяния» ниже:

Наши клиенты были разделены на три отдельные группы, и через эти группы мы можем направлять наши маркетинговые действия на клиентов с большими объемами и низкой стоимостью покупки, небольшими объемами и высокой покупательной способностью или которые покупают определенные продукты.

Я надеюсь, что этот анализ дал вам идеи для просмотра ваших данных и поиска важных идей для ваших маркетинговых и таргетинговых кампаний.

До скорого!

Леонардо Ногейра
Специалист по анализу данных и директор по развитию бизнеса Code 4 Kidz
[email protected]