Что касается моей истории, я не профессиональный специалист по данным, но постоянно стремлюсь им стать. К счастью, имея Python в качестве основного оружия, у меня есть преимущество в области науки о данных и машинного обучения, поскольку этот язык поддерживает меня в виде обширных библиотек и фреймворков. Я также читаю книги по этой теме, и мои любимые - «Введение в машинное обучение с помощью Python: руководство для специалистов по данным» и «Практическое машинное обучение с помощью Scikit-Learn и TensorFlow ».

Но одного этого было недостаточно. Просматривая различные блоги, просматривая несколько сайтов и обсуждая с друзьями, я выяснил, что для того, чтобы стать экспертом в области данных, мне определенно нужно поднять ставку. Участвуйте в соревнованиях, укрепляйте присутствие в Интернете, и этот список можно продолжать и продолжать. Потом я наткнулся на Kaggle. Подобно HackerRank для общих алгоритмических соревнований, Kaggle специально разработан для задач машинного обучения. Пришлось попробовать. Здесь проводятся различные соревнования, в которых известная проблема «Титаника» - это то, что приветствует вас при регистрации на портале. Что дальше? Я загрузил данные обучения, настроил свою машину со всеми библиотеками, которые мне когда-либо понадобятся для ее решения. Я даже инициализировал пустой репозиторий, чтобы потом избавиться от неприятностей. Оставалось только обработать данные и обучить модель. «Должно быть просто, насколько это может быть сложно?», - спросила я себя с ухмылкой.

«Должно быть просто, насколько это может быть сложно?», - спросила я себя с ухмылкой.

Я поспешно проанализировал данные из загруженного CSV-файла, скормил их модели дерева решений для обучения, спрогнозировал выживаемость тестовых пассажиров и загрузил результаты. Я получил 64% и был в последних 7% таблицы лидеров. Да, вы прочитали правильно; нижние 7% !!!

Вот моя оригинальная, первая версия кода

Результаты сокрушили мое эго прямо перед моим лицом. Да, он научил меня, что проблемы реального мира не могут быть решены в 5 строках кода. Я говорю это в контексте одного из моих предыдущих блогов - « Простая модель машинного обучения в Python в 5 строк кода »: D

Это научило меня, что проблемы реального мира не могут быть решены в 5 строках кода.

Я откинулся на спинку кресла, снова зашел и прочитал еще главы из книг, о которых я упоминал ранее. Я внимательно прочитал часть «Построение полной модели машинного обучения от начала до конца». Таким образом, речь идет не о загрузке мусора в модель, данные должны быть как можно более чистыми, что напрямую отражает производительность используемой модели.

Анализ начинается сейчас ...

Поскольку я использовал Jupyter Notebook для анализа, перейдите в мой проект на github для подробного анализа. Ссылка здесь:

‹ Исходный код - Последняя итерация ›



Мой профиль Kaggle

Я также создал хобби-проект, чтобы улучшить свои навыки в Python и машинном обучении. В настоящее время размещено здесь (в настоящее время неактивно) он может запускать и сохранять некоторые модели машинного обучения в облаке. Хотя нужно еще улучшить ...