Как я набрал 82,3% и оказался в топ-3% набора данных Kaggle Titanic

Что касается моей истории, я не профессиональный специалист по данным, но постоянно стремлюсь им стать. К счастью, имея Python в качестве основного оружия, у меня есть преимущество в области науки о данных и машинного обучения, поскольку этот язык поддерживает меня в виде обширных библиотек и фреймворков. Я также читаю книги по этой теме, и мои любимые - «Введение в машинное обучение с помощью Python: руководство для специалистов по данным» и «Практическое машинное обучение с помощью Scikit-Learn и TensorFlow ».

Но одного этого было недостаточно. Просматривая различные блоги, просматривая несколько сайтов и обсуждая с друзьями, я выяснил, что для того, чтобы стать экспертом в области данных, мне определенно нужно поднять ставку. Участвуйте в соревнованиях, укрепляйте присутствие в Интернете, и этот список можно продолжать и продолжать. Потом я наткнулся на Kaggle. Подобно HackerRank для общих алгоритмических соревнований, Kaggle специально разработан для задач машинного обучения. Пришлось попробовать. Здесь проводятся различные соревнования, в которых известная проблема «Титаника» - это то, что приветствует вас при регистрации на портале. Что дальше? Я загрузил данные обучения, настроил свою машину со всеми библиотеками, которые мне когда-либо понадобятся для ее решения. Я даже инициализировал пустой репозиторий, чтобы потом избавиться от неприятностей. Оставалось только обработать данные и обучить модель. «Должно быть просто, насколько это может быть сложно?», - спросила я себя с ухмылкой.

«Должно быть просто, насколько это может быть сложно?», - спросила я себя с ухмылкой.

Я поспешно проанализировал данные из загруженного CSV-файла, скормил их модели дерева решений для обучения, спрогнозировал выживаемость тестовых пассажиров и загрузил результаты. Я получил 64% и был в последних 7% таблицы лидеров. Да, вы прочитали правильно; нижние 7% !!!

Вот моя оригинальная, первая версия кода

Результаты сокрушили мое эго прямо перед моим лицом. Да, он научил меня, что проблемы реального мира не могут быть решены в 5 строках кода. Я говорю это в контексте одного из моих предыдущих блогов - « Простая модель машинного обучения в Python в 5 строк кода »: D

Это научило меня, что проблемы реального мира не могут быть решены в 5 строках кода.

Я откинулся на спинку кресла, снова зашел и прочитал еще главы из книг, о которых я упоминал ранее. Я внимательно прочитал часть «Построение полной модели машинного обучения от начала до конца». Таким образом, речь идет не о загрузке мусора в модель, данные должны быть как можно более чистыми, что напрямую отражает производительность используемой модели.

Анализ начинается сейчас ...

Поскольку я использовал Jupyter Notebook для анализа, перейдите в мой проект на github для подробного анализа. Ссылка здесь:

‹ Исходный код - Последняя итерация ›

ramansah / kaggle-titanic
Внесите свой вклад в развитие kaggle-titanic, создав учетную запись на GitHub. github.com

Мой профиль Kaggle

Я также создал хобби-проект, чтобы улучшить свои навыки в Python и машинном обучении. В настоящее время размещено здесь (в настоящее время неактивно) он может запускать и сохранять некоторые модели машинного обучения в облаке. Хотя нужно еще улучшить ...

смотрите также:

Новые материалы

Обучение модели Keras с большим набором данных (пакетное обучение)

Привет народ!! В этом блоге я собираюсь обсудить очень интересную особенность Keras. При обучении любой модели глубокого обучения обязательным условием для получения хорошего результата..

Раскрытие возможностей сверточных нейронных сетей: обучение аутентификации изображений

1.0 ВВЕДЕНИЕ В области анализа цифровых изображений насущной необходимостью стала разработка надежных методов, позволяющих отличить подлинные изображения от поддельных. С появлением сложных..

Изучение основных библиотек Python для науки о данных

В эпоху больших данных и информационной перегрузки способность извлекать значимую информацию из огромных наборов данных стала важнейшим навыком. Именно здесь в игру вступает наука о данных...

Легко загружать в React элемент HTML в виде изображения

Много раз на наших сайтах нам нужно сделать кнопку доступной для пользователей, чтобы они могли загружать содержимое страницы. Иногда нам нужно загрузить таблицу, график или, в более общем..

Запуск кластера Stable Diffusion на GCP с обслуживанием tensorflow (часть 1)

Часть 1. Настройка инфраструктуры с помощью Terraform В первой части этого руководства, состоящего из двух частей, мы научимся создавать кластер Kubernetes, который развертывает модель Stable..

Внедрение человечности в машинное обучение

Иногда мне хочется, чтобы прогресс в кодировании был хоть немного более полезным. Если использовать баскетбол — еще одно хобби всей моей жизни — для сравнения: когда я забиваю мяч, это гораздо..

Обнаружение выражений лица и поз с помощью машинного обучения

От обнаружения лица человека до доступа к устройствам или распознавания человека с помощью камер видеонаблюдения или прогнозирования стратегий в спорте путем определения ключевых точек поз или..

Метки

Machine Learning JavaScript Data Science Artificial Intelligence Python Web Development Software Development Coding Deep Learning AI React Software Engineering Computer Science Android Development Front End Development Java Python Programming Startup CSS Angular Algorithms Tech NLP HTML Data Programming Languages Nodejs Learning Data Visualization Statistics Javascript Development Science Computer Vision Neural Networks Typescript Blockchain AWS