Визуальное введение в матрицу путаницы и метрики классификации.

Проблема

Некоторое время назад профессор биологии сказал мне, что "Все грибы съедобны, но некоторые только один раз". Если оставить в стороне мрачное чувство юмора ученых, грибы — отличный пример, иллюстрирующий тонкости проблемы классификации и ввести показатели эффективности, обычно применяемые в этом контексте.

Ситуация следующая: как известно, одни сорта грибов являются деликатесом, а другие ядовиты и даже могут привести к летальному исходу. Разве не было бы здорово обучить модель машинного обучения для автоматической идентификации ядовитых грибов, если вы являетесь экспертом в области анализа данных? В конце концов, это всего лишь проблема бинарной классификации: ядовитый (положительный случай) или съедобный (отрицательный).

Прежде всего нам нужен размеченный набор данных, состоящий из достаточно большого количества грибов, для которых мы уже знаем правильную классификацию. На этой стадии проекта определенно пригодится опытный миколог.

Следующим шагом будет разделение набора данных на обучающий и тестовый наборы. Разумным разделением было бы 70% обучения и 30% теста. Тем не менее, другие подразделения также подходят в зависимости от количества доступных наблюдений и доли каждого класса.

Обучить модель непросто. В этом случае входные переменные — это характеристики каждого гриба, а выходная или целевая переменная — желаемая классификация на ядовитые или съедобно. На этом этапе важно подчеркнуть, что модель должна обучаться исключительно на обучающем наборе и оцениваться на тестовом наборе. Поскольку проектирование и подгонка моделей не входит в задачу этой статьи, давайте пропустим эту часть и предположим, что… Вуаля! Модель готова.

Теперь мы подходим к захватывающей части. Насколько хороша модель? Чтобы ответить на этот вопрос, мы используем его, чтобы предсказать, являются ли грибы в тестовом наборе ядовитыми или нет. Хотя мы уже знаем ответ, модель не видела их раньше. Следовательно, сравнивая предсказанные и фактические значения, мы можем измерить эффективность классификации и возможность обобщения.

Тестирование модели и измерение производительности

Здесь у нас есть тестовый набор, состоящий из 12 грибов. Соответствующие им характеристики находятся слева, а в крайнем правом столбце указано, ядовиты они или съедобны. Далее мы делаем прогнозы с помощью нашей модели. Сравнивая прогнозы в центре и фактические значения справа, мы обнаруживаем, что модель правильно классифицирует одни экземпляры и допускает ошибки в других.

Когда модель точно классифицирует ядовитый гриб (положительный случай), это называется истинным положительным результатом. Точно так же правильная идентификация съедобного гриба (отрицательный результат) является истинным отрицательным результатом.

Это правильные ответы, а есть и ошибки. Ложное срабатывание происходит, когда модель маркирует съедобный гриб как ядовитый. И наоборот, False Negative — это ядовитый продукт, ошибочно классифицированный как съедобный. Их также называют ошибками типа I и типа II соответственно.

Однако не все ошибки одинаковы. Серьезность зависит от конкретных деталей проблемы. Например, в нашем случае ложноотрицательный результат намного хуже ложноположительного. Почему?

Ложноотрицательный результат означает, что ядовитый гриб был ошибочно идентифицирован как съедобный. Это серьезная опасность для здоровья, поскольку потенциально может иметь вредные или даже смертельные последствия. И наоборот, ложноположительный результат, или классификация съедобного гриба как ядовитого, не имеет никаких реальных последствий, кроме выбрасывания продуктов в идеальном состоянии и их выбрасывания в мусорное ведро.

Матрица путаницы

Эти результаты могут быть отображены в таблице с особым форматом, известным как матрица путаницы. Горизонтальные строки представляют наблюдаемые классы, а столбцы показывают прогнозируемые классы. В задаче бинарной классификации они пересекаются в четырех ячейках, описывающих все возможные результаты.

Правильные классификации показаны по диагонали, а ошибки — снаружи. Это позволяет найти, где модель смешивает два класса (отсюда и название). Имейте в виду, что эта матрица может отображаться транспонированной во многих документах и ​​программных пакетах, то есть прогнозы в строках и фактические значения в столбцах. Оба варианта широко распространены в литературе.

Другой способ: диаграмма Венна

Мы можем проиллюстрировать эти результаты с помощью диаграммы Венна. Фактические классы отображаются в прямоугольной области на заднем плане. Затем мы обводим прогнозируемые положительные результаты пунктирной кривой. Люди внутри этой области — это те, кого модель идентифицировала как ядовитые. В лучшем случае эта область полностью перекрывается с красной областью, так как это будет означать, что модель правильно классифицирует каждый гриб. К сожалению, в примере этого не происходит.

Хотя матрица путаницы и диаграмма Венна — отличные инструменты для визуализации того, насколько хорошо работает модель, было бы здорово объединить производительность в одно числовое значение. Поскольку классификация является многогранной проблемой, доступно множество показателей, каждый из которых фокусируется на определенном аспекте. Давайте поближе познакомимся с некоторыми из них.

Чувствительность, отзыв или истинная положительная частота (TPR)

Насколько хорошо модель может обнаруживать ядовитые грибы?

Другими словами, чувствительность — это отношение истинно положительных результатов к наблюдаемым положительным результатам.

Чувствительность – это предпочтительный показатель, когда высшим приоритетом при обучении модели является получение как можно большего количества положительных результатов (наш пример).

Специфичность или истинно отрицательный показатель (TNR)

Насколько хорошо модель может обнаруживать съедобные грибы?

Аналогичным образом, специфичность — это отношение истинно отрицательных результатов к фактически отрицательным результатам.

Специфичность — правильный выбор, когда возникновение ложных срабатываний нежелательно, как если бы мы хотели внимательно следить за тем, сколько съедобных грибов выбрасывается.

Точность или положительная прогностическая ценность (PPV)

Какая часть грибов, которые считаются ядовитыми, на самом деле ядовиты?

Хотя чувствительность и специфичность сосредоточены на наблюдаемых классах, некоторые показатели измеряют эффективность прогнозов. Например, точность – это отношение истинно положительных результатов к прогнозируемым положительным результатам.

Точность — это показатель, который следует отслеживать, если вы хотите быть уверенными в прогнозируемых положительных результатах.

Точность

Какова доля правильных классификаций?

Должна быть полезна уникальная метрика, которая одновременно измеряет как истинные положительные, так и отрицательные стороны. К сожалению, точность приводит к вводящим в заблуждение результатам при проблемах с несбалансированными классами.

Если вам нужно обобщить общую эффективность классификатора в одном значении, взгляните на такие показатели, как сбалансированная точность, оценка F1 или область под кривой. (AUC).

Наивная модель: правило большинства

Мы приложили немало усилий, чтобы построить модель, но как мы можем убедиться, что она стоит затраченных усилий? Имеют ли предсказания какую-либо ценность? Лучше ли использование модели, чем отсутствие модели вообще?

Чтобы ответить на этот вопрос, мы должны подтвердить, что модель предоставляет достаточно информации, чтобы оправдать ее существование. Выбор модели – это достаточно сложная задача, чтобы заслужить отдельный пост; однако давайте взглянем на тему и кратко представим концепцию наивной модели: простой модели, которая дает прогноз без использования каких-либо входных данных, имеющихся в ее распоряжении.

Разумным выбором для наивной модели классификации является правило большинства. Он игнорирует входные переменные и помечает каждого человека как наиболее часто наблюдаемый класс в обучающем наборе (отрицательный или съедобный в нашем примере). Эта модель недорога в изготовлении и должна быть правильной чаще, чем нет. В частности, точность этой модели, также известная как коэффициент отсутствия информации, представляет собой долю большинства классов в обучающей выборке.

Каждая модель должна превзойти этот эталонный показатель, чтобы быть значимой. В противном случае ее использование бессмысленно, и мы должны либо придерживаться превосходной наивной модели, либо вернуться к таблице проектирования и переосмыслить наш подход.

Заключение

Двоичная классификация – это распространенный метод, которым должен овладеть каждый специалист по данным, поскольку он лежит в основе многих деловых и научных проблем. Хорошее понимание этой основы также имеет решающее значение, поскольку мультиклассовая классификация расширяет и обобщает эти концепции. Чем больше инструментов будет в вашем наборе инструментов для обработки данных, тем лучше вы будете подготовлены к решению новых и сложных задач.

Надеюсь, эта статья оказалась для вас полезной… и будьте осторожны с грибами!

Дополнительная литература