В этом посте я пытаюсь объяснить статью под названием Neural Best Buddies: Sparse Cross-Domain Correspondence Кфира Абермана и др. [2018]. В этой статье рассматривается фундаментальная проблема соответствия изображений в компьютерном зрении и дается эффективный метод извлечения соответствия между междоменными объектами с разреженностью. Он использует сверточные нейронные сети (CNN) для извлечения глубоких признаков и дальнейшего их анализа с ближайшим соседством. Более ранние методы сопоставления признаков, такие как SIFT, имели дело с изображениями одного класса в разных морфологических точках зрения с плотным соответствием. Но в этой статье основное внимание уделяется междоменным объектам с значимыми точками соответствия признаков в различных формах и внешнем виде.

Выяснение проблем:

  1. Междоменное соответствие: В общем, как мы можем сопоставить крыло самолета с крылом летящей птицы или клюв зимородка со сверхскоростным пассажирским экспрессом. Это фундаментальная проблема. Это может быть сложной задачей даже для человека.
  2. Поиск наилучших совпадений: каждая функция, полученная на изображении_A, может не иметь соответствующей функции в изображении_B, как нет неизбежного смысла сопоставлять львиный хвост где-то на изображении человека. Таким образом, плотная корреспонденция не может быть хорошим подходом для междоменной корреспонденции.
  3. Нижние слои CNN сильно различаются по цвету и внешнему виду. Поскольку междоменные объекты на изображениях никогда не выглядят одинаково, и их цвет может не всегда быть одинаковым. Это очень важно для перекрестного домена.

Изображение взято из авторской бумаги

Поиск решений:

  1. Основное допущение здесь состоит в том, что объекты содержат хотя бы некоторые семантически связанные части геометрически сходных областей, в противном случае задачу соответствия нельзя считать четко определенной (см. рис. выше). Они ввели концепцию, называемую лучшими нейронными друзьями, где каждая пара нейронов между объектами имеет одинаковое значение активации (соответствие) только при условии семантического сходства.
  2. Поскольку мы не можем сопоставить каждую функцию между изображениями, поскольку междоменные изображения сильно различаются по форме, позе и точке обзора, поэтому может быть невозможно все время плотно сопоставлять их, следовательно, этот метод отображает только «значимые» функции ( sparse) в обоих объектах с использованием CNN и KNN.
  3. Поскольку нижние слои CNN различаются по цвету и внешнему виду, авторы приняли выходные данные более глубоких слоев CNN как «своего рода базовую истину», которая представляет весь объект. Преимущество использования более глубоких слоев заключается в высокой инвариантности к цвету, позе и расположению объекта.

Изображение взято из авторской бумаги

Все начинается из глубины….:

Сверточные нейронные сети широко используются в задачах компьютерного зрения, таких как обнаружение объектов, классификация и локализация. Было показано, что более глубокие слои обученной сети классификации извлекают высокоуровневые отличительные признаки с инвариантностью к положению и внешнему виду, в то время как более мелкие слои кодируют низкоуровневые признаки изображения, такие как края, углы и т. д. Более глубокие слои CNN могут использоваться для извлечения значимых признаков, а поверхностные слои — для сопоставления соответствующих признаков между объектами.

Передача стиля:

В этой статье мы хотим использовать алгоритм передачи стиля изображений для компенсации визуальных различий на нижних уровнях CNN. Они выполняют перенос стиля в интересующую локальную область для рассмотрения производительности. Этот метод использует своего рода нейронный алгоритм передачи стиля путем нормализации статистики признаков, которая говорит, что стиль в основном содержится в среднем и стандартном отклонении каналов глубоких признаков (eq-4 в статье).

Нейронные лучшие друзья:

Neural Best Buddies (NBB) — это пары активаций нейронов, которые являются взаимно ближайшими соседями между объектами. Сопоставление соответствия между двумя изображениями включает в себя извлечение отдельных признаков и сопоставление на основе метрик. Допустим, P и Q являются локальными областями (полученными из слоя l-1) векторов признаков F_Al и F_Bl изображений A и B на слое l. Мы говорим, что нейроны p принадлежат P, а q принадлежат Q, являются ближайшими соседями тогда и только тогда, когда p под множеством Q под функцией расстояния подобия (уравнение 2). Эта мера определяется как передача локального стиля областей P и Q, скажем, C_A и C_B, представлений, соответствующих во входных изображениях A и B, по их норме L2 расстояния обоих sytlized изображений.

Алгоритм:

Шаги:

  1. Возьмите два изображения RGB.
  2. Передайте эти два изображения в сеть VGG19 (сеть классификации CNN) и получите промежуточные выходные данные в reluL_1 (L = 1,2,3,4,5, L = слой).
  3. Предположим, что выходные данные 5-го слоя представляют собой своего рода наземную правду, которая представляет изображение, инвариантное к позе, цвету и местоположению, поскольку слой является глубоким.
  4. для наборов функций от 4 до 1:
    4.1. Примените преобразование локального стиля для области с повышенной частотой дискретизации, полученной из предыдущего слоя. Область с повышенной частотой дискретизации имеет радиус (для слоя=2,3 равен 4, а для слоя=4,5 равен 6)
    4.2. Выполните расчет ближайших соседей для слоев и сгенерируйте пары нейронных лучших друзей.
    4.3. Извлечение лучших соответствий на основе нормализованной карты активации.
    4.4. Если слой=2,3,4, то обрезать область поиска для верхнего слоя с радиусом (для слоя=2,3 это 4, а для слоя=4,5 это 6). Примените преобразование стиля к этой обрезанной области обоих изображений.
  5. Извлеките местоположения области поиска из 1-го слоя, т.е. входных изображений.

Оценка:

Насколько известно авторам, подобных работ ранее не проводилось. Авторы также провели исследование пользователей и попросили участников сопоставить две наиболее соответствующие функции между изображениями. Они наблюдали сильный консенсус между картированием, основанным на человеке, и картированием, созданным алгоритмом.

Ограничения:

Базовое предположение этого алгоритма состоит в том, что объект содержит геометрически похожие области. На изображении ниже видно, что этот алгоритм хорошо работает с объектами в разных позах. Признаки глубокого слоя могут не быть чисто семантическими, а геометрия влияет на сходство глубоких участков, поскольку алгоритм строит соответствие из глубоких слоев, что может привести к ошибочным совпадениям.

Изображение взято из бумаги автора: Сравнение статичных поз коровы и лошади.

Приложение:

Этот метод можно использовать для отслеживания приложений с высокой точностью, а также для создания гибридных изображений, междоменного выравнивания изображений, преобразования изображений и многого другого.

Изображение взято из авторской бумаги : Пример семантической гибридизации

Дай мне знать, что ты думаешь!!