Новый инструмент поиска наборов данных Google был обнародован 23 января 2020 года. Все эти наборы данных уже были доступны в Интернете, но Google просто упростил для специалистов по обработке данных поиск определенного набора данных с помощью специального инструмента поиска.

Как Google делает наборы данных доступными для поиска?

В отличие от других репозиториев, которые сами курируют и размещают наборы данных, Google не курирует и не предоставляет прямой доступ к 25 миллионам наборов данных напрямую. Вместо этого Google полагается на то, что издатели наборов данных будут использовать открытые стандарты schema.org для описания метаданных своего набора данных. Затем Google индексирует и делает эти метаданные доступными для поиска среди издателей.

Наборы данных легче найти, если вы предоставляете вспомогательную информацию, такую ​​как их имя, описание, создатель и форматы распространения, в виде структурированных данных. Подход Google к обнаружению наборов данных использует schema.org и другие стандарты метаданных, которые можно добавлять на страницы, описывающие наборы данных. Цель этой разметки — улучшить обнаружение наборов данных из таких областей, как науки о жизни, социальные науки, машинное обучение, гражданские и государственные данные и т. д. Вы можете найти наборы данных с помощью инструмента Поиск набора данных.

Однако, на мой взгляд, Kaggle по-прежнему гораздо предпочтительнее, поскольку наборы данных обычно предлагают код для получения информации в дополнение к системе рейтингов.

Google проиндексировал почти 25 миллионов наборов данных, уже доступных в Интернете, предоставив каждому единое место для поиска наборов данных и ссылок на места их хранения.

Что нового в поисковике?

Самое лучшее в новом инструменте поиска — это то, что люди могут фильтровать результаты по разным типам, таким как изображения, текст и таблицы. Вы также можете узнать, предоставляются ли данные издателем бесплатно или нет, что упрощает использование.

Как сделать ваши данные доступными для обнаружения?

Сайты должны следовать руководству по структурированным данным. В дополнение к рекомендациям по структурированным данным Google рекомендует следующие передовые методы карты сайта и источника и происхождения, перечисленные на их веб-сайте.

Что дальше?

Поиск набора данных вышел из бета-версии, но Google продолжит улучшать продукт, независимо от того, есть ли рядом с ним «бета».

Источник: Google