Новое программное обеспечение Google может подписывать изображения с ужасающей точностью

  • 04-02-2020
  • комментариев

Устали от тусклых результатов поиска в Картинках Google? Технический гигант, возможно, собирается это исправить.

Google создал систему машинного обучения, которая может брать изображение и создавать заголовок, точно описывающий, что происходит на этом изображении, поясняется в недавнем сообщении в блоге Google.

Возьмите, например, эту фотографию пиццы:

(Google)

Новое программное обеспечение Google выдало следующую подпись, чтобы описать это: «Две пиццы на плите духовки». Он пропустил бокал вина и не упомянул, что пицца выглядит печально подобранной, но, эй, это все еще довольно впечатляюще.

В сообщении блога отмечается, что во многих прошлых исследованиях изучалась способность компьютеров идентифицировать и маркировать объекты. «Но точное описание сложной сцены требует более глубокого представления о том, что происходит в этой сцене, - пишут они, - фиксируя, как различные объекты связаны друг с другом, и переводя все это на естественный язык».

Google получил идею проекта из уже существующего программного обеспечения, которое использует машинное обучение для перевода текста с одного языка на другой. В этих программах «рекуррентная нейронная сеть (RNN) преобразует, скажем, французское предложение в векторное представление, а вторая RNN использует это векторное представление для генерации целевого предложения на немецком языке», - поясняется в сообщении. Вот описание остальной части их процесса для всех компьютерных фанатов:

А что, если мы заменим эту первую RNN и ее входные слова глубокой сверточной нейронной сетью (CNN), обученной классифицировать объекты на изображениях? Обычно последний уровень CNN используется в окончательном Softmax среди известных классов объектов, присваивая вероятность того, что каждый объект может быть на изображении. Но если мы удалим этот последний слой, мы можем вместо этого передать богатую кодировку изображения CNN в RNN, предназначенную для создания фраз. Затем мы можем обучить всю систему непосредственно на изображениях и их подписях, чтобы максимизировать вероятность того, что описания, которые она производит, наилучшим образом соответствуют описанию обучения для каждого изображения.

Все это может показаться запутанным техническим языком, но похоже, что новая технология однажды сможет помочь людям в их повседневной жизни.

«Такая система, - говорится в сообщении, - в конечном итоге может помочь людям с ослабленным зрением понимать изображения, предоставлять альтернативный текст для изображений в тех частях мира, где скорость мобильного соединения низкая, а также упростить для всех поиск изображений в Google». ”

А пока вы можете ознакомиться с этой таблицей, в которой показаны некоторые другие попытки системы подписать изображения:

(Google)

[h / t The Wall Street Journal]

комментариев

Добавить комментарий