Поиск похожих видео-роликов на основе анализа...

Preview:

DESCRIPTION

На сервисе Яндекс.Видео очень остро стояла проблема поиска и удаления пиратского видео. В докладе описывается принцип работы недорогой, но эффективной системы, позволяющей находить все копии нелегально загруженного ролика, а также ролики, содержащие любые его части.

Citation preview

Поиск одинаковых видеороликов по содержимому

Анатолий Борисов

Я.Субботник, Нижний Новгород, 13.12.2014

Хотим научиться искать копии видео-роликов

Простота. Скорость. Эффективность.

Как искать? Идеи?

Попробуем свести задачу к поиску похожего текста

● Подавляющее большинство видео (в особенности защищенных авт правом - мультфильмы, фильмы, передачи) разбито на сцены.

● Подавляющее большинство видео (в особенности защищенных авт правом - мультфильмы, фильмы, передачи) разбито на сцены.

Используем ffmpeg!

ffmpeg -i input.mp4 -vf 'select=gt(scene\,0.3)' -vsync 0 -an scr%05d.png

Что дальше?

● Для каждой картинки можно попытаться построить хеш, который будет устойчив к небольшим изменениям.

0x1feff41c1c66807730180

habrahabr.ru/post/120562/

Хеширование кадров

Хеширование кадров

Хеширование кадров

Хеширование кадров

Хеширование кадров

0x1feff41c1c66807730180

Получилось!

Складываем все в полно-текстовый поиск

Elasticsearch

«Тривиальные» хеши

«Тривиальные» хеши

«Тривиальные» хеши

Случай из жизни

Результаты

● После года работы система нашла и удалила столько же нелегальных роликов, сколько было заблокировано всеми сотрудники службы поддержки

● За все время работы была только одна жалоба на ошибочно удаленный ролик.

Вопросы?

Контакты

Борисов Анатолийtobo@yandex-team.ru