Общество11 октября 2021 9:56

ВКонтакте запустила в видео автоматические субтитры на базе собственных технологий распознавания речи

В обновлённом видеоплеере ВКонтакте появились автоматические субтитры на русском языке. Они созданы на базе собственных технологий соцсети по распознаванию речи, алгоритмов машинного обучения единой видеоплатформы и технологий интеллектуального шумоподавл
Автоматические субтитры будут полезны, когда важно соблюдать тишину, нужно посмотреть видео без звука или не хочется мешать окружающим

Автоматические субтитры будут полезны, когда важно соблюдать тишину, нужно посмотреть видео без звука или не хочется мешать окружающим

Новая технология автоматически генерирует текст, расставляет знаки препинания и заглавные буквы, распределяет текст по кадрам и обеспечивает точность появления субтитра в момент произнесения фразы. В отличие от существующих решений на рынке, технология ВКонтакте умеет проставлять в субтитрах знаки препинания и заглавные буквы, а в ближайшем будущем научится разделять речь спикеров на разные реплики. Всё это значительно повышает понятность расшифровки и упрощает чтение во время просмотра видео.

Соцсеть ведёт тестирование и дообучение новой технологии: субтитры в экспериментальном режиме уже доступны части аудитории в популярных роликах и видео из верифицированных сообществ в веб-версии и мобильном приложении ВКонтакте.

Смотреть видеосюжет
Автоматические субтитры ВКонтакте
Автоматические субтитры ВКонтакте

Автоматические субтитры будут полезны, когда важно соблюдать тишину, нужно посмотреть видео без звука или не хочется мешать окружающим: например, в метро или офисе. Также благодаря субтитрам людям с нарушениями слуха будет проще понимать содержание видео.

Для обеспечения высокого качества расшифровки субтитров аудиопоток проходит четыре этапа обработки. Сначала запись очищается от фоновых звуков с помощью уникальной технологии интеллектуального шумоподавления — это позволяет лучше определять речь не только на профессиональных видео, но и на любительских роликах. Затем нейросеть распознаёт слова и формирует из них текст. На третьем этапе подключается пунктуационная модель: она расставляет знаки препинания и заглавные буквы. Эти решения ВКонтакте ранее применила для распознавания аудиосообщений, а для работы с видео к ним добавили ещё один шаг: методы машинного обучения распределяют текст по кадрам, чтобы фраза появлялась точно в момент, когда говорящий её произносит.

Особое внимание уделено и производительности технологии автоматических субтитров. Инфраструктурные ресурсы используются максимально эффективно, что помогает обрабатывать все загруженные видео и быстро генерировать субтитры для новых роликов.

В ближайшее время смотреть видео с субтитрами станет ещё удобнее. Технология создания автоматических субтитров дополнится диаризацией — это процесс, в котором аудиопоток делится на реплики в соответствии с конкретным спикером. Благодаря диаризации, фразы разных людей в расшифровке будут самостоятельными, даже если собеседники общаются без заметных пауз.

Сначала автоматические субтитры появятся в видео верифицированных сообществ, а также в самых популярных роликах. До конца года автоматические субтитры станут доступны в большинстве видео ВКонтакте.

Александр Тоболь, технический директор ВКонтакте:

«В современном мире очень много информации, но, к сожалению, не для всех она одинаково доступна. ВКонтакте стремится разрушать любые барьеры в коммуникации между людьми, активно инвестируя в развитие речевых технологий. Все решения, использующиеся для автогенерации субтитров, — собственные разработки. Это позволяет адаптировать их под разные функции сервиса и настраивать для максимально эффективной работы. Например, для создания субтитров мы усовершенствовали наши ASR-технологии и реализовали решения, которые точно синхронизируют текст с речью на видео. В будущем мы продолжим развивать нейросетевые технологии и внедрять машинное обучение в разные сервисы ВКонтакте».

Ранее ВКонтакте полностью сняла ограничения на одновременное количество зрителей в прямых эфирах, а видео и трансляции стали доступны даже в сетях с нестабильным соединением и на слабых устройствах. Также обновления коснулись качества картинки: теперь пользователи могут смотреть видео и прямые эфиры в качестве 4К — оценить его помогает стриминг на сетевые медиаплееры Chromecast и AirPlay.