Хотя границы интернета давно стерты, языковой барьер все еще мешает смотреть многие интересные видео. Раньше для просмотра этих видео нужно было использовать субтитры или отрывочный машинный перевод, что было неудобным.
Тестирование новой нейросети Яндекса, которая переводит видео в реальном времени и озвучивает голосовой перевод, было совершенно новым опытом, который меня впечатлил.
Теперь я практически без труда смотрю зарубежные ролики, лекции и обзоры. Я хотел бы рассказать вам, как это работает на практике и что из этого вышло.
Попробовал нейросеть Яндекса, которая озвучивает в реальном времени иностранные видео на русском языке, и теперь не могу вспомнить, как раньше смотрел без этого. Голос звучит естественно, речь синхронизирована с видео, и не нужно читать субтитры. Это как волшебный переводчик в кармане: включаешь его и будто говоришь на языке оригинала.
Как работает автоперевод видео в Яндекс Браузере

Яндекс использовал речевые технологии, биометрию и технологию сервиса Переводчик для реализации функции. Интересно, что для озвучки видео используется сразу шесть нейросетей, а не одна.
Первый шаг состоит в том, чтобы определить язык говорящего. Если он говорит на языке, который браузер поддерживает, он предложит перевести содержимое на русский язык.
Вторая. Реализация речи в тексте. Из полученной модели создается аудиодорожка, из которой нейронка удаляет лишние звуки и слова-паразиты. Это делает текст более чистым.
Третья. Расставить знаки препинания и нормализовать текст.
Она получает набор переведенных слов, грамотные предложения и пунктуацию, сохраняя первоначальный смысл.
Нейросети передается определенный контекст, чтобы она могла лучше понять ролик, а затем сама расставить все по смыслу. Однако иногда требуется больше времени, чтобы достичь компромисса между задержкой и качеством в случае стриминга.
Если мы не уверены, нужно ли разделять предложения в данном месте, мы можем подождать, пока придут новые слова. Тогда мы либо лучше определимся с разделением, либо превысим ограничение по контексту и будем вынуждены разделять там, где мы почти уверены — Яндекс
Четвертая. По частоте звучания определяется количество спикеров, их пол и используемые местоимения. Мужской голос определяется как мужской или женской по частоте 80-150 Гц, а женский — 150-250 Гц.
Пятая: выполнение перевода материала на русский язык.
Шесть: синтезирует речь, делая паузы и соблюдая темп речи, иногда ускоряясь или замедляясь.
Как работает автоперевод трансляций
Примерная схема работы переводчика
Понятное дело, что стрим — это не еще готовый ролик; его нельзя оценить и наложить озвучку заранее.
Во втором случае нейросеть должна работать в режиме синхронного перевода по создающейся дорожке, хотя в первом случае она уже получает целую аудиодорожку для работы.

По этой причине, хотя технологии различаются, языковые модели остаются идентичными, для трансляций используется третья нейросеть. Эта нейросеть отвечает за нормализацию речи, выделяет вводные слова, определяет сложные предложения и так далее.
Система определяет предложения с законченными мыслями и отправляет их на перевод после того, как нейросеть расставит все знаки препинания.
Перевод прямых трансляций может занимать от 20 до 50 секунд, что является хорошим результатом, чтобы сильно не отставать от происходящего.
Особенно меня поразило то, что система может озвучивать разные голоса. Это, похоже, появилось сравнительно недавно, поскольку вначале было доступно всего два голоса — мужской и женский — а теперь у каждого из них есть различные варианты звучания.
Как включить автоперевод видео

Функция пепевода доступна в приложении Яндекс или Яндекс Браузер на iOS, Android, Windows и macOS.
Чтобы активировать функцию, достаточно открыть любое видео на популярных платформах, таких как YouTube, Rutube и Vimeo. Кнопка перевода появится автоматически после включения ролика. Просто нужно нажать на неё.
Для обычных роликов запyска переводчика занимает пару секунд, а для трансляций обычно приходится подождать около пятнадцати-пятнадцати секунд, если стрим только начался, и те же пару секунд, если стрим уже идет.
Таким образом, когда я попробовал использовать нейросеть Яндекса для перевода видео, я был приятно удивлен, потому что это не только субтитры, но и живой голос, который говорит с тобой почти синхронно с оригиналом. Технология работает так естественно и плавно, что значительно меняет впечатление от просмотра.
Это ощущение погружения в контент стало совершенно другим. Теперь мне не нужно напрягаться, читая бегущую строку и пропуская картинку. Я могу просто расслабиться и смотреть, как актеры или ведущие говорят на твоем языке.
После этого опыта я практически перестал смотреть видео без такого перевода; это настолько удобно, что возвращаться к старым методам просто не хочется. Мир иностранного контента стал ближе и доступнее.
Я настоятельно рекомендую вам попробовать этот сервис, если вы часто смотрите видео на других языках. После первого использования он становится частью вашего повседневного просмотра.








