Вы когда-нибудь задумывались, почему голосовой ассистент так быстро находит ответы на ваши вопросы в колонке или телефоне? На самом деле, за этим простым разговором скрывается сложная работа целого комплекса технологий: это не простой умный алгоритм, а целая фабрика, в которой каждый этаж выполняет свою часть работы.
Вначале аппарат улавливает и записывает вашу речь. После этого система распознавания речи расшифровывает ваши слова, разделяя их на мелкие звуковые части и сравнивая их с огромной базой данных. Именно так Siri или «Алиса» отличают запрос «какая погода» от запроса «включи музыку». После этого специальная программа пытается понять сказанное, выделив ключевые слова и цель.
Кроме того, тот самый приятный голос, который мы слышим в отте, чаще всего представляет собой синтезированную речь, а не запись живого человека. Хотя ассистенты актеров озвучивают, их голоса используются как основа для анализа тысяч часов их речи, чтобы научиться произносить любые слова с правильной интонацией, создавая иллюзию живого общения.
Как работает голосовой ассистент
В первую очередь необходимо понять, как голосовые ассистенты начинают говорить. Несмотря на всю кажущуюся реалистичность их голоса, а иногда даже интонаций, за каждой фразой стоит компьютер, а не реальный человек. Компьютер синтезирует слова и буквы, создавая предложение, хотя люди также используют свой речевой аппарат для этого.
Очевидно, что всю базу и наработки по распознаванию текста и синтезу речи на смартфоне невозможно передать. По этой причине ассистенты работают только в тех случаях, когда они подключены к Сети; в других случаях они просто сообщают, что у них возникли проблемы с подключением, и это почти единственная фраза, которую они могут сказать, когда они оффлайн.
Наконец, ваш запрос отправляется на сервер для проверки ваших слов, данные обрабатываются и ответ приходит обратно. Ассистент как бы переспрашивает у сервера: «Что он сказал?» Это происходит за секунды или даже доли секунд, но обычно это происходит так.
На сервере после обработки команды может быть отправлена обратная команда или создан поисковый запрос, который вызывает голосовой ответ (в случае со смартфонами также визуальный). В первом случае включается свет, открывается дверь и т. д., а во втором — погода или свежие новости.

Выполняет сам, а команда выполняет.
Благодаря работе через сервер устройства умного дома становятся более универсальными. Например, можно включить чайник, когда вы приезжаете домой, заранее зажечь свет в гараже или включить робота-пылесос, когда он на работе.
Голосовые ассистенты, такие как Алиса или Сирия, понимают нас благодаря распознаванию речи — они преобразуют слова в текст, анализируют, что вы хотите, и отвечают на ваши вопросы. Они говорят не сами по себе: их голоса записывают живые люди, актёры или дикторы, чьи записи потом разбиваются на кусочки и собираются в нужные фразы. Иногда используется искусственный голос, созданный на основе реального голоса, но запись все равно начинается
Почему голосовые ассистенты говорят женским голосом?
Чтобы ответить на этот вопрос, можно обратиться к психологии или просто задать вопрос: чей голос будет приятнее слышать человеку — мужской или женский? Мужчины ответят, что женский, а мнение женщин разделится, и женщина не будет отталкивать никого из них, даже если мужской голос будет более приятным.
В этом кроется ответ: все люди относятся более лояльно к женскому голосу, чем к мужскому. Однако, если вы захотите, некоторые ассистенты предлагают и мужскую версию голоса, но производители неохотно вводят функцию выбора голоса. В этом случае теряется самое важное — отношение пользователя к ассистенту, как к живому помощнику, а не к простой машине.
Кроме того, считается, что женский голос успокаивает и позволяет более спокойно относиться к происходящему. В результате почти во всех военных самолетах именно женским голосом озвучиваются команды о приближении к критическому углу атаки, вероятном падении и других неприятных ситуациях.
Если изменение голоса невозможно, каким голосом, по вашему мнению, должен говорить голосовой ассистент? Мы поговорим об этом в нашем Telegram-чате после вашей ответной реакции ниже.
Как озвучивают голосовые ассистенты?
Как я уже сказал, большинство голосовых ассистентов используют полностью синтетический голос. То есть все, что они говорят, является просто звучанием с определенными параметрами, включая тембр, тональность и другие параметры. Ни один живой человек не заслуживает этого. Таким помощником является помощник Google.
Наоборот, некоторые голосовые ассистенты озвучивают реальных людей, которые работают актерами, дикторами или озвучивают в рекламе, мультфильмах и гаджетах. Это делает голос более человечным и позволяет пользователю чувствовать себя как настоящего помощника, а не как компьютер. Так устроена психика человека, что ощущать присутствие человека легче и приятнее, чем присутствие «бездушной» железяки.

В этом месте данные голоса записываются в студии.
Для конструирования модели голоса владелец должен записать большое количество стандартных звуков и фраз, которые затем обрабатываются и создаются в голос ассистента. Чем больше фраз будет записано, тем более живым будет голос и тем меньше ошибок.
Однажды, когда я путешествовал по США на машине, я столкнулся с одним из примеров недостаточной проработанности голоса. В навигаторе, который я взял там же, где и машина, был русский язык, и он говорил «Хай Вэй» вместо «Хвай». Локализованные голоса навигатора не так важны, как голосовые ассистенты, которые должны быть почти везде. Поэтому я отнесся к этому с юмором и еще раз
Голосовые помощники — это сложная логичная технология, а не магия. Они слышат нас через микрофоны, используют распознавание речи для преобразования слов в текст, а затем алгоритмы искусственного интеллекта, которые составляют мозг системы, пытаются понять суть запроса и предложить соответствующий ответ.
Голоса, которые мы слышим, чаще всего не записаны живым человеком. Речевая синтеза используется для создания известных голосов, таких как Алиса, Google Assistant и Siri. Актеры озвyчки записывают тысячи часов речи в студии, а специальные программы используют эти записи для создания нового голоса, который может прочитать любую фразу.
В итоге за простым вопросом к колонке или телефону стоит огромная работа инженеров, лингвистов и актеров. Хотя мы общаемся с машиной, человеческий труд, вложенный в ее создание и «голос», имеет решающее значение.








