Окей Гугл, у меня есть акцент? — как голосовые помощники учатся распознавать акценты

Представьте, что вы живёте в Шотландии и только что купили себе голосовой помощник, который сделает вашу жизнь намного удобнее и приятнее — включит музыку, добавит помидоры в список покупок или наберёт номер друга за вас, если заняты руки. Вы выбираете удобные для себя настройки, конечно, устанавливаете английский язык — и, о ужас, ваш голосовой помощник совершенно вас не понимает! Почему так происходит?

Как вообще работают голосовые помощники?

Алгоритм работы любого голосового помощника довольно прост:
активация («эй, Сири», «Алекса», «Алиса», «окей, Гугл» и т.д.) — с этого момента устройство готово вас слушать;
обработка звука — система ориентируется не на отдельные гласные или согласные звуки, а на фонемы — разные сочетания звуков. Сравнивая их со своей базой данных, система пытается найти совпадения. Иногда, если фраза звучит нечётко, система достраивает значение по контексту. Фонема обрабатывается в числовом представлении на серверах компании и переводится в текст.
поиск подходящего ответа на этом этапе с помощью разных технологий помощник определяет намерение пользователя и ищет в интернете подходящий ответ на его запрос.

Понимают ли голосовые помощники акценты?

Мы посмотрим на то, как голосовые помощники учатся распознавать фразы, сказанные с разными акцентами, на примере английского языка.

Акцентов в английском огромное количество, среди самых распространённых можно назвать «оксфордский английский», уэльский, шотландский, ливерпульский, кокни, ирландский, канадский, американский, австралийский, новозеландский. Многие носители современного английского языка выросли в других странах — всё это сильно влияет на то, как они произносят слова.

Для английского языка эта проблема наиболее острая, и не только из-за количества акцентов. Английский остаётся универсальным языком международного общения, а значит многие люди пользуются им как вторым языком — что сильно расширяет географию специфических произношений. На каждого владеющего английским языком как родным приходится три человека, которые его выучили.

Так способен ли искусственный интеллект распознать англоязычные запросы от людей с акцентом?

К сожалению, как показывает практика, далеко не всегда. Например, у Alexa (голосовой помощник Amazon Echo) есть большая проблема с распознаванием шотландского акцента, на что не раз жаловались пользователи. Это видео, пожалуй, лучше всего иллюстрирует проблему и чувства, которые она вызывает у людей, пытающихся достучаться до голосового помощника.

Дисклеймер: грубый язык и ругательства. Если вы против сниженной лексики, не смотрите это видео

На видео женщина пытается заставить свой голосовой помощник включить ей песню, но из-за шотландского акцента, Алекса не понимает её. В конце концов, сдавшись, женщина имитирует британский английский, и Алекса, наконец, включает ей песню.

Это явление называют accent gap: люди с нетипичным произношением не получают от использования голосовых помощников тот опыт, на который они рассчитывали. И в каких-то вещах технологии только усиливают неравенство, хотя должны помогать его преодолеть.

Журналисты Washington Post и вместе с группой исследователей решили изучить, насколько хорошо голосовые помощники понимают людей в разных частях США. Они выяснили, что когда голосовые помощники слышали запросы от людей, чьим родным языком был испанский, они ошибались на 30% чаще, чем когда слышали запросы от людей, выросших в Калифорнии или Вашингтоне. И даже люди, говорившие на американском английском с региональными акцентами сталкивались с проблемами: например, люди, говорившие с южными акцентами, на 3% реже получали точные результаты в сравнении с пользователями, которые говорили с западным акцентом. Кроме того, людям, которые говорят с нетипичным акцентом, приходится ждать ответа ощутимо дольше.

Чтобы убедиться в том, что проблемы возникают у разных людей при работе с разными голосовыми помощниками (а не только у шотландцев с Алексой), посмотрите этот забавный тест от издания Wired. Люди с разными акцентами тестируют голосовые помощники, пытаясь найти наиболее accent-friendly вариант.

Как голосовые помощники учатся понимать разные акценты?

Любой искусственный интеллект совершенствуется, обрабатывая большее количество разнообразных данных. Если среди изначальной базы данных не было записей людей с акцентами или любыми другими особенностями произношения — система их не распознает. Со временем, анализируя больше записей разных голосов и акцентов, системы голосовых помощников учатся понимать людей, чьё произношение отличается от наиболее распространённого. То есть чем больше людей с акцентами будет пользоваться голосовыми помощниками, тем больше данных будет получать компания для совершенствования системы. Но захотят ли люди пользоваться несовершенными помощниками, каждый день сталкиваясь с недопониманием?

Проблема заключается в том, что неравенство неизбежно: наиболее редкие акценты всё равно останутся аутсайдерами для системы распознавания голоса и часть людей будет продолжать сталкиваться с проблемами.

Некоторые голосовые помощники предоставляют возможность самому натренировать систему понимать вашу речь: но мало кто готов тратить на это время и силы, когда предполагается, что голосовой помощник призван облегчить жизнь.

Есть ли такие проблемы с русскоязычными голосовыми помощниками?

В русском языке акцентов и региональных особенностей речи не так много и они не так существенно влияют на понимание, поэтому голосовые помощники не предусматривают выбор, например, московского или вологодского произношений. Но от таких региональных акцентов зависят фонемы, которые должен считывать голосовой помощник, из-за этого тоже возникают проблемы.

Пользуйтесь голосовыми помощниками в обучении

Вы можете проверять прогресс своего английского произношения по тому, как вашу речь интерпретирует голосовой помощник.

Так как голосовые помощники натренированы на носителях языка, диктовать команды голосовому помощнику, настроенному на ваш изучаемый язык, — хорошая тренировка произношения и практика разговорного навыка. Вы также можете отслеживать свой прогресс. Если раньше вам приходилось перезаписывать команду по несколько раз, потому что голосовой помощник плохо вас понимал, а теперь понимает с первого раза — поздравляем, вы звучите почти как носитель!