Как работает распознавание голоса

Порой мы обнаруживаем, что разговариваем с нашими цифровыми устройствами чаще, чем с другими людьми. Цифровые помощники на наших устройствах используют распознавание голоса, чтобы понять, что мы говорим. Благодаря этому мы можем управлять многими аспектами нашей жизни, просто разговаривая со своим телефоном или умной колонкой.

Несмотря на то, что распознавание голоса является такой важной частью нашей жизни, мы обычно не задумываемся о том, как оно работает. В процессе распознавания голоса многое происходит за кулисами, поэтому предлагаем вашему вниманию подробную информацию о том, что заставляет его работать.


Что такое распознавание голоса?


Современные устройства обычно оснащены цифровым помощником - программой, которая использует распознавание голоса для выполнения определенных задач на вашем устройстве. Распознавание голоса - это набор алгоритмов, которые ассистенты используют для преобразования вашей речи в цифровой сигнал и определения того, что вы говорите. Такие программы, как Microsoft Word, используют распознавание голоса для ввода слов.

.

Первая система распознавания голоса


Первая система распознавания голоса называлась системой Одри. Название было сокращением от "Automated Digit Recognition". Изобретенная в 1952 году компанией Bell Laboratories, Audrey была способна распознавать цифровые цифры. Говорящий произносил цифру, и Одри зажигала одну из 10 соответствующих лампочек.

Как бы революционно ни было это изобретение, оно не было хорошо принято. Сама компьютерная система была высотой около шести футов и занимала огромное количество места. Несмотря на свои размеры, он мог расшифровывать только цифры 0-9. Кроме того, пользоваться Одри мог только человек с определенным типом голоса, поэтому с ней работал в основном один человек.

Хотя у нее были свои недостатки, Одри стала первым шагом на долгом пути к тому, чтобы распознавание голоса стало тем, чем оно является сегодня. Прошло совсем немного времени, прежде чем появилась следующая система распознавания голоса, которая могла понимать последовательности слов.

Связано: Как заблокировать/разблокировать телефон Android голосом с помощью Google Assistant


Распознавание голоса начинается с преобразования звука в цифровой сигнал


Системы распознавания голоса должны пройти определенные этапы, чтобы понять, что вы говорите. Когда микрофон вашего устройства улавливает звук, он преобразуется в электрический ток, который поступает в аналого-цифровой преобразователь (АЦП). Как следует из названия, АЦП преобразует электрический ток (он же аналоговый сигнал) в цифровой двоичный сигнал.

По мере того как ток поступает в АЦП, он делает выборки тока и расшифровывает его напряжение в определенные моменты времени. Напряжение в определенный момент времени называется выборкой. Каждая выборка длится всего несколько тысячных долей секунды. На основе напряжения выборки АЦП выдает серию из восьми двоичных цифр (один байт данных).


Аудио обрабатывается для повышения четкости


Для того чтобы устройство лучше понимало говорящего, звук необходимо обработать для повышения четкости. Иногда перед устройством ставится задача расшифровать речь в шумной обстановке; поэтому на звук накладываются определенные фильтры для устранения фонового шума. В некоторых системах распознавания голоса отфильтровываются частоты, которые выше и ниже слухового диапазона человека.

Система не только избавляется от нежелательных частот; определенные частоты в аудио также подчеркиваются, чтобы компьютер мог лучше распознать голос и отделить его от фонового шума. Некоторые системы распознавания голоса фактически разделяют звук на несколько отдельных частот.

Разное: Как научить Google Assistant правильно произносить ваше имя

Другие аспекты, такие как скорость и громкость звука, корректируются для лучшего соответствия эталонным аудиообразцам, которые система распознавания голоса использует для сравнения. Эти процессы фильтрации и денуазинга действительно помогают повысить общую точность.


Система распознавания голоса начинает составлять слова


Существуют два популярных способа, с помощью которых системы распознавания голоса анализируют речь. Один из них называется скрытой моделью Маркова, а другой - нейронными сетями.

Метод скрытой модели Маркова

Скрытая модель Маркова - это метод, используемый в большинстве систем распознавания голоса. Важной частью этого процесса является разбиение произносимых слов на фонемы (наименьшие элементы языка). В каждом языке существует конечное число фонем, поэтому метод скрытой модели Маркова работает так хорошо.

В английском языке около 40 фонем. Когда система распознавания голоса идентифицирует одну из них, она определяет вероятность того, какой будет следующая.

Например, если диктор произносит звук "ta", существует определенная вероятность того, что следующей фонемой будет "p", образуя слово "tap". Существует также вероятность того, что следующей фонемой будет "с", но эта вероятность гораздо меньше. Если следующая фонема действительно похожа на "р", то система может с высокой степенью уверенности предположить, что это слово - "tap"."

Image Credit: metamorworks/Shutterstock.com

Метод нейронных сетей

Нейронная сеть похожа на цифровой мозг, который обучается точно так же, как и человеческий мозг. Нейронные сети играют важную роль в развитии искусственного интеллекта и глубокого обучения.

Тип нейронной сети, используемой для распознавания голоса, называется рекуррентной нейронной сетью (RNN). Согласно GeeksforGeeks, RNN - это сеть, в которой "результаты предыдущих шагов используются в качестве входных данных для текущего шага". Это означает, что когда RNN обрабатывает некоторый объем данных, он использует эти данные, чтобы повлиять на то, что он делает со следующим объемом данных - по сути, он учится на опыте.

Чем больше RNN подвергается воздействию определенного языка, тем точнее будет распознавание голоса. Если система распознает звук "та" 100 раз, а за ним следует звук "р" 90 из этих случаев, то сеть может узнать, что "р" обычно идет после "та".

Поэтому, когда система распознавания голоса определяет фонему, она использует накопленные данные, чтобы предсказать, какая из них будет следующей. Поскольку РНС постоянно обучается, чем чаще она используется, тем точнее будет распознавание голоса.

После того как система распознавания голоса идентифицирует слова (будь то с помощью скрытой модели Марвока или с помощью РНС), эта информация отправляется в процессор. Затем система выполняет поставленную перед ней задачу.


Распознавание голоса стало неотъемлемой частью современных технологий


Распознавание голоса стало огромной частью современного технологического ландшафта. Оно было внедрено в несколько отраслей промышленности и услуг по всему миру; более того, многие люди управляют всей своей жизнью с помощью голосовых помощников. Вы можете найти таких помощников, как Siri, загруженных в часы Apple. То, что было лишь мечтой в 1952 году, стало реальностью, и, похоже, в ближайшее время это не прекратится.

Ваше имя: *
Ваш e-mail: *
Код: Кликните на изображение чтобы обновить код, если он неразборчив
Введите код: