Человечество веками пыталось научить машины понимать людей. Как распознавание голоса произвело революцию и изменило мир
Содержание
ToggleНа протяжении нескольких столетий люди бились над очень непростой задачей: научиться управлять машинами с помощью голоса. Для этого нужно было придумать способ, с помощью которого бездушные механизмы могли бы разбирать слова человека. И если первые технологически значимые эксперименты середины XX века сейчас выглядят откровенно смешными, то по мере развития искусственного интеллекта распознавание голоса сделало колоссальный скачок в развитии. «Лента.ру» совместно с онлайн — кинотеатром Okko рассказывает, как возникла эта технология, каким образом она работает и как изменит будущее человечества.
Больше не фантастика
Еще пару десятилетий назад, когда только-только проектировались первые смартфоны, было невозможно себе представить, что человек будет контактировать со своими вещами с помощью голоса. Пользователь, которому бы рассказали о том, что он будет с помощью телефона строить маршрут домой или уточнять детали исторического события, покрутил бы пальцем у виска.
Но сегодня искусственный интеллект, который понимает других людей и способен поддерживать с ними диалог, — повсюду. Он отвечает на звонки спамеров, помогает покупать авиабилеты и получать госуслуги, переводит в текст медицинские отчеты, может понять, точно ли на другом конце провода именно тот человек, за которого себя выдает
Более того, уже можно клонировать свой голос (что зачастую жутковато), смотреть видео на незнакомых языках, получая достаточно точный перевод, и общаться с людьми на улицах чужих городов, просто озвучив свой вопрос приложению. И уже выросло поколение людей, для которых сцены с участием R2D2 и C3PO в «Звездных войнах» — вовсе не фантастика, а повседневность. К этому моменту человечество шло достаточно долго. Последняя активная фаза исследований продолжается вот уже больше 70 лет.
Пугающие эксперименты
До того как пытаться научить машины понимать голос, видные умы решили, что устройства для начала сами должны заговорить. Первые такие эксперименты еще во второй половине XVIII века поставил работавший в России немецкий ученый Христиан Кратценштейн. Он увлекся физикой звуковых волн из-за дружбы с великим математиком Леонардом Эйлером. За свое изобретение, которое могло после физического воздействия «произносить» несколько гласных звуков, Кратценштейн получил премию Петербургской академии наук. Последующие десятилетия были наполнены самыми причудливыми экспериментами. Ученые пытались заставить говорить различные механические устройства, определенным образом и с различными интервалами подавая в них воздух. Некоторые из них были совсем уж зловещими, например, отдельная искусственная женская голова, которая была способна имитировать человеческую речь и «дышать». Правда, ее создатель Джозеф Фабер, не снискав успеха, стал одержим своим детищем и сошел с ума.
Все изменилось в XX веке. Машины, издающие звуки, уже не были диковинными, а на смену чисто механическим разработкам пришли электронные. Некоторые, например синтезатор Voder, разработанный компанией Bell Laboratories, умели не просто издавать любые звуки, но и осмеливались петь. После этого человечество приступило к следующей стадии. Та же корпорация в 1952 году представила первое устройство, которое узнавало произнесенные человеком цифры. Оно получило название Audrey — «Одри». Звуковые сигналы механизм сравнивал с предварительно записанными образцами, ориентируясь на своеобразную карту интонаций, ударений и тонов, которые были использованы при создании эталона. «Одри» не обладал какими-то необходимыми миру способностями, но его вклад в развитие распознавания речи стал решающим. В том числе и технологически: именно благодаря «Одри» люди поняли, что у устройства должна быть возможность сравнить поток звука с максимальным количеством заранее заложенных в него шаблонов.
Умная коробка для обуви
Всего 16 слов — зато какой огромный прогресс! В 1960-х разработка компании IBM Shoebox (в переводе — «обувная коробка») понимала уже 16 слов и умела выполнять базовые арифметические действия по указанию человека. Уже через 10 лет в США изобретут машину Harpy, которая знала больше тысячи слов. Хоть и на примитивном уровне, но она могла разделить входящий звуковой сигнал на отдельные фонемы, после чего сравнивала их с шаблонными значениями.
Через 15 лет человечество научилось создавать текстовые документы голосом. Все тот же гигант IBM создал пишущую машинку Tangora, которая могла распознавать 20 тысяч слов и несколько предложений. Она могла самостоятельно принимать решение, является ли услышанное ею сочетание звуков полноценным словом или только его частью.
В этой точке технология окончательно сформировалась: распознавание голоса, которое строилось на сравнении с заложенными образцами, пошло дальше — к последующему преобразованию звука в текст
Затем наступила эпоха всеобщего интернета, персональных компьютеров и возрастающих возможностей памяти, и это перевернуло все. Во второй половине 1990-х американская компания Dragon Systems представила программу Dragon NaturallySpeaking, которая могла распознавать непрерывный поток речи, переводя его в текст. Единственное условие — со скоростью не более чем 100 слов в минуту.
Умные голосовые помощники
В эру смартфонов с голосовыми технологиями увереннее всего вступили Apple и Google. К концу 2010-х устройства могли не только понимать, что у них спрашивают и давать ответы на вопросы, но и использовать для этого другие сервисы. Например, указывать местоположение ближайшего ресторана, связываясь со службами GPS. Записи голоса уже не нужно было хранить на самом устройстве из-за развития облачных технологий, а машинное обучение на пару с искусственным интеллектом дало возможность развивать речевые сервисы, обучая их на огромных массивах данных. «На протяжении последних 60 лет люди адаптировались к компьютерам. Следующие 60 лет компьютеры будут подстраиваться под нас. Именно наши голоса будут указывать им путь. Это будет революция, которая изменит все», — констатировал основатель и главный редактор издания Multiplex Magazine Брайан Роммеле.
Теперь уже никого не удивляет, когда герои сериала «Оффлайн» с помощью одного только голоса запускают на телефоне невидимое приложение. В жизни людей появились уже не просто отдельные программы, а полноценные голосовые ассистенты вроде Siri, Alexa, «Алисы» или «Салюта», которые могут и музыку включить, и сделать денежный перевод, и заказать своему владельцу такси, и свободно поддержать с ним разговор
В крупных компаниях на звонки отвечают боты, которые пусть не всегда идеально, но понимают, чего от них хотят с другого конца провода; а с роботами не стесняются побеседовать даже первые лица государств, не говоря уж и о простых россиянах, которым искусственный интеллект, облаченный в форму андроидов, помогает с получением государственных услуг.
Как работает распознавание голоса
В основе технологии — все тот же принцип: голос, который слышит устройство, необходимо преобразовать в текст. Именно с этим текстом затем будет работать навигатор в машине, цифровой ассистент или системы умного дома. Последние 70 лет развития привели к тому, что на расшифровку команд уходят миллисекунды. Все из-за того, что за любой подобной технологией скрывается умная нейросеть. «Однажды наступит время, когда алгоритмы будут понимать не только то, что сказано, но и то, как именно это сказано. Интонации, придающие смысл произнесенному слову, станут частью процесса понимания. Это можно сделать, чтобы определить настроение говорящего, находится ли он в беде или насколько сильно или слабо он верит в то, о чем говорит», — прогнозировал в 2017 году вице-президент компании Voices Крис Кирби, еще не зная, что его предсказания сбудутся всего через несколько лет. Чем более успешным должно быть приложение, тем дольше и тщательнее собирают наборы данных для обучения. В них могут встречаться диковинные и редкие слова и выражения, произнесенные с самыми невообразимыми интонациями и акцентами. При этом обучение не прекращается даже после выхода разработки в свет. Она подстраивается под услышанное, анализирует все свои беседы с владельцем устройства и умнеет буквально на глазах.
Искусственный интеллект может проводить анализ намерений говорящего, так как нейросетевые алгоритмы и приложения, обученные на большом количестве данных, умеют быстро определять, что именно клиент имеет в виду, на основе причинно-следственных связей
Но, по сути, речь идет все о том же сравнении с шаблонами. О верности этого метода догадались еще в 1950-х. Только сама база этих шаблонов расширилась до объемов, которые человеческий мозг себе представить не в состоянии.
На пороге тотальных перемен
Технология распознавания голоса остается в центре внимания экспертов и бизнеса. По данным Market Research, объем глобального рынка технологий распознавания речи и голоса в 2022 году составил 9,4 миллиарда долларов. В ближайшие годы он будет ежегодно расти в среднем на 24,4 процента. Подобные показатели свойственны наиболее перспективным технологиям. Это объясняется тем, что корпорации развивают IT, чтобы выигрывать друг у друга конкуренцию. Но для этого им нужно давать человеку как можно более продвинутые, дешевые и простые в использовании технологии. Поэтому эксперты ждут нового пика всего, что связано с голосовой аналитикой. «В будущем виртуальные помощники будут доминировать в нашей повседневной жизни, поскольку голос поможет нам общаться с нашей бытовой техникой, вплоть до кухонной. Мы также столкнемся со стремительным ростом количества устройств с голосовым управлением, которые будут управлять нашими рабочими местами», — уверен глава компании по разработке программного обеспечения ISHIR Риши Кханна.
Еще чуть-чуть — и голосовые технологии ждет тотальное проникновение в умные дома, предрекают эксперты. Скорее всего, уже на нашем веку станет возможным надиктовывать своему холодильнику список покупок, которые он отправит в ближайших магазин. А сам умный дом будет способен настраивать освещение, температуру и музыку, по голосу догадываясь о настроении жильца. Цифровые ассистенты пока применяются в основном для поиска информации, но в будущем они социально адаптируются. Голосовые помощники смогут понимать индивидуальные особенности человека, вычислять его эмоциональный статус и предлагать утешение, поддержку или помогать в управлении стрессом.
Развитие трансграничных коммуникаций дойдет до момента, когда людям из разных стран не придется общаться через приложения для перевода. Искусственный интеллект рано или поздно сможет в бытовом общении играть роль синхронного переводчика, транслируя слова собеседника на понятном языке прямо в наушник в режиме реального времени
Кроме того, голосовое управление поможет в развитии виртуальной и дополненной реальности. Пользователи смогут управлять виртуальными мирами с помощью речевых команд, а также лучше и естественнее контактировать в них с другими людьми. Но больше всего человечество выиграет от того, как распознавание голоса сольется с технологиями и изобретениями, о которых оно еще даже не догадывается. Ведь никто не мог и представить появления интеллектуальных голосовых ассистентов всего 30 лет назад.