Удивительная новая гарнитура переводит мысли в речь для людей с нарушением голоса

«В двух словах, — сказал Скотт Веллингтон , — мы надеемся создать технологию, которая сможет использовать вашу воображаемую речь, то есть вы думаете о слове или предложении, не двигаясь и не говоря вообще, и переводить сигналы вашего мозга в синтезированную речь того же слова или предложения ».

В течение последних нескольких лет, благодаря своей предыдущей работе в Эдинбургском университете и стартапе под названием SpeakUnique, Веллингтон работал над амбициозным, но потенциально меняющим правила игры проектом: создание персонализированных синтетических голосов для тех, кто плохо говорит или полностью потерял голос. Способность говорить в результате нейродегенеративных состояний, таких как болезнь двигательных нейронов (БДН).

«Цель состоит в том, чтобы создать новую технику, которая позволяет более плавно общаться, поддерживая или, что еще лучше, полностью устраняя необходимость печатать то, что вы хотите сообщить, используя вместо этого сигнал мозга».

Синтетические голоса для людей с потенциально изнурительными состояниями, такими как БДН, существуют уже много лет. Известно, что покойный физик-теоретик Стивен Хокинг общался с помощью синтезированного компьютерного голоса, созданного для него инженером Массачусетского технологического института по имени Деннис Клатт еще в 1984 году. Был установлен мужской голос по умолчанию. Управление с помощью портативного кликера реализовано весьма удобно. Такое приспособление позволило Стивену Хокингу выбирать слова с компьютера. Позже, когда Хокинг потерял возможность пользоваться руками, он переключился на систему, которая обнаруживала движения его лица.

Работа Веллингтона была бы шагом вперед от этого. Во-первых, там, где существуют записи или могут быть созданы подходящие звуковые части, он мог бы собрать воедино синтетический персонализированный голос, который звучал бы как человек, для которого он используется. Кроме того, этим голосом можно было полностью управлять с помощью мыслей пользователя — и все это с помощью скромной, коммерчески доступной игровой гарнитуры.

Перспективные разработки

«Исследователи со всего мира уже сделали несколько многообещающих разработок в этой области, но все они использовали процесс, называемый электрокортикографией, который требует трепанации черепа», — сказал Веллингтон.

Он указывает, что краниотомия — это инвазивная операция на головном мозге. Целью его работы в Университете Бата является достижение эффекта «распознавания воображаемой речи», но без необходимости, чтобы кто-то разрезал вам голову и поместил датчики на поверхность вашего мозга.

«Для людей, потерявших естественную речь, одна из самых больших причин разочарования — это неспособность передать свои мысли друзьям и семье с той же скоростью и естественностью, что и раньше», — сказал он. «Например, для людей на поздних стадиях БДН технологии отслеживания взгляда могут позволить людям с серьезными нарушениями двигательного контроля использовать системы преобразования текста в речь для общения со скоростью около 10 слов в минуту, и это если они свободно владеют технологиями. Мы с тобой можем сказать 10 слов за несколько секунд. Вы можете понять, почему это одна из самых серьезных причин разочарования людей с двигательными нарушениями, которые потеряли речь ».

В установке Университета Бата используемая игровая гарнитура оснащена системой ЭЭГ (электроэнцефалографии) для обнаружения мозговых волн владельца. Затем они обрабатываются компьютером, который использует нейронные сети и глубокое обучение для определения предполагаемой речи пользователя.

«Мы смогли передать эти воображаемые звуки с многообещающей точностью».

«Цель состоит в том, чтобы создать новую технику, которая позволяет более плавно общаться, поддерживая или, что еще лучше, полностью устраняя необходимость печатать то, что вы хотите сообщить, используя вместо этого сигнал мозга для набора текста».

Веллингтон сказал: «Я считаю, что с последними разработками в области инженерии, машинного обучения и искусственного интеллекта мы находимся на той стадии, чтобы воплотить это в реальность».

Для обучения системы добровольцы носили устройство ЭЭГ, а для них воспроизводилась запись собственной речи. В то же время они должны были представить, как произносят звук, а также озвучивают звук. Хотя было бы правильно описать систему как чтение мыслей, она все же потребует от пользователя молча озвучивать слова, которые он хочет сказать. (Плюс в том, что нет риска случайно прочитать самые сокровенные мысли владельца.)

Будущее яркое, но оправдывай ожидания

Веллингтон ясно дал понять, что хочет оправдывать ожиданиями. Уловить шумный сигнал мозговых волн и попытаться уловить важнейший сигнал, содержащийся в нем, сложно. Он сравнил это с попыткой поговорить по телефону с человеком, находящимся на улице под сильным ветром или даже с ураганом. «Если они повторяют одно и то же слово снова и снова, да, возможно, вы его поймете», — сказал он. «Но естественное, полное предложение? Возможно нет.»

Мы надеемся, что это изменится по мере продвижения проекта, и они станут лучше извлекать информацию из сигналов мозга. Новые методы машинного обучения должны расширить возможности игровых гарнитур для лучшего восприятия естественной речи. Одна из проблем, которая в конечном итоге окажется стоящей, заключается в том, что исследователи хотят убедиться, что любое оборудование, которое они используют, является доступным, практичным и мобильным.

«[Пока] нам удалось добиться определенных успехов в расшифровке звуков воображаемой речи на основе сигнала мозга», — сказал Веллингтон. «То есть представьте, что вы произносите английский язык фонетически. Мы смогли передать эти воображаемые звуки с многообещающей точностью. Конечно, это далеко от естественной речи, но уже позволяет создать интерфейс мозг-компьютер, который может достаточно надежно переводить небольшой «закрытый» словарь отдельных слов. Например, если вы хотите, чтобы устройство произносило слова «вверх», «вниз», «влево», «вправо», «начало», «стоп», «назад», «вперед», [это было бы возможно]».

Веллингтон отметил, что он воодушевлен такими разработками, как аппаратное обеспечение Neuralink Илона Маска, «мозговой чип», который можно имплантировать под череп, что может оказаться чрезвычайно преобразующим для такой работы. «Как вы понимаете, мне осталось узнать, чего бы мы могли достичь, если бы такое устройство было имплантировано в области мозга, отвечающая за обработку речи и языка», — сказал он. «У этого исследования, безусловно, прекрасное будущее!»

Работа была представлена на виртуальной конференции Interspeech в конце октября 2020 года.