Искусственный интеллект и восстановление речи: Прорыв в нейрохирургии

Как имплантат позволяет говорить человеку после инсульта

«Как вам мой искусственный голос?» — спрашивает женщина на экране компьютера. Ее зеленые глаза слегка расширяются. Изображение явно синтезировано, а голос иногда прерывается, но этот момент всё равно поразителен.

Этот «говорящий» образ представляет собой цифровой аватар женщины, которая 18 лет назад потеряла способность говорить из-за инсульта. В рамках новаторского эксперимента, благодаря мозговому имплантату и алгоритмам искусственного интеллекта, пациентка, лишенная голоса, теперь может не только произносить слова, но и сопровождать их, хоть и ограниченной, но всё же мимикой.

Цифровой аватар способен генерировать речь со скоростью примерно 60–70 слов в минуту. Это приблизительно в два раза медленнее обычной человеческой речи, но более чем в четыре раза быстрее предыдущих достижений в данной области. Команда Эдварда Чанга, нейрохирурга из Калифорнийского университета в Сан-Франциско, фиксирует мозговые сигналы, которые управляют мимическими мышцами, что позволило им создать реалистичный аватар, «представляющий» пациентку.

Чанг и его коллеги работали над этой сложной проблемой более десяти лет. В 2021 году им впервые удалось дешифровать активность мозга человека, перенесшего инсульт, в письменную речь, которая затем, хоть и медленно, воспроизводилась искусственным голосом. В своём последнем исследовании команда использовала более совершенный имплантат размером с кредитную карту, оснащённый удвоенным количеством электродов.

Имплантат не считывает мысли, а улавливает электрические сигналы, которые в нормальном состоянии контролируют движения мышц губ, языка, челюсти и голосового аппарата — то есть все движения, необходимые для произнесения слов. Специальный порт на коже головы передаёт эти сигналы на компьютер. Там алгоритмы искусственного интеллекта декодируют их, а языковая модель с функцией автокоррекции повышает точность распознавания речи. Эта технология позволила переводить мозговую активность в письменный текст со скоростью 78 слов в минуту, используя словарный запас из 1024 слов. Несмотря на 23% ошибок в дешифровке, слова успешно озвучивались искусственным голосом.

Впоследствии группе Чанга удалось совершить мировой прорыв, декодировав мозговые сигналы непосредственно в речь. Более того, им удалось преобразовать сигналы, предназначенные для мимических мышц, в «выражения лица» аватара, способного демонстрировать три основные эмоции: радость, грусть и удивление. «Речь — это не только передача слов, но и выражение нашей индивидуальности. Наш голос и мимика — важнейшая часть того, кто мы есть», — подчеркивает Чанг. Для максимальной аутентичности команда использовала аудиозапись из свадебного видео пациентки, чтобы воспроизвести её собственный голос, поэтому аватар звучит очень похоже.

Исследователи отмечают, что текущие результаты лишь подтверждают верность их концепции. Каждый клинический случай уникален, и пока рано говорить о полном решении проблемы возвращения речи людям после инсульта. Тем не менее, технически путь к возможному решению теперь чётко обозначен.

Виктор Лебедев
Виктор Лебедев

Виктор Лебедев - политический обозреватель из Ярославля с 8-летним стажем. Специализируется на анализе международных отношений и региональной политики центрального федерального округа.

Обзор последних событий в мире шоу-бизнеса