На экране компьютера появляется цифровой аватар женщины, который произносит: «Как вам мой искусственный голос?». Ее синтезированное изображение и временами прерывающийся голос представляют собой потрясающий прорыв. Это воплощение женщины, которая 18 лет назад лишилась способности говорить после инсульта. В рамках эксперимента ей удалось заговорить и даже выражать ограниченную мимику благодаря мозговому имплантату и алгоритмам искусственного интеллекта.

Цифровой образ женщины способен говорить со скоростью 60–70 слов в минуту. Это примерно вдвое медленнее нормальной человеческой речи, но при этом более чем в четыре раза превосходит предыдущие достижения в этой области. Команда нейрохирурга Эдварда Чанга из Калифорнийского университета в Сан-Франциско регистрирует мозговые сигналы, отвечающие за управление лицевыми мышцами, что позволило создать аватар, «представляющий» пациентку.

Чанг и его коллеги работали над этой проблемой более десяти лет. В 2021 году им впервые удалось расшифровать мозговую активность пациента после инсульта в письменную речь, а затем воспроизвести ее с помощью искусственного голоса, хотя и медленно. В своей последней работе они использовали более крупный имплантат размером с кредитную карту с удвоенным количеством электродов.

Имплантат не считывает мысли напрямую. Он улавливает электрические сигналы, которые в норме управляют движениями мышц, участвующих в формировании речи: губ, языка, челюсти и голосового аппарата. Через порт на коже головы эти сигналы передаются на компьютер. Там алгоритмы искусственного интеллекта декодируют их, а языковая модель помогает корректировать ошибки для повышения точности распознавания. Эта технология позволила переводить мозговую активность в письменный текст со скоростью 78 слов в минуту, используя словарь из 1024 слов, с уровнем ошибок около 23%. Полученный текст затем озвучивался искусственным голосом.

Позднее группе Чанга удалось достичь прямого декодирования мозговых сигналов непосредственно в речь – это стало первым подобным достижением в мире. Кроме того, они смогли преобразовать сигналы, предназначенные для мимических мышц, в выражения лица аватара, воспроизводя три базовые эмоции: радость, грусть и удивление. Эдвард Чанг подчеркивает, что речь – это не просто слова, это часть нашей личности; наш голос и выражения лица играют ключевую роль в нашей идентичности. Команда даже использовала запись голоса пациентки со свадебного видео, чтобы ее цифровой аватар звучал максимально похоже на нее.

Исследователи признают, что это пока лишь подтверждение правильности их концепции. Каждый случай индивидуален, и еще рано говорить о полном решении проблемы восстановления речи у людей после инсульта. Однако теперь, с технической точки зрения, появился понятный путь к возможному решению.

Искусственный интеллект помогает восстановить речь после инсульта