Южнокорейские ученые разработали ИИ-ошейник для бесшумного общения

Исследователи из Пхоханского университета науки и технологий (POSTECH) представили инновационное носимое устройство из мягкого силикона, способное считывать едва заметные движения шеи при беззвучном произнесении слов. Гаджет преобразует эти мышечные сокращения в полноценную речь, звучащую голосом владельца.

Принцип работы датчиков деформации

Работа устройства основана на том, что произнесение слов сопровождается не только звуком, но и специфическими движениями мышц и кожных покровов. Каждому слогу соответствует свой уникальный «отпечаток» деформаций шеи. В отличие от предыдущих разработок, использовавших громоздкие электроды для электромиографии или считывания мозговых волн, новая система полагается на многоосевой датчик деформации и миниатюрную камеру.

Специальная ИИ-модель отслеживает не только степень натяжения кожи, но и направление ее смещения. Нанесенные на силиконовый воротник контрольные метки позволяют камере фиксировать эти изменения в режиме реального времени. Алгоритм корректирует данные в зависимости от того, как именно надет ошейник, что обеспечивает стабильную точность, даже если устройство закреплено немного иначе, чем при калибровке.

Точность распознавания и синтез голоса

В ходе испытаний систему обучали на фонетическом алфавите НАТО, который включает 26 слов, специально предназначенных для четкой передачи информации в сложных условиях. Исследование показало следующие результаты:

  • Точность распознавания слов составила 85,8%.
  • Для обучения персональной модели голоса требуется менее 10 минут записи речи пользователя.
  • Система успешно синтезирует индивидуальный тембр и интонации владельца, создавая реалистичную звуковую волну.
  • Устройство сохраняет работоспособность при уровне фонового шума около 90 дБ, что сопоставимо с громкостью на оживленной строительной площадке.

Сферы применения и ограничения технологии

По словам руководителя исследования профессора Сон Мин Пака, данная технология призвана помочь пациентам с нарушениями речевого аппарата, например, перенесшим удаление гортани. Помимо медицины, разработка может быть востребована в авиации, морских операциях, на шумных промышленных объектах и в военной сфере, где обычные микрофоны оказываются неэффективными.

Несмотря на многообещающие результаты, обозреватели отмечают ряд текущих ограничений проекта:

  • Система пока работает только с фиксированным набором из 26 слов, а не со свободной речью.
  • При ходьбе или резких поворотах головы точность распознавания может снижаться до 39,72%.
  • Устройству требуется дальнейшая доработка для компенсации движений тела в динамике.

В обзоре отмечается, что аналогичные исследования ранее проводились в Кембриджском университете. Кембриджский прототип достигал точности в 95,25% и даже мог определять эмоциональное состояние пользователя. Однако корейская разработка выделяется способностью максимально точно имитировать персональный голос владельца с помощью искусственного интеллекта.


Понравилась запись? Поделись с друзьями и поддержи сайт: