Отличный выбор для путешественников: наушники с ИИ разрешают групповую интерпретацию

Соединенные Штаты. Команда американских ученых набрала гарнитуру, способную интерпретировать несколько ораторов одновременно, и сохранить характеристики голосов ораторов вместе с направлением, с которого они приходят.

За последние несколько лет было несколько технологий перспективного плавного перевода и фактической интерпретации, но все разочаровались. Например, мета -очки работают только с одним динамиком, который должен закончить, чтобы интерпретировать робот голос очков. Интерпретация происходит не в то же время, но последовательно.

Ученые из Вашингтонского университета (UW) разработали систему перевода космической речи (Интерпретация пространственного языка – SST) Использование обычно доступных наушников с удалением окружающего шума, оснащенного микрофонами и передовыми алгоритмами. Они различают отдельные динамики в космосе, следят за ними во время движения, переводят свои заявления, а затем теряют отзывы через декалам (задержка) с двух до четырех секунд.

Исследователи недавно представили свой проект на конференции по человеческим факторам в компьютерных системах (Chi 2025) в Йокохаме, Япония. Исследование с подробной информацией было опубликовано в процессе конференции.

Ученые вдохновили жизнь. Чууо-чахао Чен, докторская студентка из UW, посетил мексиканский музей, хотя он не управляет испанским. Вот почему он запустил приложение, чтобы интерпретировать его своим мобильным телефоном и нацелился на микрофон к интерпретации. Тем не менее, результат был абсолютно непригоденным, хотя уровень шума в музее был относительно низким.

«Другие интерпретирующие технологии основаны на предположении, что говорит только один человек. На самом деле у вас не может быть только одного голоса робота, интерпретируя многочисленных людей в комнате. Впервые нам удалось сохранить характеристики голоса каждого человека в комнате и в направлении, из которого он звучит– сказал профессор Пол Дж. Аллен из UW.

Система SST приносит три инновации – сразу после зажигания, она обнаруживает количество динамиков внутри или снаружи, сохраняет характеристики и объем голосов, а сгенерированные голоса контролируемых ораторов постоянно устанавливаются в соответствии с их изменениями при движении. Приложение для перевода работает локально на устройствах Apple M2 – исследователи хотели избежать использования облака, поскольку имитирующие голоса (клонирование) могут вызвать обеспокоенность по поводу злоупотребления персональными данными.

Система успешно прошла тесты в десяти внутренних и внешних средах. Пользователи предпочитали его во время 29 систем тестирования участников, которые не последовали за динамиками в движении.

Во время другого теста тестеры предпочитали десятилетия в течение трех-четырех секунд, так как вывод содержал меньше ошибок, чем при одиночестве до двух секунд. Система была протестирована для целей исследования, чтобы перевести с испанского, немецкого и французского языка на английский, хотя предыдущие исследования показали, что ее можно обучить перевести около 100 языков. До сих пор, однако, это касается общего семейного языка без специализированной терминологии.