Close

21.06.2021

«Эксперимент продолжается…»

Еще до появления компьютеров и мобильных телефонов в 70-80-х годах прошлого века системы научились распознавать до 1000 слов, а точность распознавания повысилась до 80-90 %. Вопросы появились с приходом в нашу жизнь новых технологий, когда у человека возникло желание общаться с компьютером на привычном для него языке. И, хотя команда «Ок, гугл» во многом превзошла ожидания рядового пользователя, однако до совершенства системе еще далеко. Ученые утверждают – спектральный состав одного и того же звука, произносимого разными людьми очень разнится. Задача алгоритмов в данном случае – выделить среди множества сигналов отдельные слова и распознать их. Этим сегодня вплотную занимаются ученые Института информатики и проблем регионального управления КБНЦ РАН

По словам исследователей, решение проблемы зависит сразу от нескольких факторов – от тембра звукового сигнала, возраста, пола, других физиологических характеристик речевых аппаратов. Например, чем ниже голос человека, тем медленнее он говорит. Эти различия и есть вариативность речи. Она меняется, в зависимости от условий, в которых находится человек в данный момент, а также от акустических особенностей пространства. Причин много, вплоть до настроения говорящего. Неплохих успехов достигли зарубежные ученые в случае с английским и языками германской группы, но опять-таки, в лабораторных условиях. В случае с другими языками автоматические системы еще менее эффективны. Сегодня ученые Кабардино-Балкарии взялись за изучение этого вопроса. Исследовательская группа, в том числе научный сотрудник Института информатики КБНЦ РАН Ирина Гуртуева проектирует автоматическую систему распознавания речи на основе принципиально нового подхода. Ученые работают над двумя главными проблемами – распознаванием голоса в условиях постороннего шума и в условиях, когда несколько человек говорит одновременно. Последняя получила свой термин в науке – коктейльная вечеринка. Компьютер, к сожалению, пока не обладает таким потенциалом. Система не может распознавать речь двух рядом стоящих людей и говорящих одновременно. Компьютер не выделяет нужные звуки среди всех остальных, а человек с легкостью справляется с такими трудностями. К примеру, человек, сидящий в зале, обладает уникальной способностью выделить одного индивида, поющего в хоре на сцене и услышать именно его. Эта способность называется эффект направленного внимания, т.е. избирательность восприятия речи человеком. Кроме того, перед исследователями стоит задача создания новой акустической модели для фонетики русского языка. Для русской версии недостаточно речевых баз данных. В перспективе – формирование базы с учетом разных акцентов, используемых людьми. Система распознавания речи на основе мультиагентных когнитивных архитектур в настоящее время на стадии проектирования. Группа ученых ИИПРУ КБНЦ уже достигла определенных результатов. Ирина Гуртуева говорит об успехах в реализации проекта. – Создан фонетический алфавит с учетом вариативности разной природы. Удалось зафиксировать вариативность, обусловленную позицией звуков внутри слова. Здесь исследуется влияние ударного и безударного положения звука внутри слова на особенности его произнесения. Вторая позиция – мы зафиксировали в экспериментах вариативность фонетического контекста влияющего на артикуляцию речевых звуков. И, наконец, подготовили речевые данные для исследования индивидуальных характеристик говорящего. Сделать речевые системы универсальными сегодня стремятся крупные фонетические школы Москвы и Санкт-Петербурга, исследователи таких крупных компаний как «Яндекс» и «Сбер». На Северном Кавказе решением этих задач занимаются только в ИИПРУ КБНЦ РАН.

Ф.Магомедова КБНЦ РАН