Moscow-Live.ru
Ученые из Университета действуют в Великобритании был представлен в Шанхае на конференции ICASSP компьютерную систему, способную читать человеческую речь движением губ.
Разработанная исследователями программа анализирует видео, отснятое камерами. Речь человека была разделена на две составляющие — фонемы и viseme, которые являются визуальным эквивалентом фонем. Было установлено, что фонемы более visem для распознавания взял двухуровневой иерархической системы.
Во-первых, говорит Н+1, ученые обученных классификаторов в матче с умом, со звуками, затем число классификаторов была увеличена так, что каждый viseme соответствовать несколько фонем.
Эффективность созданной системы. При распознавании слитной речи машина точно понимает 10-15% рассказали, когда произнести ни фонема, эта цифра возрастает до 25%. Ученые надеются усовершенствовать систему, чтобы применять его в ситуациях, когда голос на записи сложно понять или звуковую дорожку испортил. Компьютер, чтение по губам может также быть полезно в криминалистике.