Ученые представили модели искусственного интеллекта, способные распознавать русский жестовый язык
Компания Сбер представила нейросетевые модели, способные распознавать русский жестовый язык, что является важным событием, направленным на повышение доступности услуг для людей с нарушениями слуха.
Команда Vision RnD (из Управления экспериментальных систем машинного обучения) в SberDevices, разрабатывающая одно из таких решений, представила прототип общения с генеративной языковой моделью при помощи жестового языка в открытом доступе. Это стало возможно благодаря использованию GigaChat API, программного интерфейса, который позволяет ИИ понимать контекст распознанных жестов без дополнительных преобразований.
Текущая версия модели позволяет распознавать более 2500 жестов, включая понимание дактиля (произношение слов по буквам) и возможность распознавать составные жесты. Кроме того, модель понимает терминологию по темам банковской сферы, транспорта, животных, и даже несколько слов из сферы медицины и образования. Этот объем покрывает существенную часть словаря русского жестового языка, позволяя создавать сервисы с нужным прикладным применением.
Отметим, что это не единственная модель - другая команда исследователей из Sber AI разработала и опубликовала в открытом доступе легкую модель распознавания жестового языка, не требовательную к вычислительным ресурсам, модель работает на CPU. На сегодняшний день алгоритм распознает 1600 жестов и преобразовывает в слова до трёх жестов в секунду на стандартных персональных компьютерах. В 2024 году планируется тестирование и внедрение этих моделей распознавания русского жестового языка и решений на ее основе в ряде регионов России.
Сервисы для распознавания русского жестового языка позволяют преодолеть коммуникационный разрыв и сделают мир доступнее для людей с нарушением слуха. Модели могут использоваться в рамках исследований, позволяющих развивать сервисы для пользователей с инвалидностью. Например, для создания доступной среды в многофункциональных центрах (МФЦ), в транспортной отрасли (аэропорты, вокзалы, метро), в больницах для общения пациента и врача, в банковских сервисах и адаптации онлайн и офлайн-образования.