ИИ научили понимать эмоции по комбинации текста, аудио и видео

Китайские ученые создали систему на основе искусственного интеллекта, способную распознавать эмоции по комбинации текста, аудио и видео. Исследование опубликовано в журнале Intelligent Computing.

Для анализа эмоций, выраженных с помощью различных средств коммуникации, ученые использовали двухэтапную модель с использованием трансформеров — современных языковых моделей. Разработанная система превзошла или показала себя наравне с существующими аналогами при тестировании на открытых базах данных.

Анализ происходит следующим образом: сначала из текста, аудио и видео извлекаются ключевые признаки, затем происходит их объединение с дополнительной контекстной информацией. На первом этапе происходит первичное слияние информации, где текстовые данные взаимодействуют с аудио и видео, позволяя каждой модальности адаптироваться к другим. Затем полученный результат объединяется с исходными текстовыми данными.

На втором этапе происходит более тонкое слияние, где адаптированные нетекстовые данные усиливают текстовые, подготавливая их к финальному прогнозированию эмоций.

intelligent Computing
Top