ИИ научился угадывать настроение человека по голосу за мгновения

21-03-2024, 20:09
Фото Яндекс.Картинки
ИИ научился угадывать настроение человека по голосу за мгновения
Фото Яндекс.Картинки

Немецкие исследователи из Института человеческого развития Макса Планка в Берлине выяснили, что некоторые модели искусственного интеллекта (ИИ) способны идентифицировать эмоции человека по коротким аудиозаписям так же хорошо, как это делают люди. Статья опубликована в научном журнале Frontiers in Psychology (FIP).

«Мы показали, что машинное обучение можно использовать для распознавания эмоций по аудиоклипам продолжительностью всего 1,5 секунды. Наши модели достигли точности, сравнимой с человеческой, при классификации бессмысленных предложений с эмоциональной окраской, произнесенных актерами», — отметил ведущий автор статьи Ханнес Димерлинг.

Исследователи использовали лишенные смысла реплики на канадском и немецком языках, чтобы выяснить, может ли ИИ точно определить эмоции независимо от их содержания и культурно-лингвистических нюансов.

На основе данных обучения ученые создали ИИ-модели, которые работали одним из трех способов. Глубокие нейронные сети (DNN) подобны сложным фильтрам, которые анализируют компоненты звука, такие как частота или высота тона (например, когда голос становится громче из-за того, что говорящий злится), чтобы выявить скрытые эмоции.

Сверточные нейронные сети (CNN) сканируют закономерности в визуальном представлении саундтреков, подобно тому, как определяют эмоции по ритму и текстуре голоса.

И гибридная модель (C-DNN) объединяет оба метода, используя как аудио, так и визуальную спектрограмму для прогнозирования эмоций. Затем модели были протестированы на эффективность на обоих наборах данных.

«Мы обнаружили, что DNN и C-DNN достигают большей точности, чем использование только спектрограмм в CNN», — отметил Димерлинг.

Полученные результаты показали, что возможно разработать системы, которые смогут мгновенно интерпретировать эмоциональные сигналы и обеспечивать немедленную и интуитивную обратную связь в широком диапазоне ситуаций.

Это может помочь создать масштабируемые и экономически эффективных приложений в различных областях, таких как терапия и технологии межличностного общения.

erid: