Немецкие исследователи из Института человеческого развития Макса Планка в Берлине выяснили, что некоторые модели искусственного интеллекта (ИИ) способны идентифицировать эмоции человека по коротким аудиозаписям так же хорошо, как это делают люди. Статья опубликована в научном журнале Frontiers in Psychology (FIP).
Исследователи использовали лишенные смысла реплики на канадском и немецком языках, чтобы выяснить, может ли ИИ точно определить эмоции независимо от их содержания и культурно-лингвистических нюансов.
На основе данных обучения ученые создали ИИ-модели, которые работали одним из трех способов. Глубокие нейронные сети (DNN) подобны сложным фильтрам, которые анализируют компоненты звука, такие как частота или высота тона (например, когда голос становится громче из-за того, что говорящий злится), чтобы выявить скрытые эмоции.
Сверточные нейронные сети (CNN) сканируют закономерности в визуальном представлении саундтреков, подобно тому, как определяют эмоции по ритму и текстуре голоса.
И гибридная модель (C-DNN) объединяет оба метода, используя как аудио, так и визуальную спектрограмму для прогнозирования эмоций. Затем модели были протестированы на эффективность на обоих наборах данных.
Полученные результаты показали, что возможно разработать системы, которые смогут мгновенно интерпретировать эмоциональные сигналы и обеспечивать немедленную и интуитивную обратную связь в широком диапазоне ситуаций.
Это может помочь создать масштабируемые и экономически эффективных приложений в различных областях, таких как терапия и технологии межличностного общения.