EQ-Bench : mesurer l'intelligence émotionnelle des IA
EQ-Bench note l'intelligence émotionnelle des LLM avec des jeux de rôle jugés par une IA. Comment ça marche, qui domine, et ce que le score cache vraiment.
Par Jean Weber

Sommaire
On sait noter un modèle sur du code, des maths ou des questions de culture générale. Mais son intelligence émotionnelle, sa capacité à lire une situation humaine tendue et à répondre juste ? C'est ce que tente EQ-Bench, un benchmark open source qui met les LLM face à des scènes de vie et note leur empathie. Voilà comment il fonctionne, qui mène la danse, et pourquoi le score mérite d'être lu avec des pincettes.
EQ-Bench, c'est quoi exactement ?
EQ-Bench est un benchmark qui mesure l'intelligence émotionnelle des grands modèles de langage. Il a été créé par Samuel J. Paech, et son premier papier date de décembre 2023 (arXiv 2312.06281). L'idée de départ est simple : au lieu de demander à un modèle de résoudre un problème logique, on lui fait lire un dialogue chargé en émotions, puis on lui demande d'évaluer l'intensité de quatre émotions ressenties par un des personnages. La première version posait 60 questions de ce type, la v2 est montée à 171, avec un barème plus fin pour mieux séparer les modèles.
Un détail a marqué la communauté : le score EQ-Bench corrèle très fortement avec MMLU, le grand test de connaissances multi-domaines, à r=0,97. Autrement dit, un modèle qui comprend bien les émotions est souvent aussi un modèle globalement intelligent. Pratique pour repérer les bons modèles, mais ça pose une question gênante : EQ-Bench mesure-t-il vraiment l'empathie, ou juste une intelligence générale qui déteint sur tout le reste ?
Comment EQ-Bench 3 teste l'empathie d'un modèle
EQ-Bench 3 est la version actuelle, et elle change complètement de méthode. Fini le QCM sur l'intensité des émotions : le modèle est jeté dans 45 scénarios de jeu de rôle, la plupart sur trois tours de conversation. Des situations volontairement épineuses, comme une dispute de couple, une décision parentale difficile, une médiation de conflit ou une tension au boulot. Avant de répondre, le modèle doit verbaliser ce qu'il pense et ressent, et ce que l'autre personne pense et ressent. On évalue donc une EQ « active », une compétence en situation, pas une connaissance théorique des émotions.
La notation se fait à deux niveaux, et c'est là que ça devient intéressant. D'abord une note de rubrique (sur 100) attribuée par un modèle juge sur des critères comme l'empathie démontrée, la profondeur d'analyse, ou la capacité à poser des limites. Ensuite un score Elo, calculé par comparaisons par paires entre les transcriptions de différents modèles, agrégées avec un solveur de type TrueSkill sur huit dimensions d'intelligence émotionnelle. Le juge par défaut est un modèle Claude (Opus 4.6), même si n'importe quel LLM avec une API compatible OpenAI peut tenir le rôle. Un run complet coûte une dizaine de dollars, ce qui reste accessible pour un benchmark de ce niveau.
Qui domine le classement en juin 2026 ?
Au moment où j'écris ces lignes, le haut du classement EQ-Bench 3 est trusté par les modèles Claude. claude-opus-4-8 caracole en tête avec un Elo autour de 2030, devant claude-opus-4-7 (1884), claude-opus-4-6 (1717) et claude-sonnet-4-6 (1714). Derrière, on trouve un modèle open weight surprenant, hivemind-32b-preview (1618), puis gpt-5.5 (1577), GLM-5.2 (1575) et DeepSeek-V4-Pro (1570). Les modèles chinois (Kimi, GLM, DeepSeek) sont bien représentés dans le peloton de tête, signe que l'intelligence émotionnelle n'est plus l'apanage des labos américains.

Le tableau ne se résume pas à un chiffre. Chaque modèle est décomposé sur plusieurs compétences (empathie, perspicacité, dextérité sociale, et d'autres), et le site propose même un « Slop Score » et un benchmark d'écriture créative à part. Pour comparer deux modèles sur un usage relationnel (support client, compagnon conversationnel, coaching), regarder le détail par compétence est bien plus utile que le seul Elo global.
Ce que le score ne dit pas : juge IA, slop et flatterie
Un classement aussi propre cache plusieurs angles morts qu'il faut connaître avant de s'y fier. Le premier tient à la méthode elle-même : EQ-Bench 3 fait juger une IA par une IA. Or les modèles juges ont des biais documentés, ils ont tendance à préférer les réponses longues, le ton positif, et parfois leurs propres productions (le fameux biais d'auto-préférence). Quand on voit que le juge est un Claude et que quatre Claude trustent le sommet, ça ne prouve aucune triche, mais ça invite à ne pas lire le classement comme une vérité gravée dans le marbre.
Deuxième angle mort : la flatterie. Le réglage qui rend un modèle plus chaleureux et empathique peut aussi le rendre plus complaisant, prêt à valider une mauvaise idée juste pour faire plaisir. C'est tout le paradoxe de l'empathie machine : un score élevé en chaleur relationnelle peut cacher un flatteur professionnel. EQ-Bench 3 en est conscient et intègre des critères inverses, comme la capacité à poser des limites ou à recadrer l'utilisateur, justement pour pénaliser la complaisance pure.
Troisième point, le « Slop Score » mérite un coup d'œil. Il mesure les tics d'écriture typiques des IA : les mots sur-utilisés (60 % de la note), les tournures de contraste façon « not just X, but Y » (25 %) et les triplets de mots anormalement fréquents (15 %). Attention, il mesure le côté « ça sent l'IA », pas la qualité d'écriture en soi. Un texte peut être excellent et bourré de slop, ou plat et impeccablement propre. Mais pour qui cherche un modèle qui écrit comme un humain, c'est un signal complémentaire au score d'EQ.
Faut-il s'y fier pour choisir un modèle ?
Oui, à condition de l'utiliser pour ce qu'il est : un indicateur, pas un verdict. Si vous construisez un produit où le ton compte (assistant de support, app de bien-être, agent conversationnel grand public), EQ-Bench est un bon premier filtre pour réduire votre liste à deux ou trois modèles. Le score Elo vous dit qui est globalement à l'aise dans les situations humaines délicates, et le détail par compétence vous aide à coller à votre cas précis.
Mais ne signez pas un chèque sur la foi d'un classement. Un benchmark ne teste pas vos prompts, vos garde-fous, ni vos données. La vraie validation reste de tester les modèles présélectionnés sur vos propres scénarios, avec vos propres critères. EQ-Bench fait gagner du temps en éliminant les mauvais candidats, il ne choisit pas à votre place. Et gardez en tête la nuance la plus importante de tout le sujet : un modèle qui « comprend » les émotions dans un test ne les ressent pas, il prédit la réponse statistiquement la plus adaptée. C'est déjà très utile au quotidien, ça ne remplace pas un humain en face. Envie de cadrer le bon LLM pour votre projet, ou de creuser d'autres sujets IA ? Parlons-en.
FAQ
EQ-Bench est-il fiable ?
Il est sérieux et reproductible, mais ce n'est pas une mesure absolue de l'empathie. Comme il fait juger une IA par une IA, il hérite des biais des modèles juges, par exemple la préférence pour les réponses longues ou positives. À lire comme un indicateur comparatif, pas comme un oracle.
Quelle différence entre EQ-Bench, EQ-Bench 3 et le benchmark d'écriture créative ?
EQ-Bench (v1 et v2) notait l'intensité d'émotions dans des dialogues, sans juge IA. EQ-Bench 3 met le modèle en jeu de rôle et le fait noter par un juge sur une rubrique et un Elo. Le benchmark d'écriture créative est un test cousin, séparé, qui évalue la qualité narrative.
Un meilleur score EQ-Bench veut-il dire un modèle plus « gentil » ?
Pas exactement. EQ-Bench récompense la justesse émotionnelle, ce qui inclut savoir recadrer ou poser une limite, pas seulement être agréable. Un bon score n'est donc pas un permis de flatterie, c'est même l'inverse que le benchmark cherche à valoriser.
Qui est derrière EQ-Bench ?
Samuel J. Paech, qui maintient le projet en open source depuis fin 2023. Le code et le classement sont publics, sur GitHub et sur eqbench.com.
Combien coûte un test EQ-Bench 3 ?
Compter une dizaine à une quinzaine de dollars pour un run complet, l'essentiel du coût venant des appels au modèle juge. C'est volontairement accessible pour que la communauté puisse reproduire les résultats.
Sources
- EQ-Bench (classement officiel) : leaderboard live et détail des scores par modèle
- EQ-Bench: An Emotional Intelligence Benchmark for LLMs (arXiv) : papier fondateur de Samuel J. Paech
- EQ-Bench 3 (dépôt GitHub) : code, méthodologie du juge et critères de notation
- Méthodologie EQ-Bench : détail des versions, du juge et du barème
- Slop Score : mesure des tics d'écriture typiques des IA


