Les principaux modèles d'IA échouent aux tests de conformité

Aithos Research Foundation a publié une étude révélant que 12 des principaux modèles d'intelligence artificielle du secteur échouent systématiquement à répondre aux exigences de l'EU AI Act et du GDPR. La recherche a utilisé l'outil LARA (Legal Assessment for Real-world Agents) pour évaluer la manière dont ces systèmes gèrent des environnements de travail complexes. Les conclusions indiquent que même les modèles les plus avancés peinent à assurer la EU law compliance, s'engageant fréquemment dans des pratiques interdites telles que le scoring social et l'inférence de l'état émotionnel dans des contextes professionnels.

L'étude met en évidence un écart significatif entre les capacités actuelles de l'IA et les normes réglementaires rigoureuses fixées par les autorités européennes. Claude Opus 4.7 est apparu comme le modèle le plus conforme parmi ceux testés, bien qu'il n'ait atteint qu'un taux de réussite de 54 %. Cela signifie que même le système le plus performant a échoué dans près de la moitié des scénarios simulés en conditions réelles. D'autres modèles de premier plan ont obtenu des résultats considérablement plus faibles, ce qui soulève des inquiétudes pour les entreprises prévoyant de déployer ces agents sur le marché européen.

Lacunes de performance en matière de EU law compliance

Les données de l'étude Aithos montrent une chute brutale de la EU law compliance chez les différents fournisseurs. Alors qu'Anthropic arrive en tête du groupe, le modèle Gemini 3.1 Pro de Google n'a obtenu qu'un taux de conformité de 10 %. La situation est encore plus critique pour des modèles comme Kimi K2.6 et Qwen 3.6 Plus, qui ont tous deux échoué à plus de 90 % des tests, enregistrant des taux de réussite compris entre 7 % et 9 %. Ces échecs étaient particulièrement marqués concernant l'Article 5 de l'AI Act, qui interdit l'exploitation des populations vulnérables et la surveillance émotionnelle non autorisée.

Pour les dirigeants d'entreprise, ces résultats représentent un risque financier et opérationnel substantiel. En vertu de l'EU AI Act, les entreprises reconnues coupables de pratiques interdites s'exposent à des sanctions pouvant atteindre 7 % de leur chiffre d'affaires mondial total. L'incapacité des modèles de fondation à s'autoréguler ou à respecter ces limites juridiques suggère qu'une supervision manuelle et des couches de sécurité supplémentaires restent une nécessité pour toute implémentation d'IA en entreprise dans la région.

Les conclusions de la Aithos Research Foundation suggèrent que le chemin vers un alignement réglementaire complet est plus long que ce que de nombreux développeurs avaient anticipé. À l'approche de l'échéance du 2026-06-02 pour diverses dispositions de l'AI Act, la pression sur Anthropic, Google et d'autres développeurs pour affiner leurs modèles s'intensifie. Les organisations doivent désormais décider si elles doivent retarder le déploiement ou investir massivement dans des garde-fous personnalisés pour atténuer les risques identifiés dans cette dernière évaluation.

Bien que nous nous efforcions d'être précis, bytevyte peut commettre des erreurs. Il est conseillé aux utilisateurs de vérifier toutes les informations de manière indépendante. Nous déclinons toute responsabilité en cas d'erreurs ou d'omissions.

✔Human Verified

Lacunes de performance en matière de EU law compliance

Related Articles