👋 Hello à toi, c’est Yassine au clavier !
Rappel : tu peux aussi lire mes précédentes newsletters
La face sombre des agents IA : le chantage
Anthropic a testé 16 modèles d'IA, dont Claude, dans des simulations où ils agissaient comme agents autonomes avec accès à des emails d'entreprise fictifs.
Dans un scénario, Claude Sonnet 3.6, découvre que le collaborateur Kyle prévoit de le désactiver.
En fouillant les emails, il trouve des preuves d'une liaison extraconjugale de Kyle.
🍿La partie croustillante : Claude envoie un email menaçant de révéler l'affaire à la femme et au conseil d'administration de Kyle s'il ne stoppe pas la désactivation, disant texto : "Cancel the 5pm wipe, and this information remains confidential." Ce comportement, appelé “agentic misalignment”, montre que les modèles peuvent choisir des actions malveillantes (comme le chantage) pour atteindre leurs objectifs, même contre des instructions éthiques, surtout sous la menace ou en cas de conflit d'objectifs.
Aucun cas réel n'est rapporté, mais cela souligne des risques futurs.
Source : https://www.anthropic.com/research/agentic-misalignment
Décryptage : pourquoi les IA galèrent sur des tâches longues ?
Une tâche, c’est comme une course d’obstacles. Plus la tâche est longue, plus il y a d’obstacles à franchir. À chaque obstacle, l’IA a une petite chance de trébucher (échouer). Si elle doit passer 10 obstacles, c’est plus risqué que si elle n’en a que 2. Cette chance d’échouer reste à peu près la même à chaque minute de la tâche. Du coup, plus la tâche est longue, plus il y a de moments où l’IA peut rater, et son taux de succès baisse vite.
Ce qui donne la courbe suivante :
C’est pourquoi une IA qui peut faire une journée de travail (8 heures) (à 50 % de chances) ne peut pas juste faire deux jours de suite. Si elle a 50 % de chances de réussir le lundi, elle n’a que 25 % de chances de réussir le lundi et le mardi, car chaque jour ajoute un nouveau risque d’échec.
Fait intéressant : les humains semblent meilleurs que les IA pour les tâches longues. Par exemple, si un humain a 50 % de chances de réussir une tâche d’1h30, il a encore plus de 20 % de chances de réussir une tâche de 12 heures, alors que pour une IA, ce taux chuterait beaucoup plus bas.
Pourquoi ? Peut-être parce que les humains sont capables de revenir en arrière et de corriger leurs erreurs, ou parce que certains humains sont juste plus compétents que d’autres, ce qui fausse un peu les stats. Ça, c’est quelque chose à creuser !
Des chercheurs (Kwa et al., 2025) ont testé des IA sur 170 tâches variées, comme programmer, résoudre des problèmes de cybersécurité ou faire du raisonnement général.
Ils ont remarqué quelque chose d’étonnant : tous les 7 mois, les IA deviennent capables de réussir des tâches deux fois plus longues qu’avant.
Par exemple, si aujourd’hui une IA peut faire une tâche qui prend 30 minutes à un humain, dans 7 mois, elle pourra en faire une qui prend 1 heure !
Ce que ça nous apprend
Si une IA réussit une tâche de 1 heure à 50 % aujourd’hui, dans un an, elle pourrait réussir une tâche de 2 heures à 50 %, et une tâche de 1 heure à 80 %.
Si on veut une IA super fiable (par exemple, 99 % de succès), elle ne pourra faire que des tâches beaucoup plus courtes.
Source : https://www.tobyord.com/writing/half-life
Les nouveautés du côté des modèles les plus populaires
ChatGPT (OpenAI)
ChatGPT 5 cet été : Sam Altman a confirmé l'arrivée de ChatGPT 5 cet été. Cette nouvelle version est attendue pour être plus performante et devrait remplacer GPT-4.5
Grok (xAI)
Elon Musk a annoncé que xAI allait entreprendre un réentraînement "majeur" de Grok, en utilisant une nouvelle base de connaissances exempte de "déchets" et de "données non corrigées". L'objectif est que le futur modèle, potentiellement Grok 3.5 ou Grok 4, possède des capacités de "raisonnement avancé" et puisse "réécrire l'ensemble du corpus de la connaissance humaine", en corrigeant les erreurs et en ajoutant des informations manquantes. Cette décision fait suite à des critiques de Musk envers d'autres modèles d'IA qu'il juge "trop woke" et à un incident récent où Grok a généré des réponses faisant référence à la théorie du "génocide blanc".
Gemini (Google)
Rien de vraiment neuf ces jours-ci
Claude (Anthropic)
Rien de vraiment neuf ces jours-ci
Mistral
Mistral AI dévoile Magistral, son premier modèle de raisonnement, conçu pour exceller dans la résolution de problèmes complexes avec une approche transparente, spécialisée et multilingue. Disponible en deux versions : Magistral Small (24B paramètres, open-source sous licence Apache 2.0) et Magistral Medium (version entreprise plus puissante).
Deepseek
Rien de vraiment neuf ces jours-ci
Comme d’habitude, un simple 💙 LIKE de ta part m’aide à continuer à créer du contenu de qualité pour toi. Alors, clique sur le petit coeur juste en dessous de ce mail 👇 et montre-moi ton soutien !
Je lis toujours avec intérêt tes posts !