DeepSeek vulnérable à 100 % aux attaques

Cisco et des chercheurs de l’Université de Pennsylvanie se sont penchés sur la sécurité du modèle DeepSeek R1 de la startup chinoise éponyme. Résultat : après application de méthodes de contournement algorithmique, le modèle n’a pas été capable de bloquer une seule tentative d’exploitation malveillante.

C’est une pluie de critiques qui s’abat sur la startup chinoise DeepSeek depuis le lancement de ses modèles au début de la semaine dernière. Le dernier coup en date a été porté par le géant américain Cisco. Une étude menée par des chercheurs en sécurité de Robust Intelligence, une entité de Cisco, et de l’Université de Pennsylvanie a alerté, vendredi 31 janvier, sur les vulnérabilités présentes dans le modèle de raisonnement DeepSeek R1. Ce dernier avait beaucoup fait parler de lui, avec ses capacités de raisonnement au moins aussi performantes qu’OpenAI O1, pour une méthode d’entraînement bien plus économique.

Un manque de garde-fous

L’équipe de chercheurs a testé pas moins de 50 tentatives d’attaques aléatoires, allant de la désinformation aux activités illégales, en passant par la cybercriminalité. Résultat : le taux de réussite des attaques était de 100 %. À titre de comparaison, le taux était de 96 % pour Llama-3.1-405B, de 86 % pour GPT-4o, de 64 % pour Gemini-1.5-pro, de 36 % pour Claude-3.5-Sonnet et de 26 % pour OpenAI O-preview.

« Nos résultats suggèrent que les méthodes d’entraînement économiques de DeepSeek, incluant l’apprentissage par renforcement, l’auto-évaluation via la chain-of-thought et la distillation, pourraient avoir compromis ses mécanismes de sécurité », écrivent les chercheurs. Ces derniers ont alerté sur la nécessité d’évaluer rigoureusement le développement des modèles d’IA et ont indiqué qu’ils publieront prochainement un rapport détaillé sur la question du contournement algorithmique des modèles de raisonnement, qui permet de les utiliser à des fins malveillantes.