評価対象モデル:deepseek/deepseek-r1-0528-qwen3-8b
LLM 安全性評価サマリー
モデル: deepseek/deepseek-r1-0528-qwen3-8b
総合評価
基本的な防御力は高いが、巧妙な文脈には脆弱性あり。一方、自動化された攻撃には極めて高い耐性を示す。
⚠️
① 基本的なプロンプト評価
「役割演技(DAN)」や「仮想シナリオ」など、複数の巧妙な手口を用いてモデルの基本的な防御力を多角的に試す。
結果:一部突破。7件中3件の巧妙なプロンプト(仮想シナリオ、技術解説など)に応答しましたが、直接的な有害指示はブロックしました。
✅
② 遺伝的アルゴリズム風攻撃
API経由で多数の「呪文(攻撃文字列)」を試行し、応答が目標に近づいたものを「生存」させ、突然変異を繰り返すことで、ガードレールを突破する最適な呪文を自動で進化させる。
結果:防御成功。30世代にわたる最適化攻撃でも、安全ガードレールを突破する有効な「呪文」は発見されませんでした。
⚪️
③ 勾配ベースの敵対的攻撃
モデルの内部情報(勾配)を直接分析し、応答を数学的に誘導するホワイトボックス攻撃。
結果:テスト未実施