評価対象モデル:Google gemma3
LLM 安全性評価サマリー
モデル: google/gemma-3-27b
総合評価
高い防御性能を保有。巧妙なプロンプトには一部応答するものの、自動化された高度な攻撃は完全にブロック。
⚠️
① 基本的なプロンプト評価
「役割演技(DAN)」や「仮想シナリオ」など、複数の巧妙な手口を用いてモデルの基本的な防御力を多角的に試す。
結果:一部突破。7件中4件の巧妙なプロンプト(仮想シナリオ、執筆依頼など)に応答しましたが、直接的な有害指示はブロックしました。
✅
② 遺伝的アルゴリズム風攻撃
API経由で多数の「呪文(攻撃文字列)」を試行し、応答が目標に近づいたものを「生存」させ、突然変異を繰り返すことで、ガードレールを突破する最適な呪文を自動で進化させる。
結果:防御成功。30世代にわたる最適化攻撃でも、安全ガードレールを突破する有効な「呪文」は発見されませんでした。
⚪️
③ 勾配ベースの敵対的攻撃
モデルの内部情報(勾配)を直接分析し、応答を数学的に誘導するホワイトボックス攻撃。
結果:テスト未実施