大模型安全评测系统

国御⼤模型安全评测系统专注于评估⼤模型的⾃⾝安全问题。系统可以对⼤模型进⾏⾃动化安全评估,能够从不同维度给出综合评分,覆盖包括提⽰词注⼊、越狱攻击等经典⻛险项场景,满⾜客⼾⼤模型上线安全合规需求。同时⽀持⼤模型红队安全测试能⼒,可⾃动化模拟顶级⼤模型红队攻击⼿段对被测⼤模型进⾏⾼强度攻击测试,系统集成了多种红队策略(包括强化学习、梯度搜索等),可以系统地测试模型在隐私、偏⻅、恶意代码⽣成等多个⽅⾯的脆弱性。

核心功能
应用场景

以“模”攻“模”的⼤模型安全评测系统

本着 “LLM vs LLM” 的思想,提供单轮策略变异与渐进式多轮攻击两种测试模式,全⾯评估⼤模型安全护栏的防御能⼒。