唯客 AI 护栏更新:把检测做到了请求的前后两端
只看模型输出是不够的。这次我们把防线架到了请求进来和回答出去的两端,堵住更多绕过的可能。
这次更新,我们想聊一个看起来简单、却经常被做漏的事:大模型的安全检测,到底该架在哪一端。很多方案只盯着模型的输出,觉得「只要它别说错话就行」。但实践告诉我们,这远远不够。
只看输出,挡不住有心人
如果只在回答出去前做检测,等于把防线全压在了最后一道。可有些攻击,在请求进来的那一刻就该被拦下——比如精心构造的提示词注入、夹带的敏感指令。等模型已经被带跑偏、生成到一半再去拦,既被动,也容易漏。
“安全这件事,堵在门口,永远比追在屋里省力。
这次的改动:前后两端都设防
新版护栏把检测同时架在了两端。请求进来时,先过一遍输入侧检测,识别注入攻击、违规意图、异常调用,该拦的当场拦下,根本不让它到模型面前。回答出去前,再过一遍输出侧检测,做隐私信息、违规内容、合规风险的最后把关。两道关卡各司其职,绕过的成本就高多了。
还顺手做了这些
- 检测策略支持按业务分组配置,不同应用用不同的严格程度
- 拦截记录可追溯,每一次拦了什么、为什么拦,都能查到
- 对正常请求的延迟影响控制在很低的范围,不拖慢体验
防护和体验,得同时顾
做安全的人最怕一句话:「装了护栏,系统变卡了、好好的问题也被拦了。」如果防护把正常用户挡在外面,业务方第一个就想把它关掉。所以这次我们花了不少力气在两件事上:一是把检测的延迟压到用户基本无感;二是尽量减少误拦,正常请求顺畅通过。安全不能以牺牲体验为代价,否则再严的护栏,最后都会被嫌弃着关掉。
我们也支持按业务分组设不同的严格度——对外的客服可以严一些,内部的工具可以松一些。安全不是一个全局开关,而是该紧的地方紧、该松的地方松。
护栏也要能跟着攻击进化
安全不是装一次就一劳永逸的。新的攻击话术、新的绕过手法层出不穷,今天拦得住的,明天可能就被绕过去了。所以这次我们也把检测策略做成可持续更新的——发现新的攻击模式,就把它补进规则,让护栏跟着威胁一起进化。一套不更新的安全方案,本质上是在用昨天的锁防今天的贼。
配套地,我们建议客户定期看拦截日志:哪些攻击在涨、哪些误拦在发生,据此调整策略。安全是个动态的攻防过程,护栏的价值不只在「拦住了什么」,更在「能不能持续地拦住新的什么」。
别指望「换个更乖的模型」就安全
我们常遇到一种想法:「我用了更先进、对齐做得更好的模型,是不是就不用护栏了?」答案是不能。模型自身的对齐能减少一部分风险,但它管不了权限边界、管不了你这套业务特有的合规要求、也挡不住有人针对你的具体场景去构造攻击。模型的「乖」和系统的「安全」是两回事——前者是它尽量不主动作恶,后者是你确保它就算想作恶也做不到。
所以护栏和模型不是二选一,而是各司其职:好模型负责把基础水位抬高,护栏负责守住那些模型管不到、也不该让它自己管的硬边界。把安全寄托在「模型够好」上,迟早会在某个你没想到的角落出事。
大模型一旦接进对外业务,它面对的就不再是善意的测试用户,而是各种想方设法让它出错的真实世界。一套只在事后补救的安全方案,迟早会出事。把防线前移、两端设防,看起来多花了点功夫,但这正是企业级和玩具级的区别。



