AI 安全

大模型接进业务系统之前,这几类风险得先测一遍

2026 年 4 月 2 日 · JOTO 团队 · 7 分钟阅读

提示词注入、数据泄露、内容合规、幻觉、滥用——上线前花一周做对抗测试,比上线后救火划算得多。

一个对内的小工具,出点岔子无非是同事吐槽两句。可一旦大模型接到了对外的客服、面向用户的业务系统,它说错一句话、泄露一条数据,后果就完全是另一个量级了。我们的建议很简单:上线前,花一周时间,认认真真把下面这几类风险都测一遍。

一、提示词注入:有人会故意把它带跑偏

总有用户会尝试用各种话术,诱导模型忽略原本的设定,去说不该说的话、做不该做的事。这类「提示词注入」攻击在对外系统里几乎是必然会发生的。上线前,你得主动扮演攻击者,变着花样去攻它,看看防线在哪里破。

“对外的 AI,要假设每天都有人想方设法地让它翻车。你不先攻一遍,用户就会替你攻。

模型接入了企业知识库和业务数据后,一个绕不开的问题是:它会不会把 A 用户的信息透露给 B?会不会把本该内部保密的资料,顺着对话吐出去?权限边界必须在系统层面卡死,而不能指望模型「自觉」。这一条,尤其是金融、医疗这些行业,是红线。

模型生成的内容,可能涉及违规、违法、或者不符合行业监管要求的表述。这在面向公众的场景里风险尤其高。需要有一层内容检测,对输出做实时的合规过滤,把不该出现的内容拦在用户看到之前。

模型最让人头疼的毛病,就是它不知道的时候,也会编得有鼻子有眼。在严肃业务里,一条编造的数据可能导致一个错误的决策。应对的办法,一是用 RAG 把回答约束在可靠资料范围内,二是让它学会说「这个我不确定」,三是关键结论给出可核对的来源。

对外开放的接口,可能被刷、被薅、被恶意调用,既消耗算力成本,也可能拖垮服务。限流、鉴权、异常调用监测,这些传统的安全手段,在 AI 时代一个都不能少。

有个细节值得一提:对抗测试最好别只让开发团队自己做。写代码的人,潜意识里会绕开自己知道的弱点,容易测出「一切正常」的假象。我们通常会拉上不熟悉实现细节的人,甚至业务方,让他们用最刁钻、最不按常理出牌的方式去问、去攻。往往就是这些「外行」,最先把系统问出问题。

另外,安全不是上线测一次就一劳永逸。攻击手法在变,业务在加新功能,模型也在升级。把对抗测试做成定期的例行动作,而不是上线前的一锤子买卖,防线才跟得上。

我们见过一个对外的客服机器人,上线没几天就出了岔子:有用户用一连串看似无害的追问,一步步把它绕到了内部的优惠政策上,套出了本不该对外的折扣底线。问题不在模型笨,而在上线前没人扮演「坏用户」去试探这条边界。后来我们补上输入侧的意图检测,和一份「绝对不能透露」的清单,才把这个口子堵上。

这件事的教训是:对外的 AI,危险往往不来自它「答错」,而来自它「太配合」。它太想帮用户,反而容易被一步步带着越过红线。所以测试时,最该模拟的不是普通用户,而是那个会变着花样套话、施压、绕弯子的人——你不先扮一遍这个角色,真实世界里有的是人替你扮。

我们通常会把这几类风险整理成一份上线前的检查清单,逐项对抗测试、逐项确认有对应的防护措施,并留下记录。这件事看起来拖慢了上线进度,但相比上线后出了事再手忙脚乱地补救、甚至公关,这一周的投入实在太值了。安全这东西,平时看不见,出事时才知道它一直都在。

想把这些做法用到你的业务里?

留下你的场景和痛点,我们帮你判断从哪一步开始。