把合同审查从两三周压到几天,我们踩过的弯路
一个真实项目的复盘:不是上来就接全量合同,而是先挑一类合同、定准一个口径,把信任一点点建起来。
为了不涉及客户隐私,这里只讲做法和教训,不提具体是谁。这是一个法务团队的项目,目标听起来很直接:用 AI 帮他们更快地审合同。但真正做下来,顺序和我们一开始设想的很不一样。
弯路一:差点上来就接全量合同
项目初期,客户的期待是「把所有合同都丢进来,让 AI 全审了」。我们最初也想一步到位。但很快意识到,不同类型的合同(采购、销售、保密、租赁)关注的风险点完全不同,一锅烩下去,模型谁都审不好,业务方也无从验收。
于是我们退了一步,只挑了量最大、最标准化的一类合同先做。范围一收窄,问题立刻变得可解。
“贪多是落地的大忌。先在一类合同上做到让法务信任,再谈第二类,比一开始就铺满要稳得多。
弯路二:没先把「审什么」定准
第二个坑,是我们一开始让模型自由发挥地「找风险」,结果它找出来的东西又多又杂,法务一看,大部分不是他们关心的点,反而增加了核对负担。后来我们坐下来,和资深法务一起把这类合同要审的风险条款、判断口径,一条条列清楚,变成模型的明确指令。从「你帮我找找有什么问题」,变成「你按这 18 条逐一检查」,质量立刻稳定了。
做对的事:让结果可核对
有一件事我们从一开始就坚持做对了:模型给出的每一条审查意见,都必须定位到合同原文的具体位置,并说明依据。法务点开就能看到「这条意见是针对第几页第几条」。这件事极大地建立了信任——法务不需要盲信 AI,他们只是在一个标好重点的文档上,做最终判断。
结果和我们学到的
在那一类合同上跑顺之后,原本需要两三周排队、人工逐字审的流程,压缩到了几天,而且新来的法务也能更快上手,因为审查口径被沉淀了下来。随后我们才开始一类一类地扩展到其他合同。
回头看,这个项目教给我们的不是什么技术诀窍,而是节奏:
- 先窄后宽,挑一类最标准的场景把信任建起来
- 先定口径再让模型干活,别让它自由发挥
- 让每个结论都能回溯到原文,人始终是最后那道关
AI 看走眼的时候,怎么办
再好的模型也有漏判和误判。这个项目里,我们没把「零错误」当目标——那不现实。我们的目标是「错了也拦得住」:AI 标出的每条意见都要人确认,法务有权一键否决;同时我们持续收集它漏掉和误报的 case,定期回炉优化指令。错误不可怕,可怕的是错误悄无声息地溜过去。让错误可见、可追、可纠,法务才敢放心把它用进流程。
几个月下来,AI 的误报明显少了,法务对它的信任也是在这个过程里一点点攒起来的。信任不是靠一次惊艳建立的,是靠一次次「它确实没坑我」累积出来的。
放量为什么要慢
第一类合同跑顺之后,客户自然想赶紧铺到所有合同。这里我们反而踩了刹车——每扩一类合同,都把它当成一个新的小项目重做一遍:和法务一起把这类合同的风险点、判断口径重新列清楚,再让模型按新的指令走。看起来慢,其实稳:每一类都建立在「法务认可」的基础上,而不是用第一类的标准去硬套第二类,结果两头不讨好。
这种「一类一类啃」的节奏,还有个好处:每做一类,沉淀下来的口径和指令就多一份,团队也越来越熟练,后面反而越做越快。欲速则不达,在 AI 落地里是条很实在的经验。
AI 落地,很多时候比的不是谁的模型强,而是谁更懂得克制和分步。把一件事彻底做对,远比把十件事都做到一半,更能让客户相信这条路走得通。



