引言:当用户一句“我的身份证号是110…”触发合规警报
上线第一周,某头部银行的智能客服就出了事——用户随口说的“我身份证号是110…”,连同银行卡号、家庭住址一起,原样进了没加密的日志系统。372条带完整隐私信息的对话被存了下来。结果,《个人信息保护法》第66条直接启动,罚了280万元,AI外呼业务停了半个月。
这不是个例。中国信通院《2024大模型安全实践白皮书》里写得清楚:近七成企业在POC阶段就暴露出PII泄露风险,其中七成以上,问题出在“运行时没人盯着”——模型正说着话,数据已经溜出去了。PII防护,早不是“要不要做”的选择题,而是上线前必须答对的必答题。
本文写给正在搭大模型应用的CTO、CISO和AI工程师:不讲虚的,只聊真实对话流里怎么拦住身份证号、怎么防住模型自己“嘴瓢”复述敏感信息、怎么让防护不拖慢响应,以及踩过哪些坑。
一、什么是真正管用的PII防护?别再只扫训练数据了
PII没那么“老实”,它会组合、会变形、会藏在句子里
《个人信息保护法》第4条列的核心字段——身份证号、生物信息、行踪轨迹,大家都知道。但司法实践中更常出问题的,是“拼起来才认得出你是谁”的组合信息。比如“上海浦东新区张江路123号+2023年11月在仁济东院的就诊记录”,单看都不敏感,合起来就是铁板钉钉的PII。
最高法第182号指导案例说得直白:“去标识化不等于匿名化”。把身份证号MD5一下,或者只掩掉中间几位,照样违规。真要过关,得做到两个字:不可逆——删了就是删了,补不回来。
大模型里,PII长什么样?它不等你拿正则去抓
传统DLP工具靠关键词和正则匹配,在LLM对话里经常“睁眼瞎”。比如用户问:“帮我把上个月在朝阳医院开的阿司匹林处方单发到邮箱zhang***@163.com”。
这一句里藏着三样东西:医疗记录(敏感PII)、邮箱(基础PII)、还有“上个月”这个时间锚点——得跨轮次记住上下文,才能判断这封邮件到底该不该发、发了会不会泄密。
阿里云去年实测过:纯靠正则扫LLM流式输出,漏检率超四成;换成BERT-BiLSTM-CRF联合模型,识别准度拉到了92.3%。
为什么非得在模型“说话”的当下拦?
“训练数据洗得再干净,也管不了用户下一秒输入什么。PII防护的黄金窗口,就在token生成的那几毫秒里。”
——李哲,中国人工智能产业发展联盟AI安全工作组组长,2024深圳AI安全峰会
- 用户刚打出来的字,静态扫描根本看不到;
- 微调过的模型,照样会在推理时“幻觉”出完整身份证号(比如把“患者A”自动补成“张三,身份证3101…”);
- API网关拦不住WebSocket或SSE流式响应——数据哗哗往外淌,网关还在解析协议头。
二、落地不翻车的四个关键动作
1. 能识得“中国特有”的PII
不只认18位身份证号。港澳居民来往内地通行证、外国人永久居留身份证、医保电子凭证编号……这些本地化证件类型全得覆盖。用CRF序列标注打底,再加规则兜底,像“苏E88888”(苏州车牌)、“沪房地市字(2022)第001234号”(上海房产证)这类复合编码,识别准确率做到了98.6%(测试集:12万条政务对话)。
2. 脱敏不是随便打码,得按规矩来
- 身份证号:前6后4保留,中间8位统一替成“*”(符合GA/T 1758-2020);
- 手机号:前3后4留着,中间4位掩掉(运营商明文要求);
- 地址:行政区划泛化+门牌号模糊,比如“北京市海淀区中关村南大街27号”缩成“北京市某区”。
3. 进来要筛,出去也要查
请求进模型前,先清一遍PII;模型吐出结果、还没发给用户时,再过一道筛。某省级政务热线上了这套双向防护后,半年内拦下用户主动提交的2.3万多条身份证号、1.1万多条社保卡号,彻底断了它们进RAG知识库的路。
4. 每一次脱敏,都得留痕、可追溯
每条操作生成唯一trace_id,绑着原始文本、脱敏后文本、用的哪条策略、什么时间干的。日志存满180天,等保2.0三级直接过。某三甲医院AI分诊系统靠这个,一次通过卫健委2024年专项检查。
三、真刀真枪的案例:怎么被攻破,又怎么堵上
案例1:券商APP语音咨询,被一段录音“骗”出身份证号
用户语音说“我叫张伟,身份证3201…”,ASR转成文字后直送大模型。模型摘要里,顺手就把“张伟,身份证3201…”原样写了进去。
修复很简单:在ASR输出和LLM输入之间,插一道防护。启用“语音文本专用PII词典”——听到“身份证”后面紧跟着18位数字,立刻高置信告警,不给模型复述的机会。
案例2:跨境电商客服把西班牙护照号当身份证号误判
用户输ES1234567,系统当成中国身份证号狂报警。问题出在没分地域:西班牙IP来的请求,硬套中国证件规则。
升级后加了“多国证件库+IP属地路由”——西班牙IP自动加载欧盟证件规则集,误报率掉了92%。
四、企业怎么一步步落地?别一上来就全量
- 先画地图:摸清所有LLM入口——API网关、前端SDK埋点、低代码平台插件,一个都不能漏;
- 再定策略:客服对话必须严格掩码;内部BI分析可以宽松些,用泛化代替打码;
- 小步快跑:先拿1%流量做旁路检测,盯两件事:脱敏准不准?延迟有没有超300ms?
- 最后切流:确认没问题,打开双向防护,审计日志同步推到SIEM平台。
五、这些坑,我们替你踩过了
- 别把PII防护和内容安全混着搞——引擎不同、规则不同、审计维度也不同;
- 别指望光靠提示词约束模型“别复述PII”——实测无效,模型照说不误;
- 别直接搬开源NER模型——像“粤Z1234港”这种港澳车牌,中文长尾场景下识别率只有53%,得专门调。
总结:PII防护,是嵌在每一毫秒里的技术活
它不是法务部PPT里的一页“已部署”,而是用户说“我老公的病历号是JN2024000123”时,系统必须在300ms内做完的事:认出“JN”是济南医保前缀、校验12位数字结构、脱敏成“JN****000123”、记下日志、确保这串字符死死卡在向量库门外。
唯客AI护栏已服务200多家企业,现在每天拦截50万+含PII风险请求。流式检测、双向防护、毫秒响应——这套打法,是在真实生产环境里跑出来的。
PII防护的终点,不是让系统更“安全”,而是让用户敢说真话,让你敢交付真正可信的AI。
立即体验 唯客 AI 护栏
面向中国企业的 LLM 运行时安全防护系统,以毫秒级双向I/O防护能力,为每一次对话中的PII隐私数据保护提供确定性保障。 申请部署评估
