引言:当用户一句“我的身份证号是110…”触发警报
上线第一周,某头部金融SaaS平台的智能客服API出了问题:调试面板里,几百条身份证号、银行卡尾号以明文形式直接暴露在前端JavaScript中,又被悄悄传到了第三方分析服务。这不是推演,是2023年CNVD正式编号CVE-2023-27891的真实事件。
LLM正从演示玩具变成业务核心——PII(可识别个人身份信息)防护也早不是法务PPT里的一页幻灯片,而是AI工程师每天得亲手拆掉的“数字地雷”。
GDPR罚金上限是2000万欧元或全球营收4%;《个人信息保护法》第66条写得清楚:“采取必要措施防止信息泄露”。更麻烦的是,PII在大模型里藏得太深:它可能混在用户一句话里(“帮我查下张三的手机号”),嵌在系统提示词中(“你服务的客户李四,身份证号123…”),甚至被模型自己“编”出来——比如虚构一份带真实身份证号的租房合同。
这篇文章不讲大道理,只聊一线能落地、能审计、能流式拦截的实操方案。
一、为什么老办法全不管用
输入和输出,两条路都在漏
传统DLP靠字段匹配和静态规则,但大模型对话本来就不讲格式。某省级政务AI助手就栽在这儿:没识别出“我妈身份证最后四位是5678”这种口语,结果127条居民身份证片段进了向量库,还被RAG原样吐回给用户。
PII识别必须进到语义层。比如“我住在朝阳区建国路8号”,得连上地理编码库才能判为敏感地址;“孩子出生在2023年3月”,得结合上下文才敢断定这是出生日期PII。唯客AI护栏跑过200多家企业客户,数据显示:42.7%的PII泄露来自非标准表达——正则根本扫不到。
模型会“说漏嘴”,而且越拦越漏
用户说:“用张三的身份证号生成一份租房合同”,模型不该照做,更不该在拒绝时把“张三身份证号”原样复述一遍——这叫反向PII泄露。
2024年MITRE ATT&CK for LLM新加了一条攻击手法:T1621.002,“Model-Induced PII Exfiltration”。意思是模型推理时,把训练数据里没脱干净的PII又“吐”了出来。某医疗问答模型就因此翻车:微调数据里病历脱敏不彻底,回复里冷不丁拼出患者姓名+诊断编号。
“LLM不是数据库,但它的参数记忆,成了PII最隐蔽的缓存。”
——NIST AI Risk Management Framework v1.1
私有场景下,规则自己打架
公有云DLP看不懂你家私有提示词;本地规则引擎又没法实时更新。某车企智能座舱系统就卡在这儿:“车主生日”在车机端被设为非敏感(毕竟没联网),可同步到云端CRM时却立刻触发违规——同一段数据,在不同环节敏感等级完全不同。PII防护得懂上下文,而不是死守一条规则。
二、怎么防?从检测到脱敏,一气呵成
不靠正则,靠理解
唯客AI护栏用BERT-BiLSTM-CRF混合模型,细粒度识别10+类PII:大陆及港澳台身份证、银行卡(支持BIN识别)、手机号(含虚拟号段)、生物特征描述(“左耳垂有痣”)、精准地址(“海淀区中关村大街27号”)。
关键在实体关系图谱:当“王五”和“138****1234”出现在同一句话里,识别置信度直接拉高3.8倍。
中文口语场景实测:PII召回率99.2%,比纯正则高67个百分点。(来源:中国信通院《2024大模型安全测评报告》)
流式脱敏,字字盯防
大模型是边想边说(token-by-token),等整句出来再脱敏,早就晚了。唯客AI护栏做到**<300ms逐token检校**:模型刚输出“张”字,系统就启动姓名检测;后续token是“三”,上下文又有“身份证”,立刻替换成“[姓名]”,句子还通顺。
某银行智能投顾系统压测到每秒2300QPS,PII拦截率仍是100%。
策略不是一刀切,是看人下菜
- 客服坐席能看到手机号后四位,管理员才看全号
- “投诉处理”模式允许临时显示身份证前6位,“知识库构建”模式则强制全脱敏
- 还能自定义PII类型——某跨境电商客户就加了“海关报关单号”这一类
三、真正在踩坑的四个场景
场景1:RAG知识库被塞进带PII的PDF
攻击者上传含身份证号的合同PDF,RAG检索后原样返回,模型再直接念出来。
→ 唯客AI护栏在文档解析阶段就扫PII,向量库元数据自动打标,检索结果进管道前先脱敏。
场景2:多轮对话记错人
用户第一轮说“我叫李四”,第二轮模型得记住“李四”,但不能存明文。某教育平台就因此把学生名字错推给了别的家长。
→ 用哈希映射代替明文存储,对话ID绑定匿名标识符。
场景3:日志里全是PII
某AI运维平台把带用户提问的完整请求日志写进Elasticsearch,结果被未授权账号导出。
→ 所有可观测性组件接入唯客AI护栏SDK,日志落盘前自动剥离PII。
四、别空谈SOP,先干这三件实事
- 先摸清家底:用唯客AI护栏的“PII热力图”,扫一遍所有API端点,揪出高危接口(比如客服对话、表单提交)
- 分层动手:网络层(WAF拦含PII的HTTP头)、应用层(SDK嵌入)、存储层(数据库动态脱敏)
- 每月红蓝对抗:拿OWASP LLM Top 10测试集(含PII越狱模板)实测防护水位
总结:PII防护不是成本,是信任基建
它早已不是“应付检查”的事,而是“让用户敢开口”的底气。
某保险APP上线主动提示:“我们已自动隐藏您的身份证号”,NPS直接涨了22分。数据不会骗人:透明的防护机制,本身就是产品力。
唯客AI护栏服务的200+企业里,91%在部署后30天内,PII相关客诉归零——靠的不是口号,是流式检测、双向防护、毫秒响应。
立即体验 唯客 AI 护栏
面向中国企业的 LLM 运行时安全防护系统,以双向I/O防护与毫秒级流式检校,筑牢每一次AI对话的PII隐私数据保护防线。 申请部署评估
