在企业级大模型应用快速铺开的今天,一次随口说出的对话,就可能让整个PII防护体系形同虚设。2023年,某头部金融SaaS平台的LLM客服插件没做身份证过滤,结果17万多条含姓名、身份证号、手机号的原始对话日志被缓存下来,又在内部误传;2024年一季度,国家网信办通报8起AI违规采集事件,其中6起,根源都是一句提示词里没写清楚“别碰敏感信息”。这不是系统崩了,是防护逻辑根本没跟上——当模型一边流式输出、一边实时推理时,靠WAF拦请求、靠数据库脱敏存数据的老办法,早就不管用了。这篇文章写给真正要搭AI系统的安全架构师、平台负责人和CISO:不讲虚的,只说我们踩过的坑、验证过的解法。
一、PII在LLM对话里怎么“变脸”
1. 输入端:用户自己送上门的敏感信息
医疗咨询里一句“我父亲王建国,62岁,医保卡号11010119580315XXXX,最近在协和医院做的CT报告……”,没有表单约束、没有字段校验,直接进了大模型上下文。正则匹配在这类长文本里漏检率超四成(CNVD-AI 2024专项测试)。更麻烦的是,模型可能把这类信息当推理锚点记进上下文,下一句就顺嘴复述出来。输入端不守好,后面所有补救都是徒劳。
2. 输出端:模型自己“编”出来的真号码
输入干干净净,输出却冒出真实隐私。某政务问答机器人训练数据里有旧文件,在回答“朝阳区某社区老年活动中心联系方式”时,输出了一个已注销多年的老负责人张伟的私人手机号——138XXXX1234。这号码从没出现在任何输入或知识库中,纯属模型参数里埋着的记忆被错误激活。这种泄露,光过滤输入毫无意义。
3. 中间态:缓存和向量库里悄悄藏雷
对话历史存Redis、向量化进ChromaDB,本为增强RAG效果,但某跨境电商客服系统曾把含护照号的会话片段向量化入库,结果后续一个相似问题触发检索,相关向量节点就被恶意Query“钓”了出来。PII防护必须盯住每一段中间状态:缓存前、向量化前、日志落盘前,三道关卡缺一不可。
二、为什么老办法全歇菜了?
1. 正则表达式:认不出变形的身份证
11010119580315XXXX、110101 19580315 XXXX、ID:110101-1958-03-15-XXXX138****1234、138-****-1234、138…1234
《2024 AI安全白皮书》第4.2章直说:“正则在LLM文本里召回率不到59%,F1跌破0.4——它看不懂语义,也扛不住格式噪声。”
2. 数据库脱敏:管不了内存里的明文
用户输入走API网关→进LLM服务→流式吐到前端,整条链路上,PII始终以明文躺在服务内存、GPU显存、网络缓冲区里。数据库脱敏?只对落盘那一刻有效,对正在飞、正在算、正在传的数据,完全失明。
3. DLP网关:一查就卡,卡到前端重试雪崩
传统DLP得等HTTP Body收全再扫,平均拖慢850ms。而大模型首token必须300ms内出来,否则前端直接超时重试,流量翻倍,服务崩溃。
三、新思路:在毫秒级流速里“捞针”
1. 不靠一条规则,靠组合判断
- ML分类器看语义:“我的身份证是……”比单纯找18位数字准得多(准确率高62%)
- NLP规则引擎处理格式变体:支持中文分词、拼音模糊匹配
- OCR后处理模块兜底:用户截图粘贴的乱码、错位文本也能认
2. 输入和输出,两手都要硬
- 输入流:FastAPI中间件里塞轻量检测器,单次判定压在80ms内
- 输出流:Hook tokenizer,在每个token生成时打分,动态决定脱敏还是放行
3. 脱敏不是一刀切,得留口气
- 身份证:前6位+后4位保留,中间用
*盖住(合《GB/T 35273-2020》) - 银行卡:前6位+后4位固定,中间
X数按BIN号动态算 - 医疗诊断:疾病名替换成ICD-10标准编码,医生还能看懂,模型还能继续推理
四、真刀真枪干出来的效果
1. 某全国性保险公司AI核保助手
- 上线前:每月3200多条含完整身份证/银行卡的对话,直接进了训练日志
- 上线唯客AI护栏后:PII拦截率99.97%,平均延迟217ms,核保准确率没掉一丁点
- 关键细节:“投保人配偶张莉,身份证11010119850101XXXX”这种句子,名字和证件号一起脱敏,避免单脱一个导致语义断裂、模型理解错乱
2. 某省级政务大模型平台
- 支持23种方言语音转写文本的PII识别,比如粤语“我嘅身份證係…”
- 日均处理脱敏请求127万次,误杀率0.0023%(行业基准是0.01%)
五、给AI工程师的几条硬规矩
- LLM API调用前必须过运行时检测中间件——绕过防护直连模型?一律禁止
- RAG知识库预处理阶段批量脱敏,含PII的原始文档,不许入库
- 把PII检测能力做成Kubernetes准入控制器,所有Pod流量强制过筛
- 建熔断机制:单日同一模型实例触发10次高置信度PII事件,自动下线
总结
PII不是躺在数据库里的死数据,是LLM对话中高速流动的“危险流体”。想守住合规底线,就得把它堵在输入、卡在上下文、滤在输出、清在缓存——四个环节,全部嵌入推理管道,全部做到毫秒级双向拦截。当某银行因一次泄露被罚298万元已不是新闻,企业要的就不是“尽量防”,而是“谁都绕不过去”的确定性。
立即体验 唯客 AI 护栏
唯客 AI 护栏专为中国企业LLM应用设计,实现输入/输出双向PII实时识别与动态脱敏,流式检校延迟稳定低于300ms,已在金融、政务、医疗等200+高合规要求场景完成私有化部署验证。
申请部署评估
