KIE 数据集构建 | Key Information Extraction

传统 OCR 专用模型长期以来聚焦于文字识别本身，缺乏对文档进行结构化关键信息抽取（KIE）的能力；而通用 VLM 虽具备 KIE 潜力，却在 OCR 专业场景下的精度表现上差强人意。QianfanOCR 尝试打破这一困局——在保持专用模型级别的 OCR 精度的同时，将 KIE 作为核心能力纳入模型能力边界。本文系统分享了我们在 KIE 数据集构建过程中的关键工程实践，包括：涵盖混合标注、规则清洗与分布增强的全链路高质量数据构建体系，从标注合成、质量筛查到样本优化形成完整闭环，大幅抑制幻觉、提升数据质量与场景覆盖度；同义 Key 替换驱动的语义泛化策略，使模型突破字面匹配瓶颈、适应多样化字段表述；以及四阶段自动化拒答样本生成 Pipeline，赋予模型在无效字段面前"说不"的能力。实验表明，上述方案在召回率、抽取准确率与拒答精度等关键指标上均带来了可观的提升。

背景与任务定义

在文档智能领域，关键信息抽取（Key Information Extraction, KIE） 是连接"图像感知"与"结构化输出"的核心环节——其目标是将文档图像中散乱分布的视觉信息，准确转化为机器可直接消费的 Key-Value JSON 结构。根据任务范围与语义理解深度的不同，KIE 任务通常可以划分为以下两大类型：

全量抽取

Full Extraction / OCR-to-Structured

强调"所见即所得"，完整捕获图像中所有可见的键值对信息。以体检报告为例，模型须精准识别每项检测科目与对应指标、数值及单位。核心难点在于复杂版面下的空间关联建模，以及长序列输出的完整性保障。

指定字段抽取

Targeted Field Extraction / Semantic Alignment

依据用户预定义的字段列表进行定向提取。相比全量抽取，该任务对模型的语义理解与跨模板泛化能力要求更高——模型不仅要识别文字，还必须理解用户字段与图像原始表述之间的隐含语义映射。

典型场景：在医保结算单中，用户期望提取的 「入院时间」 在原始单据中可能被记录为 「入院日期」，而 「医保支付」 实则对应 「基金支付合计」。字面不同、语义相同——这正是指定字段抽取最核心的挑战所在。

全量抽取：以 JSON 格式输出 Key-Value 结构化信息

指定字段抽取：按需提取发票号码、开票日期、合计金额等

为什么需要端到端 VLM？

传统 OCR 专用视觉语言模型（如 dotsocr、glm-ocr）受训练范式和模型规模制约，通常仅能应对单一的文字识别任务，在结构化信息抽取上力不从心。而看似合理的"OCR + LLM"两阶段串联方案，实则暗藏一个根本性缺陷——版式信息在中间环节悄然丢失，由此引发一系列难以弥补的级联问题。以下仅列举两个典型场景：

📌 典型问题一：Key-Value 错位

OCR 转文本后，原始版面的空间拓扑关系随之瓦解，模型极易将本不相邻的键与值错误配对，产生"张冠李戴"的抽取结果。

📌 典型问题二：复杂表格级联错误

在多行多列的复杂表格中，OCR 阶段哪怕只有轻微的对齐偏差，都会被后续 LLM 成倍放大，最终形成难以溯源的雪崩式误差。

除此之外，图章遮挡的语义还原、跨页内容的关联聚合、手写与印刷字体混排的统一理解等场景，也都会在"OCR → LLM"的交接缝里出现不同程度的信息损耗。上述问题仅为冰山一角。

Key-Value 错位问题示例

复杂表格场景的级联错误问题

端到端 VLM（如 QianfanOCR）将感知、理解与结构化抽取融为一体，直接在图像层面完成端到端推理，从根本上规避了中间环节导致的信息损失。在 Key-Value 对齐准确率和复杂表格鲁棒性上，均展现出对两阶段方案的显著优势。

高质量训练数据的构建

数据是模型能力的天花板。针对全量抽取与指定字段抽取两类核心任务，我们围绕数据合成、标注质量与清洗规范三个核心维度，构建了一套端到端的高质量训练数据生产流程——不仅要"有数据"，更要"有好数据"。

图1：高质量训练数据构建整体流程

数据合成阶段

我们最初的思路是直接使用大尺寸教师模型批量生成标注数据（GT）。然而实践给出了不一样的答案：在图像模糊、旋转变形、含水印干扰等复杂条件下，教师模型的幻觉率明显攀升——字段遗漏与识别错误接连出现，标注质量难以保证。

为此，我们转向更稳健的混合标注方案（Hybrid Labeling Approach）：引入传统轻量 OCR 小模型作为辅助标注工具，与教师模型互为补充，通过交叉验证机制筛除低置信样本，并针对这类难样本专门构建评测集持续监控。实验数据证明，该方案在召回率和幻觉抑制两个核心指标上均实现了可观提升。

我们专门针对模糊、旋转、水印等复杂场景构建了难例评测集，对比两种标注方案在结构化字段抽取上的召回表现。在卡证、票据等高频文档类型上，混合标注方案均带来了显著的召回率提升，同时大幅压制了教师模型在难例上的幻觉输出。

表1：混合标注方案 vs 纯教师模型 — 复杂场景下的召回率对比

文档类型	纯教师模型	混合标注	提升
卡证类	~89%	~98%	↑约 9 pp
票据类	~85%	~94%	↑约 9 pp
整体平均	召回率绝对提升		↑约 10 pp

数据清洗阶段

标注完成不等于万事大吉。我们建立了一套面向业务语义的大规模规则过滤体系，以硬性规则对每一条训练样本进行双重合规校验，从源头杜绝"脏数据"污染训练集：

计算逻辑校验：自动识别并剔除「单价 × 数量 ≠ 总额」等数值自洽性错误，确保字段间的算术关系严格成立
格式规范校验：依照行业标准核查发票号码、日期格式、身份证号等结构化字段，过滤不符合规范的异常样本

两道校验形成串联过滤门槛——任一不达标即直接丢弃，只有双重合格的样本才能进入最终训练集。严苛的准入标准带来的是 High Quality Training Data 的高准确性与强一致性，为模型训练提供了坚实的数据底座。

为量化数据清洗的真实收益，我们在 In-house 多场景 KIE 评测集（覆盖银行回单、增值税发票、医疗结算单、医疗发票等 7 个高频垂类）上做了一次消融对比：

表2：数据清洗对模型整体效果的影响（In-house 评测集平均得分）

方案	平均得分	变化
原始数据（Baseline）	~58.4	—
+ 数据清洗（计算逻辑 + 格式校验过滤）	~62.3	↑约 3.9

仅靠规则过滤这一道工序，模型在 7 个 In-house 子任务上的平均得分就整体提升约 3.9 个点，且在所有子任务上稳定正向——尤其在版式复杂、字段密集的长尾场景上收益最为显著。这印证了一个朴素的事实：训练数据的"干净度"，比堆数据量更影响模型的天花板。

样本优化：分布重塑与图像增强

标注与清洗保证了数据"质量够高"，而样本优化则要确保数据"覆盖够广"。我们从数据分布重塑与图像级增强两个维度进一步发力：

📊 数据分布优化

主动挖掘长序列明细、密集排版、多层嵌套等高难度样本并定向补充，根据场景分布动态调整训练配比——有意压低简单样本的权重，让模型在训练时充分直面边界场景，而非在"舒适区"内空转。

🔄 图像增强策略

系统引入几何变换（旋转、透视畸变、裁切抖动）与图像退化模拟（模糊、噪声、低分辨率、水印遮挡）等多维增强手段，让模型在训练阶段就充分"见过世面"，从而在扫描件、拍照件等真实场景中保持稳定表现。

两个维度的协同优化形成合力——分布层面的精准补齐解决了"见识不足"，增强层面的扰动模拟解决了"抗干扰力弱"，共同推动模型在复杂真实场景下的鲁棒性与泛化能力迈上新台阶。

首先看分布重塑的效果。我们对训练样本按版式复杂度进行了配比调整，让模型在长尾的复杂版式上得到充分训练。结果显示，目标场景的 F1 稳定提升约 0.7 个点，其他场景基本持平，说明分布重塑能精准命中目标版式而不会引入负迁移。

再看图像增强的效果。我们将训练集中重点场景的样本替换为图像增强版本（覆盖旋转、模糊、水印遮挡等扰动），保持其他训练数据完全一致，结果如下：

表3：图像增强的针对性消融效果

评测范围	变化
被增强的目标场景	F1 提升约 +2 ~ +4
未做增强的其他场景	基本持平（无负迁移）
整体平均	↑约 1.1

增益高度集中在被增强的目标场景上，未做增强的其他类目基本持平——一条干净的「定向增强 → 定向收益」因果链，整体平均 F1 提升约 1.1 个点。

Key 语义泛化，增强泛化能力

现实业务中，同一个信息字段往往有着五花八门的表述方式——"入院日期"与"入院时间"语义相同，却是两个不同的字符串。若训练数据只见过其中一种写法，模型在面对陌生表述时便会束手无策，匹配率大幅跌落。

为突破这一瓶颈，我们设计了一套基于同义 Key 替换的数据增强方案，通过系统化地扩展字段表述空间，让模型真正学会"理解语义"而非"记忆字面"：

同义 Key 生成

借助大语言模型对原始字段名进行语义扩展，自动生成一批语义等价、表述各异的候选字段名，为每个原始 Key 沉淀出覆盖广泛的同义词表，作为后续数据增强的"弹药库"。

随机 Key 替换构造训练样本

在数据构造时，以一定概率将 Prompt 中的字段名随机替换为同义词表中的其他表述，大规模生成"用户问法与图像写法存在偏差"的训练样本，同时在 Prompt 中明确引导模型关注语义对应而非字符串匹配，从根本上改变模型的"学习姿势"。

同义扩展示例

入院日期 →

入院时间住院开始日期入院时间节点

基金支付合计 →

医保支付医保报销金额统筹支付

医保结算单语义映射效果：用户字段 → 图像原始字段 → JSON 输出

经过这套增强训练，模型不再依赖字面对齐，而是真正建立起异名同义字段的语义识别能力。面对用户自定义的各类字段表述，模型能够保持稳健、准确的抽取输出，在开放字段定义场景下的泛化表现得到了质的飞跃。

为量化 Key 多样化采样的额外收益，我们在已经过数据清洗的版本之上，叠加同义 Key 替换增强，对比前后效果：

表4：Key 多样化采样的叠加收益（In-house 评测集平均得分）

方案	平均得分	变化
数据清洗后（Baseline）	~62.3	—
+ Key 多样化采样	~64.0	↑约 1.7

在数据清洗已经把分数推到 ~62.3 的基础上，Key 多样化采样再带来约 1.7 个点的二次提升，补足了字段语义泛化的最后一环。叠加前文数据清洗的 +3.9，两者合计带来约 +5.5 的整体增益，且在所有子任务上均稳定正向。

拒答能力优化，提升边界识别精度

一个值得信赖的 KIE 系统，必须具备两种截然不同却同等重要的能力：准确抽取存在的字段，以及对不存在的字段果断拒答。若模型在面对无效查询时选择"蒙一个"而非"坦诚拒绝"，幻觉输出将悄然污染整份结构化结果，令用户防不胜防。

为系统性地解决这一短板，我们设计了一套基于 VLM 的自动化拒答样本生成 Pipeline，通过四阶段流水线批量构造多样化、高质量的拒答训练样本：

阶段一

拒答指示生成

模型结合图像内容，分析原始 Prompt 的语境与风格，以六种不同的嵌入方式（如开篇说明、注意事项、输出格式约束等）将拒答指令自然融入新 Prompt。与此同时，从涵盖中英文的 16 种拒答值（如 "None"、"N/A"、"该字段不存在"）中随机抽取，确保模型学会以多种形式"礼貌且坚定地说不"。

阶段二

拒答 Key 生成

模型在观察图像后，生成两类具有代表性的拒答字段：空值 Key（字段存在于图中但对应值为空）和虚假 Key（与文档主题相关、但图中实际并不存在的字段）。这两类字段精准模拟了真实业务中用户"过度提问"或"字段猜测"的高频场景。

阶段三

Key 位置随机化

参照图像中字段的真实分布，将拒答 Key 随机穿插于原有字段序列之间，而非集中堆放在列表首尾——刻意打破位置规律，防止模型学到"出现在末尾 = 拒答"这类投机性捷径，保障字段排列的自然性与泛化性。

阶段四

最终样本生成

以原始 GT 为锚点，确保已有字段值的准确无误；对拒答字段统一填入当前指定的拒答值；同时严格对齐输出字段顺序与 Prompt 保持一致，最终输出一份格式规范、标注可靠的完整训练样本。

🔍

四个阶段各自独立引入图像内容参与决策，最大程度保证了每条样本标注的准确性与多样性。经过这套 Pipeline 的规模化生产，模型在面对无效字段时的拒答准确率显著跃升，幻觉输出的概率也得到了有效压制——模型终于学会了"知之为知之，不知为不知"。

表5：拒答优化对幻觉率的抑制效果（In-house 评测集）

核心指标	含义	优化前	优化后	变化
幻觉率（无中生有） ↓	编造图中并不存在的字段值	~24%	~4%	↓约 20 pp（相对 ↓约 85%）

一句话总结：拒答优化让模型从「会蒙」变成「会说不知道」——幻觉率从约 1/4 压到不足 1/25，且不影响原有的字符识别能力。

总结与展望

本文围绕端到端 VLM 在关键信息抽取（KIE）场景下的数据工程实践，系统阐述了我们在数据构建全链路上的核心方法与关键经验。回顾全文，主要贡献可以归纳为以下四点：

全链路高质量数据构建：建立了覆盖"混合标注 → 规则清洗 → 分布重塑与图像增强"的完整数据生产体系——教师模型与 OCR 小模型协同标注抑制幻觉，双重校验保障数据合规，分布优化与多维增强补齐场景覆盖短板，端到端提升训练数据的质量与多样性
同义 Key 语义泛化：借助 LLM 驱动的同义词扩展与随机替换策略，使模型摆脱字面匹配依赖，在开放字段定义场景下实现了稳定的语义对齐能力
四阶段拒答 Pipeline：自动化构造多样化的拒答训练样本，赋予模型在无效字段面前"坦诚拒绝"的能力，有效压制幻觉输出

最终效果：公开 Benchmark 评测

为了验证上述数据工程方案的综合效果，我们在五个公开 KIE 基准上对 QianfanOCR 与当前主流商用模型及同规模开源模型进行了横向评测。由于传统 OCR 专用模型缺乏原生 KIE 能力，此处不纳入对比。评测结果如下：

表6：公开 KIE Benchmark 性能对比（归一化得分）

Model	Overall (Mean)	OCRBench KIE	OCRBenchv2 KIE (en)	OCRBenchv2 KIE (zh)	CCOCR KIE	Nanonets KIE (F1)
Qianfan-OCR (Ours)	87.9	95.0	82.8	82.3	92.8	86.5
Qwen3-4B-VL	83.5	89.0	82.1	71.3	91.6	83.3
Qwen3-VL-235B-A22B	84.2	94.0	85.6	62.9	95.1	83.8
Gemini-3.1-Pro	79.2	96.0	87.8	63.4	72.5	76.1
Gemini-3-Pro	77.0	93.5	87.1	49.6	72.7	82.1
Seed-2.0	78.0	92.5	75.6	48.9	89.6	83.4

QianfanOCR 在五项 KIE 基准的综合均分上以 87.9 取得最高分，超越了 Qwen3-VL-235B-A22B（84.2）、Gemini-3.1-Pro（79.2）等更大规模的商用与开源模型。尤其在中文 KIE 场景（OCRBenchv2 KIE zh: 82.3）上优势突出，相较次优的 Qwen3-4B-VL（71.3）高出 11 个点，体现了本文数据工程方案在中文文档理解上的显著增益。

当前局限与未来方向

尽管上述方案在实际业务中已展现出可观的提升效果，但仍存在可进一步探索的空间：

📐 局限性

当前数据构建流程仍高度依赖规则驱动的清洗逻辑与启发式的增强策略，在面对全新文档类型时需要一定的人工适配成本。此外，拒答能力虽然显著提升，但在极端模糊或高度歧义场景下，模型仍存在一定比例的误判。

🔮 未来探索

我们正在探索将强化学习（RL）引入 KIE 训练流程，通过奖励建模进一步优化模型在结构化输出完整性与拒答精度之间的平衡；同时，计划借助主动学习机制实现数据生产的自适应闭环——让模型自主识别自身短板并驱动数据补充，以降低对人工标注的依赖。

📝

KIE 是文档智能走向实际业务价值的关键一环。我们相信，随着数据工程方法论的持续迭代与模型架构的不断演进，端到端 VLM 在文档理解领域将释放出更大的潜力——不只是"看得清"，更要"读得懂"、"提得准"、"拒得了"。