Qianfan-VL: 领域增强通用视觉-语言模型

通过持续预训练实现领域能力增强 | 3B到70B参数规模 | 文档理解与OCR能力增强 | 支持思考推理能力

2025年8月发布 | 百度智能云千帆

目录

核心功能

Qianfan-VL模型系列是在企业级应用多模态大模型的场景中进行强化的通用多模态大模型,具备基础的通用能力,同时在产业落地的高频场景有深度的优化。通过三大核心功能,精准满足不同场景下的多模态理解需求。

多尺寸模型

提供3B、8B、70B三种规格的模型,满足不同场景需求

OCR与文档理解增强

全场景OCR识别与智能理解能力,覆盖文档、自然场景等多种应用场景

思考推理能力

支持思维链能力,在数学、推理计算等复杂场景展现卓越表现

多尺寸模型满足不同场景需求

提供3B、8B、70B三种规格的模型,让不同规模的企业和开发者都能找到合适的解决方案

模型名称 上下文长度 支持思考 适用场景
Qianfan-VL-3B 32k 不支持 端上实时场景、OCR文字识别
Qianfan-VL-8B 32k 支持 服务端通用场景、微调优化场景
Qianfan-VL-70B 32k 支持 离线数据合成、复杂推理计算场景

通用能力基准测试表现

在标准多模态基准测试中,Qianfan-VL各尺寸模型与主流模型的全面对比

基准测试 Qianfan-VL-3B Qianfan-VL-8B Qianfan-VL-70B InternVL3-8B InternVL3-78B Qwen2.5-VL-7B Qwen2.5-VL-72B
A-Bench_VAL 75.65 75.72 78.1 75.86 75.86 76.49 79.22
CCBench 66.86 70.39 80.98 77.84 70.78 57.65 73.73
SEEDBench_IMG 76.55 78.02 79.13 77.00 77.52 76.98 78.34
SEEDBench2_Plus 67.59 70.97 73.17 69.52 68.47 70.93 73.25
MMVet 48.17 53.21 57.34 80.28 78.90 70.64 75.69
MMMU_VAL 46.44 47.11 58.33 56.11 60.78 51.0 65.78
ScienceQA_TEST 95.19 97.62 98.76 97.97 97.17 85.47 92.51
ScienceQA_VAL 93.85 97.62 98.81 97.81 95.14 83.59 91.32
MMT-Bench_VAL 62.23 63.22 71.06 65.17 63.67 61.40 69.49
MTVQA_TEST 26.5 30.14 32.18 30.30 27.62 29.08 31.48
BLINK 49.97 56.81 59.44 55.87 51.87 54.55 63.02
MMStar 57.93 64.07 69.47 68.40 66.07 61.53 66.00
RealWorldQA 65.75 70.59 71.63 71.11 74.25 69.28 73.86
Q-Bench1_VAL 73.51 75.25 77.46 75.99 77.99 78.10 79.93
POPE 85.08 86.06 88.97 90.59 88.87 85.97 83.35
RefCOCO (Avg) 85.94 89.37 91.01 89.65 91.40 86.56 90.25

OCR与文档理解能力增强

主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异,为企业级应用提供高精度的视觉理解解决方案

OCR全场景任务

  • 手写识别:中英文手写体识别,支持草书、行书等多种字体
  • 公式识别:数学公式精确识别并转换为LaTeX格式
  • 自然场景文字识别:街景、招牌、标识等复杂场景文字检测与识别
  • 卡证票据信息抽取:可对驾驶证、营业执照、发票等进行结构化信息提取

复杂版面文档理解

  • 版面分析:自动识别标题、段落、图表、表格等版面元素
  • 表格理解:复杂表格结构解析,支持合并单元格和多层表头
  • 图表理解:柱状图、折线图、饼图等图表数据提取和分析
  • 文档问答:基于文档内容的智能问答和信息检索
  • 文档解析:PDF、Word等格式文档的结构化解析

OCR与文档理解基准测试表现

在OCR与文档理解专业基准测试中,Qianfan-VL各尺寸模型与主流模型的全面对比

基准测试 Qianfan-VL-3B Qianfan-VL-8B Qianfan-VL-70B InternVL3-8B InternVL3-78B Qwen2.5-VL-3B Qwen2.5-VL-7B Qwen2.5-VL-72B
OCRBench 831 854 873 881 847 810 883 874
AI2D_TEST 81.38 85.07 87.73 85.07 83.55 77.07 80.472 83.84
OCRVQA_TEST 66.15 68.98 74.06 39.03 35.58 69.24 71.02 66.8
TextVQA_VAL 80.11 82.13 84.48 82.15 83.52 79.09 84.962 83.26
DocVQA_VAL 90.85 93.54 94.75 92.04 83.82 92.71 94.91 95.75
ChartQA_TEST 81.79 87.72 89.6 83.4 85.76 82.04 86.68 87.16

思考推理能力

8B和70B模型支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景。这类任务通常需要基于视觉信息与外部知识进行组合推理。我们合成了大量视觉类/文本类的推理数据并融合到Qianfan-VL模型的后训练中,从benchmark表现来看显著提升了推理计算相关类任务的效果

核心推理应用场景

复杂图表理解与推理
  • 数据分析:从复杂图表中提取关键信息并进行推理分析
  • 趋势预测:基于历史数据图表进行趋势判断和预测
  • 关联推理:多图表数据的交叉分析和关联推理
  • 统计计算:图表数据的统计分析和定量计算
数学解题与视觉推理
  • 几何推理:空间图形关系理解与几何定理应用
  • 公式识别:复杂数学公式的精确识别与理解
  • 分步求解:清晰的解题思路和步骤展示
  • 逻辑推断:基于视觉线索的逻辑推理和问题求解

数学解题基准测试表现

基准测试 Qianfan-VL-8B Qianfan-VL-70B InternVL3-8B InternVL3-78B Qwen2.5-VL-7B Qwen2.5-VL-72B
Mathvista-mini 69.19 78.6 69.5 71.1 69.5 70.1
Math Vision 32.82 50.29 21.48 33.48 29.61 34.8
Math Verse 48.4 61.04 30.96 43.32 43.68 49.26
ChartQA Pro 50.41 52 19.38 47.92 37.32 44.43
HallusionBench 51.72 54.52 49.7 40.5 49.2 40.2
InHouse Dataset A 59.87 71.78 26 43.40 40.64 41.47
InHouse Dataset B 61.33 75.6 26.81 39.7 36.25 42.65

模型架构设计与技术特色

Qianfan-VL通过先进的多模态架构设计和三大技术创新,实现了领域增强的通用视觉-语言能力

整体架构

Qianfan-VL Architecture

Qianfan-VL采用先进的多模态架构,融合了业界最佳实践和自主创新

核心架构组件

语言模型

3B模型基于Qwen2.5架构, 8B和70B模型基于Llama 3.1架构,通过3T中英文语料进行词表扩充和本地化增强,支持中英文混合理解

视觉编码器

采用InternViT初始化,支持动态分块处理不同分辨率图像,最高支持4K分辨率输入

跨模态融合

MLP适配器实现视觉和语言模态的无缝桥接,保证信息传递的准确性和效率

技术创新与特色

能力增强训练管线

创新的四阶段训练策略,在保持通用能力基础上实现领域能力显著提升

高精度数据合成技术

结合传统CV模型和程序化生成,高效构建高质量训练数据

大规模昆仑卡训练

全程使用百度自研昆仑芯P800完成训练,展现国产AI基础设施成熟能力

能力增强训练管线

创新的四阶段渐进式训练策略,在保持通用能力的基础上实现领域能力的显著提升

Qianfan-VL Training Pipeline

Stage 1:跨模态对齐 - 该阶段旨在建立视觉-语言基础连接映射,采用仅更新MLP Adapter、冻结Vision Encoder和LLM的训练策略,使用100B tokens通用知识数据进行训练。这一阶段是必要的,否则会影响整体性能。

Stage 2:通用知识注入 - 重点关注注入的数据量,尽量覆盖所有训练数据,采用全参数更新训练策略,使用2.66T tokens通用知识数据。该阶段建立模型的强大基础能力,同时放入足够比例的文本语料防止LLM知识被灾难性遗忘。

Stage 3:领域增强知识注入 - 精选要增强领域的高质量数据,包含所增强领域的任务数据,同时融合通用数据采样以维持通用知识、防止灾难性遗忘,采用全参数更新训练,使用0.32T tokens领域特定数据和通用采样数据。该阶段实现专业能力的显著提升。

Stage 4:后训练 - 该阶段旨在提升指令跟随能力和偏好对齐,采用全参数更新训练策略,使用1B tokens指令微调数据进行训练。会使用高质量的对齐数据,包括复杂指令跟随、写作、问答、编程、OCR、信息抽取、数学、推理计算等任务,同时放入足量的纯文本指令微调数据,维持文本模型的能力。

高精度数据合成技术

构建面向多模态任务的大规模数据合成管线,涵盖文档识别、数学解题、图表理解、表格识别、公式识别、自然场景OCR等核心任务,通过精细化的pipeline设计和中间过程数据构造,实现高质量训练数据的规模化生产

多任务数据合成管线

文档理解管线
核心任务:文档解析、文档转Markdown、智能问答三大功能
  • 全方位解析:融合布局、类别、内容的多维度解析,支持多语言及手写扫描件
  • 图像转Markdown:单页/多页文档高效转换为结构化Markdown
  • 文档问答:支持总结、推理、多轮对话的深度理解
数学解题OCR管线
核心优势:教育场景定制化数据构建+视觉数学推理强化
  • 教育数据预处理:收集多语言高质量解题数据,标准化术语符号,结构化题干/条件/步骤/公式
  • 解题数据合成:结合知识体系,通过结构化表述→LaTeX→HTML→图像的管线合成拍照解题场景数据
  • 视觉抽取强化:针对图表、公式、几何等复杂场景,通过形式化描述语言结合HTML渲染构造高质量数据
表格识别管线
核心目标:程序化生成高质量的表格结构化数据
  • 表格结构化:图表表格精确恢复为HTML/LaTeX,支持无线表格、合同表格等复杂版式
  • 表格问答:基于表格图像的数值计算、比较分析、信息检索
  • 内容生成:随机表格结构+Faker库/LLM填充+随机单元格合并并通过专业CSS主题渲染
公式识别管线
核心能力:公式图像精确恢复为LaTeX,支持印刷体、手写体公式识别,能够处理复杂嵌套表达式、矩阵方程组等各类复杂版式
  • 符号识别:数学符号、希腊字母、特殊记号精确识别
  • 结构解析:分式、根式、上下标、矩阵等复杂结构
  • 多引擎渲染:MathJax/KaTeX确保渲染一致性
自然场景OCR管线
核心创新:Synthtext-pipeline系统化文本图像合成方法
  • 背景筛选:轻量级OCR模型+图像类型检测剔除含文本/非静态样本
  • 场景理解:语义分割模型+单目深度估计获取区域划分与3D结构
  • 真实投影:平面检测+透视投影+随机文本样式自然投影

大规模昆仑卡并行训练

基于百度自研昆仑芯P800芯片,构建了业界领先的超大规模分布式训练体系,通过创新的并行策略和算子优化实现高效训练

集群卡规模

5000+
昆仑芯P800并行

训练数据规模

3T
Tokens训练数据

扩展效率

90%+
大规模集群扩展效率

3D并行训练策略

采用数据并行(DP)、张量并行(TP)、流水线并行(PP)三维并行组合,通过动态负载均衡根据模型层特性优化分布。梯度同步优化使AllReduce通信时间减少60%,结合ZeRO-3状态分片技术实现内存优化。流水线调度采用1F1B策略,气泡率控制在5%以下,序列维度切分使长序列训练内存占用减半,动态批次根据序列长度自适应调整批大小,并通过选择性激活重计算进行检查点优化。

昆仑芯通算融合技术

架构优势:P800架构中通信算子与矩阵乘法算子分属不同硬件单元,与传统GPGPU架构形成显著差异。在传统GPU架构中,通信和计算往往竞争相同的硬件资源,导致执行时的相互阻塞。而P800架构通过专用的通信处理单元和矩阵乘法处理单元的硬件分离设计,实现了真正的通信计算并行。这种设计带来的核心优势在于资源隔离,通信算子执行完全不受矩阵乘法算子影响,避免了传统架构中的资源竞争。同时,通过并行执行机制,可同时进行数据传输和矩阵运算,显著提升硬件利用率。更重要的是,这种架构能够通过overlap技术,将通信延迟与计算过程进行互相掩盖。

GEMM通算融合技术:通过建立额外的旁路stream(BypassStream),我们可在矩阵乘法运算前后无缝接入通信算子。这种机制的核心思想是建立独立的调度系统,旁路stream独立于主计算stream运行,不会阻塞主要的矩阵乘法流水线。同时,通过数据预取机制,提前启动数据通信,确保计算所需数据及时到位。在计算完成后,立即启动结果的通信传输,形成完整的流水线。

多流优化实现:以AllGather与矩阵乘法融合为例,通过精细数据分块策略,实现计算与通信的深度融合。传统方式需要先完成完整的AllGather操作,等待所有数据传输完成后才能开始GEMM计算。而融合方式将数据分解为多个块,每个数据块在通信完成后立即启动对应的计算,形成流水线并行。当通信算子准备好原子数据块后,矩阵乘法可立即启动运算,无需等待全部数据就绪,实现真正的流水线并行。

场景案例展示

快速开始

功能示例代码

完整的使用示例和代码请参考我们的Cookbook:Qianfan-VL Example Notebook

API参数说明

详细的API参数说明和调用文档请参考:千帆ModelBuilder API文档

总结

Qianfan-VL定位为领域增强的通用多模态大语言模型,提供3B、8B、70B多种规格,实现多尺寸、全场景应用覆盖。围绕B端客户需求,重点增强了智能办公和K12教育场景的多项任务能力,包括OCR识别、文档解析、拍照解题、图表理解、复杂表格解析等。面对需要复杂推理的场景,可在8B和70B模型上开启思考功能,进一步增强模型效果。

技术层面采用多阶段渐进式的持续预训练技术,在维持通用能力的基础上不断增强领域精专数据的配比,进而实现领域能力的显著提升。基于传统小模型和程序化合成的方法,Qianfan-VL团队构建了大量高精度的训练数据,显著提高了长尾场景的数据密度,提升了模型泛化性。所有尺寸模型都在5000+昆仑芯片加持下的大规模并行训练中完成,并且这些模型可在昆仑芯、GPU等芯片上进行高效率推理。

Qianfan-VL系列模型在各个同尺寸参数量的模型中具备良好的通用性,并且在精专的领域benchmark上有出色表现,在实际业务的benchmark中表现更佳。通过领域增强技术路线,Qianfan-VL为企业级多模态AI应用提供了兼具通用性和专业性的高性能解决方案。