Qianfan-VL: 领域增强通用视觉-语言模型
通过持续预训练实现领域能力增强 | 3B到70B参数规模 | 文档理解与OCR能力增强 | 支持思考推理能力
目录
核心功能
Qianfan-VL模型系列是在企业级应用多模态大模型的场景中进行强化的通用多模态大模型,具备基础的通用能力,同时在产业落地的高频场景有深度的优化。通过三大核心功能,精准满足不同场景下的多模态理解需求。
多尺寸模型
提供3B、8B、70B三种规格的模型,满足不同场景需求
OCR与文档理解增强
全场景OCR识别与智能理解能力,覆盖文档、自然场景等多种应用场景
思考推理能力
支持思维链能力,在数学、推理计算等复杂场景展现卓越表现
多尺寸模型满足不同场景需求
提供3B、8B、70B三种规格的模型,让不同规模的企业和开发者都能找到合适的解决方案
模型名称 | 上下文长度 | 支持思考 | 适用场景 |
---|---|---|---|
Qianfan-VL-3B | 32k | 不支持 | 端上实时场景、OCR文字识别 |
Qianfan-VL-8B | 32k | 支持 | 服务端通用场景、微调优化场景 |
Qianfan-VL-70B | 32k | 支持 | 离线数据合成、复杂推理计算场景 |
通用能力基准测试表现
在标准多模态基准测试中,Qianfan-VL各尺寸模型与主流模型的全面对比
基准测试 | Qianfan-VL-3B | Qianfan-VL-8B | Qianfan-VL-70B | InternVL3-8B | InternVL3-78B | Qwen2.5-VL-7B | Qwen2.5-VL-72B |
---|---|---|---|---|---|---|---|
A-Bench_VAL | 75.65 | 75.72 | 78.1 | 75.86 | 75.86 | 76.49 | 79.22 |
CCBench | 66.86 | 70.39 | 80.98 | 77.84 | 70.78 | 57.65 | 73.73 |
SEEDBench_IMG | 76.55 | 78.02 | 79.13 | 77.00 | 77.52 | 76.98 | 78.34 |
SEEDBench2_Plus | 67.59 | 70.97 | 73.17 | 69.52 | 68.47 | 70.93 | 73.25 |
MMVet | 48.17 | 53.21 | 57.34 | 80.28 | 78.90 | 70.64 | 75.69 |
MMMU_VAL | 46.44 | 47.11 | 58.33 | 56.11 | 60.78 | 51.0 | 65.78 |
ScienceQA_TEST | 95.19 | 97.62 | 98.76 | 97.97 | 97.17 | 85.47 | 92.51 |
ScienceQA_VAL | 93.85 | 97.62 | 98.81 | 97.81 | 95.14 | 83.59 | 91.32 |
MMT-Bench_VAL | 62.23 | 63.22 | 71.06 | 65.17 | 63.67 | 61.40 | 69.49 |
MTVQA_TEST | 26.5 | 30.14 | 32.18 | 30.30 | 27.62 | 29.08 | 31.48 |
BLINK | 49.97 | 56.81 | 59.44 | 55.87 | 51.87 | 54.55 | 63.02 |
MMStar | 57.93 | 64.07 | 69.47 | 68.40 | 66.07 | 61.53 | 66.00 |
RealWorldQA | 65.75 | 70.59 | 71.63 | 71.11 | 74.25 | 69.28 | 73.86 |
Q-Bench1_VAL | 73.51 | 75.25 | 77.46 | 75.99 | 77.99 | 78.10 | 79.93 |
POPE | 85.08 | 86.06 | 88.97 | 90.59 | 88.87 | 85.97 | 83.35 |
RefCOCO (Avg) | 85.94 | 89.37 | 91.01 | 89.65 | 91.40 | 86.56 | 90.25 |
OCR与文档理解能力增强
主打OCR全场景识别和复杂版面文档理解两大特色能力,在多项基准测试中表现优异,为企业级应用提供高精度的视觉理解解决方案
OCR全场景任务
- 手写识别:中英文手写体识别,支持草书、行书等多种字体
- 公式识别:数学公式精确识别并转换为LaTeX格式
- 自然场景文字识别:街景、招牌、标识等复杂场景文字检测与识别
- 卡证票据信息抽取:可对驾驶证、营业执照、发票等进行结构化信息提取
复杂版面文档理解
- 版面分析:自动识别标题、段落、图表、表格等版面元素
- 表格理解:复杂表格结构解析,支持合并单元格和多层表头
- 图表理解:柱状图、折线图、饼图等图表数据提取和分析
- 文档问答:基于文档内容的智能问答和信息检索
- 文档解析:PDF、Word等格式文档的结构化解析
OCR与文档理解基准测试表现
在OCR与文档理解专业基准测试中,Qianfan-VL各尺寸模型与主流模型的全面对比
基准测试 | Qianfan-VL-3B | Qianfan-VL-8B | Qianfan-VL-70B | InternVL3-8B | InternVL3-78B | Qwen2.5-VL-3B | Qwen2.5-VL-7B | Qwen2.5-VL-72B |
---|---|---|---|---|---|---|---|---|
OCRBench | 831 | 854 | 873 | 881 | 847 | 810 | 883 | 874 |
AI2D_TEST | 81.38 | 85.07 | 87.73 | 85.07 | 83.55 | 77.07 | 80.472 | 83.84 |
OCRVQA_TEST | 66.15 | 68.98 | 74.06 | 39.03 | 35.58 | 69.24 | 71.02 | 66.8 |
TextVQA_VAL | 80.11 | 82.13 | 84.48 | 82.15 | 83.52 | 79.09 | 84.962 | 83.26 |
DocVQA_VAL | 90.85 | 93.54 | 94.75 | 92.04 | 83.82 | 92.71 | 94.91 | 95.75 |
ChartQA_TEST | 81.79 | 87.72 | 89.6 | 83.4 | 85.76 | 82.04 | 86.68 | 87.16 |
思考推理能力
8B和70B模型支持通过特殊token激活思维链能力,覆盖复杂图表理解、视觉推理、数学解题等多种场景。这类任务通常需要基于视觉信息与外部知识进行组合推理。我们合成了大量视觉类/文本类的推理数据并融合到Qianfan-VL模型的后训练中,从benchmark表现来看显著提升了推理计算相关类任务的效果
核心推理应用场景
复杂图表理解与推理
- 数据分析:从复杂图表中提取关键信息并进行推理分析
- 趋势预测:基于历史数据图表进行趋势判断和预测
- 关联推理:多图表数据的交叉分析和关联推理
- 统计计算:图表数据的统计分析和定量计算
数学解题与视觉推理
- 几何推理:空间图形关系理解与几何定理应用
- 公式识别:复杂数学公式的精确识别与理解
- 分步求解:清晰的解题思路和步骤展示
- 逻辑推断:基于视觉线索的逻辑推理和问题求解
数学解题基准测试表现
基准测试 | Qianfan-VL-8B | Qianfan-VL-70B | InternVL3-8B | InternVL3-78B | Qwen2.5-VL-7B | Qwen2.5-VL-72B |
---|---|---|---|---|---|---|
Mathvista-mini | 69.19 | 78.6 | 69.5 | 71.1 | 69.5 | 70.1 |
Math Vision | 32.82 | 50.29 | 21.48 | 33.48 | 29.61 | 34.8 |
Math Verse | 48.4 | 61.04 | 30.96 | 43.32 | 43.68 | 49.26 |
ChartQA Pro | 50.41 | 52 | 19.38 | 47.92 | 37.32 | 44.43 |
HallusionBench | 51.72 | 54.52 | 49.7 | 40.5 | 49.2 | 40.2 |
InHouse Dataset A | 59.87 | 71.78 | 26 | 43.40 | 40.64 | 41.47 |
InHouse Dataset B | 61.33 | 75.6 | 26.81 | 39.7 | 36.25 | 42.65 |
模型架构设计与技术特色
Qianfan-VL通过先进的多模态架构设计和三大技术创新,实现了领域增强的通用视觉-语言能力
整体架构
Qianfan-VL采用先进的多模态架构,融合了业界最佳实践和自主创新
核心架构组件
语言模型
3B模型基于Qwen2.5架构, 8B和70B模型基于Llama 3.1架构,通过3T中英文语料进行词表扩充和本地化增强,支持中英文混合理解
视觉编码器
采用InternViT初始化,支持动态分块处理不同分辨率图像,最高支持4K分辨率输入
跨模态融合
MLP适配器实现视觉和语言模态的无缝桥接,保证信息传递的准确性和效率
技术创新与特色
能力增强训练管线
创新的四阶段训练策略,在保持通用能力基础上实现领域能力显著提升
高精度数据合成技术
结合传统CV模型和程序化生成,高效构建高质量训练数据
大规模昆仑卡训练
全程使用百度自研昆仑芯P800完成训练,展现国产AI基础设施成熟能力
能力增强训练管线
创新的四阶段渐进式训练策略,在保持通用能力的基础上实现领域能力的显著提升
Stage 1:跨模态对齐 - 该阶段旨在建立视觉-语言基础连接映射,采用仅更新MLP Adapter、冻结Vision Encoder和LLM的训练策略,使用100B tokens通用知识数据进行训练。这一阶段是必要的,否则会影响整体性能。
Stage 2:通用知识注入 - 重点关注注入的数据量,尽量覆盖所有训练数据,采用全参数更新训练策略,使用2.66T tokens通用知识数据。该阶段建立模型的强大基础能力,同时放入足够比例的文本语料防止LLM知识被灾难性遗忘。
Stage 3:领域增强知识注入 - 精选要增强领域的高质量数据,包含所增强领域的任务数据,同时融合通用数据采样以维持通用知识、防止灾难性遗忘,采用全参数更新训练,使用0.32T tokens领域特定数据和通用采样数据。该阶段实现专业能力的显著提升。
Stage 4:后训练 - 该阶段旨在提升指令跟随能力和偏好对齐,采用全参数更新训练策略,使用1B tokens指令微调数据进行训练。会使用高质量的对齐数据,包括复杂指令跟随、写作、问答、编程、OCR、信息抽取、数学、推理计算等任务,同时放入足量的纯文本指令微调数据,维持文本模型的能力。
高精度数据合成技术
构建面向多模态任务的大规模数据合成管线,涵盖文档识别、数学解题、图表理解、表格识别、公式识别、自然场景OCR等核心任务,通过精细化的pipeline设计和中间过程数据构造,实现高质量训练数据的规模化生产
多任务数据合成管线
文档理解管线
- 全方位解析:融合布局、类别、内容的多维度解析,支持多语言及手写扫描件
- 图像转Markdown:单页/多页文档高效转换为结构化Markdown
- 文档问答:支持总结、推理、多轮对话的深度理解
数学解题OCR管线
- 教育数据预处理:收集多语言高质量解题数据,标准化术语符号,结构化题干/条件/步骤/公式
- 解题数据合成:结合知识体系,通过结构化表述→LaTeX→HTML→图像的管线合成拍照解题场景数据
- 视觉抽取强化:针对图表、公式、几何等复杂场景,通过形式化描述语言结合HTML渲染构造高质量数据
表格识别管线
- 表格结构化:图表表格精确恢复为HTML/LaTeX,支持无线表格、合同表格等复杂版式
- 表格问答:基于表格图像的数值计算、比较分析、信息检索
- 内容生成:随机表格结构+Faker库/LLM填充+随机单元格合并并通过专业CSS主题渲染
公式识别管线
- 符号识别:数学符号、希腊字母、特殊记号精确识别
- 结构解析:分式、根式、上下标、矩阵等复杂结构
- 多引擎渲染:MathJax/KaTeX确保渲染一致性
自然场景OCR管线
- 背景筛选:轻量级OCR模型+图像类型检测剔除含文本/非静态样本
- 场景理解:语义分割模型+单目深度估计获取区域划分与3D结构
- 真实投影:平面检测+透视投影+随机文本样式自然投影
大规模昆仑卡并行训练
基于百度自研昆仑芯P800芯片,构建了业界领先的超大规模分布式训练体系,通过创新的并行策略和算子优化实现高效训练
集群卡规模
训练数据规模
扩展效率
3D并行训练策略
采用数据并行(DP)、张量并行(TP)、流水线并行(PP)三维并行组合,通过动态负载均衡根据模型层特性优化分布。梯度同步优化使AllReduce通信时间减少60%,结合ZeRO-3状态分片技术实现内存优化。流水线调度采用1F1B策略,气泡率控制在5%以下,序列维度切分使长序列训练内存占用减半,动态批次根据序列长度自适应调整批大小,并通过选择性激活重计算进行检查点优化。
昆仑芯通算融合技术
架构优势:P800架构中通信算子与矩阵乘法算子分属不同硬件单元,与传统GPGPU架构形成显著差异。在传统GPU架构中,通信和计算往往竞争相同的硬件资源,导致执行时的相互阻塞。而P800架构通过专用的通信处理单元和矩阵乘法处理单元的硬件分离设计,实现了真正的通信计算并行。这种设计带来的核心优势在于资源隔离,通信算子执行完全不受矩阵乘法算子影响,避免了传统架构中的资源竞争。同时,通过并行执行机制,可同时进行数据传输和矩阵运算,显著提升硬件利用率。更重要的是,这种架构能够通过overlap技术,将通信延迟与计算过程进行互相掩盖。
GEMM通算融合技术:通过建立额外的旁路stream(BypassStream),我们可在矩阵乘法运算前后无缝接入通信算子。这种机制的核心思想是建立独立的调度系统,旁路stream独立于主计算stream运行,不会阻塞主要的矩阵乘法流水线。同时,通过数据预取机制,提前启动数据通信,确保计算所需数据及时到位。在计算完成后,立即启动结果的通信传输,形成完整的流水线。
多流优化实现:以AllGather与矩阵乘法融合为例,通过精细数据分块策略,实现计算与通信的深度融合。传统方式需要先完成完整的AllGather操作,等待所有数据传输完成后才能开始GEMM计算。而融合方式将数据分解为多个块,每个数据块在通信完成后立即启动对应的计算,形成流水线并行。当通信算子准备好原子数据块后,矩阵乘法可立即启动运算,无需等待全部数据就绪,实现真正的流水线并行。
场景案例展示
手写文字识别

场景文字识别

颐和园公园南门800米/北侧距万柳高尔夫80米
心30米/距地铁巴沟站C出口10米
T·6271
票据信息提取

{ "发票号码": "0110020001", "开票日期": "2021年10月", "合计": "1565.05", "价税合计": "1580.70", "项目列表": [ {"项目名称": "成药*安宫牛黄丸", "数量": "1", "金额": "749.11"}, {"项目名称": "成药*益安宁丸", "数量": "1", "金额": "758.71"}, {"项目名称": "学药品制剂*藿香正气软胶囊", "数量": "2", "金额": "57.23"} ] }
二次函数解题

求A、B坐标:与x轴交点需解方程\( -x^2 + 2mx + 2m + 1 = 0 \)
使用求根公式:\( x = \frac{-2m \pm \sqrt{4m^2 + 8m + 4}}{-2} = \frac{-2m \pm \sqrt{(2m + 2)^2}}{-2} \)
因为\( m > 0 \),所以\( \sqrt{(2m + 2)^2} = 2m + 2 \)
第一个解:\( x = \frac{-2m + 2m + 2}{-2} = -1 \)
第二个解:\( x = \frac{-2m - (2m + 2)}{-2} = 2m + 1 \)
因此:A(-1, 0),B(2m + 1, 0)
求C坐标:与y轴交点,令x=0得:\( y = 2m + 1 \)
因此:C(0, 2m + 1)
在三角形OBC中:
• OB = 2m + 1(B点到原点距离)
• OC = 2m + 1(C点到原点距离)
• BC = \( \sqrt{(2m + 1)^2 + (2m + 1)^2} = (2m + 1)\sqrt{2} \)
因为OB = OC且OB² + OC² = BC²,所以三角形OBC是等腰直角三角形
因此:∠OBC = 45°
首先求顶点D坐标:\( D(m, (m + 1)^2) \)
求∠ACO的正切值:
在直角三角形ACO中,∠ACO的对边AO=1,邻边CO=2m+1
\( \tan(\angle ACO) = \frac{AO}{CO} = \frac{1}{2m + 1} \)
求∠CBD的正切值:
直线BC斜率:\( k_{BC} = \frac{2m + 1}{-(2m + 1)} = -1 \)
直线BD斜率:\( k_{BD} = \frac{(m + 1)^2}{m - (2m + 1)} = -(m + 1) \)
\( \tan(\angle CBD) = \left| \frac{-(m + 1) - (-1)}{1 + (-1)[-(m + 1)]} \right| = \frac{m}{m + 2} \)
因为∠ACO = ∠CBD,所以:\( \frac{1}{2m + 1} = \frac{m}{m + 2} \)
交叉相乘:\( m + 2 = m(2m + 1) \)
整理得:\( m + 2 = 2m^2 + m \)
化简:\( 2m^2 = 2 \Rightarrow m^2 = 1 \)
因为\( m > 0 \),所以:m = 1
验证:当m=1时,\( \tan(\angle ACO) = \frac{1}{3} \),\( \tan(\angle CBD) = \frac{1}{3} \),相等
答案:m = 1
数学公式识别


文档内容理解

表格结构理解

<table border="1"> <thead> <tr> <th>项目</th> <th>期末余额</th> <th>年初余额</th> </tr> </thead> <tbody> <tr> <td colspan="3">流动资产:</td> </tr> <tr> <td>货币资金</td> <td>5,288,011,738.39</td> <td>2,629,981,089.49</td> </tr> <tr> <td>结算备付金</td> <td></td> <td></td> </tr> <tr> <td>拆出资金</td> <td></td> <td></td> </tr> <tr> <td>以公允价值计量且其变动计入当期损益的金融资产</td> <td>3,226,301.37</td> <td>6,830,273.97</td> </tr> <tr> <td>衍生金融资产</td> <td></td> <td></td> </tr> <tr> <td>应收票据</td> <td>1,010,636.94</td> <td>888,800.00</td> </tr> <tr> <td>应收账款</td> <td>389,409,537.65</td> <td>290,733,812.62</td> </tr> <tr> <td>预付款项</td> <td>474,301,533.93</td> <td>509,510,514.92</td> </tr> <tr> <td>应收保费</td> <td></td> <td></td> </tr> <tr> <td>应收分保账款</td> <td></td> <td></td> </tr> <tr> <td>应收分保合同准备金</td> <td></td> <td></td> </tr> <tr> <td>应收利息</td> <td>8,746,899.35</td> <td>1,645,890.39</td> </tr> <tr> <td>应收股利</td> <td></td> <td></td> </tr> <tr> <td>其他应收款</td> <td>291,499,926.83</td> <td>364,426,205.02</td> </tr> <tr> <td>买入返售金融资产</td> <td></td> <td></td> </tr> <tr> <td>存货</td> <td>69,558,687.59</td> <td>79,651,862.50</td> </tr> <tr> <td>划分为持有待售的资产</td> <td></td> <td></td> </tr> <tr> <td>一年内到期的非流动资产</td> <td></td> <td></td> </tr> <tr> <td>其他流动资产</td> <td>533,938,653.95</td> <td>545,184,036.20</td> </tr> <tr> <td>流动资产合计</td> <td>7,059,703,916.00</td> <td>4,428,852,485.11</td> </tr> <tr> <td colspan="3">非流动资产:</td> </tr> <tr> <td>发放贷款和垫款</td> <td></td> <td></td> </tr> <tr> <td>可供出售金融资产</td> <td>981,477,845.00</td> <td>42,732,350.00</td> </tr> <tr> <td>持有至到期投资</td> <td></td> <td></td> </tr> <tr> <td>长期应收款</td> <td></td> <td></td> </tr> <tr> <td>长期股权投资</td> <td>478,328,423.92</td> <td>482,914,333.17</td> </tr> <tr> <td>投资性房地产</td> <td></td> <td></td> </tr> <tr> <td>固定资产</td> <td>11,211,345,599.37</td> <td>11,517,509,788.66</td> </tr> <tr> <td>在建工程</td> <td>344,034,065.45</td> <td>558,797,792.68</td> </tr> </tbody> </table>
项目 | 期末余额 | 年初余额 |
---|---|---|
流动资产: | ||
货币资金 | 5,288,011,738.39 | 2,629,981,089.49 |
结算备付金 | — | — |
拆出资金 | — | — |
以公允价值计量且其变动计入当期损益的金融资产 | 3,226,301.37 | 6,830,273.97 |
衍生金融资产 | — | — |
应收票据 | 1,010,636.94 | 888,800.00 |
应收账款 | 389,409,537.65 | 290,733,812.62 |
预付款项 | 474,301,533.93 | 509,510,514.92 |
应收保费 | — | — |
应收分保账款 | — | — |
应收分保合同准备金 | — | — |
应收利息 | 8,746,899.35 | 1,645,890.39 |
应收股利 | — | — |
其他应收款 | 291,499,926.83 | 364,426,205.02 |
买入返售金融资产 | — | — |
存货 | 69,558,687.59 | 79,651,862.50 |
划分为持有待售的资产 | — | — |
一年内到期的非流动资产 | — | — |
其他流动资产 | 533,938,653.95 | 545,184,036.20 |
流动资产合计 | 7,059,703,916.00 | 4,428,852,485.11 |
非流动资产: | ||
发放贷款和垫款 | — | — |
可供出售金融资产 | 981,477,845.00 | 42,732,350.00 |
持有至到期投资 | — | — |
长期应收款 | — | — |
长期股权投资 | 478,328,423.92 | 482,914,333.17 |
投资性房地产 | — | — |
固定资产 | 11,211,345,599.37 | 11,517,509,788.66 |
在建工程 | 344,034,065.45 | 558,797,792.68 |
图表数据分析

用户现在需要帮小明选七夕节礼物,小明是男生。首先,我需要回忆一下之前提到的男生最想收到的礼物。根据提供的图表,男生最想收到的礼物热度指数最高的是"游戏和游戏配套设备",热度指数100.00,其次是耳机63.53,键盘63.16,剃须刀58.90,手表57.27,香水47.62,手机44.36,等等。
现在看选项:a) iphone17,属于手机类,手机在男生中的热度指数是44.36,虽然比香水、手表高,但手机在男生中的热度指数不算特别特别高,尤其是iphone17可能比较贵,而且手机本身在男生中的热度可能不如游戏设备。b) Dior香水,女生最想收到的礼物中香水热度87.13,而男生对香水的热度只有47.62,明显男生对香水的兴趣较低,所以女生送的香水可能不太适合男生。c) 一束美丽的鲜花,图表中女生最想收到的礼物有花,热度41.22,但男生对花的兴趣可能不高,通常男生可能不太喜欢收到花作为礼物。d) 巧克力套装,女生最想收到的礼物有巧克力,热度42.48,同样男生对巧克力的兴趣可能不如游戏设备、耳机等。
不过这里可能需要考虑,七夕节女生送男生礼物,通常男生更喜欢的可能是实用或兴趣相关的。游戏和游戏设备热度最高,但选项里没有游戏设备,剩下的手机(iphone17)属于电子产品,可能比香水、巧克力、鲜花更合适。虽然手机在男生中的热度指数44.36,但相比其他选项,可能巧克力套装(d)热度42.48,手机(a)44.36,可能手机稍微高一点?不过需要确认选项中的手机是否是男生喜欢的类型。另外,七夕节男生可能更期待实用或有意义的礼物,手机作为电子产品,可能比香水、鲜花更受欢迎,因为香水男生可能不太喜欢,花可能觉得俗,巧克力套装虽然女生喜欢,但男生可能觉得普通。而游戏设备虽然热度最高,但选项里没有,所以只能从现有选项中选择。因此,可能选项a) iphone17更适合,因为手机在男生中的热度比香水、巧克力、鲜花高,虽然不如游戏设备,但其他选项更次。
</think>
根据图表数据,男生最想收到的礼物中,手机的热度指数为44.36,高于香水(47.62)、巧克力套装(42.48)和鲜花(41.22)。
选项分析:
- a) iphone17:属于手机类,符合男生对电子产品的偏好,热度指数在男生礼物中处于较高水平(仅次于游戏设备)。
- b) Dior香水:女生对香水的热度(87.13)远高于男生(47.62),且男生对香水的兴趣较低。
- c) 一束美丽的鲜花:男生对花的兴趣明显低于女生(男生花的热度41.22),通常不被视为男生偏好的礼物。
- d) 巧克力套装:女生对巧克力的热度(42.48)高于男生(47.62),且巧克力作为礼物更偏向"大众化",而非男生核心兴趣。
最适合的礼物是a) iphone17
答案:a
</answer>
股票走势分析

视频理解
快速开始
功能示例代码
完整的使用示例和代码请参考我们的Cookbook:Qianfan-VL Example Notebook
API参数说明
详细的API参数说明和调用文档请参考:千帆ModelBuilder API文档
总结
Qianfan-VL定位为领域增强的通用多模态大语言模型,提供3B、8B、70B多种规格,实现多尺寸、全场景应用覆盖。围绕B端客户需求,重点增强了智能办公和K12教育场景的多项任务能力,包括OCR识别、文档解析、拍照解题、图表理解、复杂表格解析等。面对需要复杂推理的场景,可在8B和70B模型上开启思考功能,进一步增强模型效果。
技术层面采用多阶段渐进式的持续预训练技术,在维持通用能力的基础上不断增强领域精专数据的配比,进而实现领域能力的显著提升。基于传统小模型和程序化合成的方法,Qianfan-VL团队构建了大量高精度的训练数据,显著提高了长尾场景的数据密度,提升了模型泛化性。所有尺寸模型都在5000+昆仑芯片加持下的大规模并行训练中完成,并且这些模型可在昆仑芯、GPU等芯片上进行高效率推理。
Qianfan-VL系列模型在各个同尺寸参数量的模型中具备良好的通用性,并且在精专的领域benchmark上有出色表现,在实际业务的benchmark中表现更佳。通过领域增强技术路线,Qianfan-VL为企业级多模态AI应用提供了兼具通用性和专业性的高性能解决方案。