RAG

腾讯云工具指南 · 第08期

RAG 技术
应用与实践

检索增强生成(Retrieval-Augmented Generation)
让大模型拥有真实知识的核心技术

什么是 RAG?

一张图看懂 RAG 的核心工作流程

一句话理解:RAG 就是给大模型配一个"开卷考试"的能力——不用死记硬背,而是先从资料库里找到相关内容,再基于真实资料回答问题。
📚

用一个生活比喻理解 RAG

想象你在开卷考试:老师允许翻书。你不需要记住所有课本内容,只需要快速翻到正确的页面(检索),然后阅读并组织语言回答问题(生成)。RAG 就是帮大模型做这两件事。

RAG 核心管线

📄文档
🔍解析
✂️切分
💾向量库
用户提问
🔄查询优化
🎯检索匹配
🤖生成回答

上半部分为离线处理(只需做一次),下半部分为实时问答(每次提问触发)

📄
1

文档输入

用户上传 PDF、Word、图片等各种格式文档

🔍
2

文档解析

将文档转换为 Markdown 结构化形式,识别表格、公式、图片等元素

✂️
3

语义切分

将文档切分为适合检索的片段,存入向量数据库

4

查询理解

对用户问题进行改写、分解,更全面准确理解意图

🎯
5

检索匹配

通过混合搜索在知识库中找到最相关的文档片段

🤖
6

生成回答

大模型基于检索到的内容,生成准确、可追溯的回答

为什么需要 RAG?

🚫

消除幻觉

大模型会编造不存在的信息。RAG 让模型基于真实文档回答,大幅减少"一本正经胡说八道"

🔄

知识更新

大模型训练数据有截止日期。RAG 通过外挂知识库,让模型随时获取最新信息

🏢

企业私域

企业内部文档不在大模型训练数据中。RAG 让模型能够回答特定领域的专业问题

📌

来源可追溯

RAG 可以标记答案来源,让用户知道信息出处,增强可信度

专题一

如何让大模型看懂文档

RAG 实践中的文档解析

一句话理解:文档解析就是把"一张图片格式的文档"翻译成"电脑能读懂的结构化文本",就像把手写笔记整理成 Word 文档一样。这是 RAG 的第一步,读不对文档,后面全白搭。
📸

生活比喻

想象你拍了一张白板照片,上面有文字、表格、箭头和图示。文档解析就像一个超级助理,不只是读出文字,还能识别哪些是表格、哪些是图片、文字的阅读顺序是什么——然后整理成一份清晰的 Word 文档交给你。

什么是文档解析?为什么要做?

将 PDF、Word、图片等不可编辑的文档,转换为 Markdown 结构化形式,识别其中的段落、表格、公式、标题、图片等元素的内容及阅读顺序。 📚课程笔记: Pipeline B

普遍文档以 PDF 和图片形式存在,无法直接被大模型使用。传统 OCR 只能识别纯文字,远远不够:

传统 OCR 的局限

  • 只能识别文字,忽略表格、公式、图片
  • 无法处理多栏、图文混排等复杂排版
  • 输出的文字顺序经常混乱

文档解析的能力

  • 识别多种元素(表格、公式、子图、标题等)
  • 正确排列阅读顺序(跨栏、环绕等复杂版式)
  • 输出结构化 Markdown,大模型可直接使用

文档解析的四步实现过程

1

版面分析

定位图像中版面元素(段落、表格、图片、标题等)的位置、顺序和类型

2

文字识别

识别图像中的文字信息

3

表格识别

将表格图像转为具有行列关系的结构化信息

4

内容整合

将所有识别结果按阅读顺序整合为 Markdown 内容

难点一:复杂排版的阅读顺序问题 📚笔记: Pipeline C

文档解析结果要作为大模型输入,所以阅读顺序必须正确。但真实文档中存在图/表群组、跨栏段落、图表文环绕等复杂排版,传统解法搞不定。

方案原理优点缺点
版面分析 + 规则排序检测版面元素后按规则排列实现快捷,满足简单排版无法处理图文表混排等复杂场景
自回归生成文本输入无序内容,自回归生成有序文本纯文字排序效果可以无法处理非文字元素,细粒度性能差
DREAM 模型(腾讯云) 📚笔记自回归并行解码 + 语义感知解决各种复杂排版
深入了解:DREAM 模型工作原理 +

把文档图片交给模型,模型像人一样先"看全局",再"找到每个元素",最后"按正确顺序读出来"。

Step 1
图像特征提取

将输入图片切成小块(patch),送入图像编码器提取视觉特征

Step 2
元素特征聚合

预设 N 个查询向量代表版面元素,通过注意力机制与图像特征交互,聚合每个元素的信息

Step 3
元素并行生成

同时生成每个元素的类型、坐标和内容。将图片特征拷贝多份实现并行解码加速

训练优化目标:类型交叉熵 + 坐标 IoU 损失 + 内容转录约束 + 全局编辑距离损失(顺序约束)
✅ 元素排序指标达 85%,支持 8 类排版的元素顺序复原

难点二:复杂表格结构难以处理

不同类型表格(有线表、无线表、少线表)视觉差异大。有些用实线分隔,有些用空白分隔,模型需要同时应对所有情况。

方案原理优点缺点
基于单一组件边界提取或元素关系预测各独立场景精度基本满足存在效果瓶颈,优化成本高
基于生成式方法自回归模型端到端生成结构可积累训练数据预测不稳定,复杂表格准确率低
GrabTab 模型(腾讯云)特征协同 + 线重组单模型应对多场景
深入了解:GrabTab 模型工作原理 +

先找到表格里每个文字块的特征,再找出文字块之间的关系,然后预测分隔线在哪里,最后用这些线组装出完整的表格。

Step 1
候选组件提取

提取元素特征(每个文本块的图像/布局/文字特征)和关系特征(元素间的关联信息)

Step 2
分割线生成

定义横纵表格线,通过注意力机制生成每条分隔线的贝塞尔曲线系数

Step 3
多组件协同

基于已提取的分隔线特征,与元素和关系做交叉注意力进一步提升精度

Step 4
表格结构生成

基于横纵分隔线两两组合,生成每个单元格的行列坐标信息

✅ 表格识别指标达 89%,支持有线、无线、少线表的复原

难点三:子图子公式识别

真实文档中,公式和子图经常嵌在文字行内。传统做法是先定位再分别识别再拼接——每步都会累积误差。

方案原理优点缺点
多能力拼接先定位子元素,再调用各模型拼接各能力解耦,独立优化传递误差大,规则需频繁适配
识别模型直接预测(腾讯云)一个模型同时输出文字+公式+子图避免拼接误差,上限高,实现简单

在常规文字识别基础上,增加对文本行内公式的 LaTeX 内容输出,并预测行内子图的坐标位置。一个模型端到端完成,无需多模型接力。

✅ 图像识别指标达 95%,公式识别达 85%
文档解析总览 文档解析流程 DREAM模型 GrabTab模型
专题二

如何让大模型理解用户问题

RAG 实践中的检索优化

一句话理解:用户问的问题往往"不完整"或"太笼统",检索优化就是帮用户把问题翻译成知识库能听懂的语言,然后在海量资料中精准找到答案所在的那一段。
📚

生活比喻

想象你去图书馆找书。你只说"我想看那个……就是那个关于AI的"——图书管理员会帮你整理清楚问题(查询改写),拆解成几个方向去找(多重查询),然后从百万本书中帮你精准定位到正确的章节。

什么是检索技术?

检索技术分为两大环节:

🔤 查询环节(优化问题)

  • 查询改写:多轮对话中补全缺失信息
  • 多重查询/查询分解:从多角度拆解复杂问题
  • 伪文档嵌入:为专业术语生成解释辅助检索
  • 文档语义切分:离线将文档切成适合检索的片段

🔍 检索环节(找到答案)

  • 语义搜索:将文本转为向量,在向量数据库中按相似度匹配
  • 结构化搜索:通过 Text2SQL 将问题转为 SQL 查数据库
  • 混合搜索:关键词搜索 + 向量搜索结合

💡 向量(Embedding):把文字转换成一串数字。语义相近的文字,数字也相近,这样计算机就能理解"含义的远近"了。

一、查询改写:让不完整的问题变完整 📚笔记: Query改写六法

多轮对话中,用户经常省略主语或用代词。如果直接拿不完整的问题去检索,根本找不到有用信息。

第1轮
用户:"介绍一下特斯拉 Model 3"
AI:"Model 3 是特斯拉的入门级轿车…"
第2轮(不完整)
用户:"它的价格呢?" ← 直接搜索无结果
改写后
"特斯拉 Model 3 的价格是多少?" ✅
两个核心能力:指代消解 把"它"替换为"特斯拉 Model 3" · 信息补全 补充上文的关键信息
业内传统:seq2seq 指针网络,速度快但效果差 腾讯云:大模型 + Few-shot/CoT 推理,准确率更高

二、多重查询与查询分解

用户问题经常视角单一、多主体混合、或包含并列子问题。拆开来分别检索效果更好。

多重查询

从多个视角检索同一主题

原始:"气候变化的影响"
↓ 生成多角度子问题

① 气候变化如何影响日常天气?

② 气候变化对经济有哪些影响?

分别检索后合并 → 信息更全面

查询分解

拆解并列问题逐个解决

原始:"A 和 B 在 GitHub 上分别多少 star?哪个更多?"
↓ 分解为按序执行

① A 有多少 star?

② B 有多少 star?

③ 哪个更多?

三、伪文档嵌入(HyDE)

用户问题含专业术语或缩写时,直接搜索可能因"用词不同"而找不到。先让大模型生成解释文本,再用这段文本去检索。

用户问题:"金融领域中的 ROE 指的是什么?"
↓ 大模型生成伪文档
伪文档:"ROE 代表股东权益回报率,是衡量公司盈利能力的财务比率,计算公式为:ROE = 净利润 / 平均股东权益…"
↓ 用伪文档的向量去知识库检索
命中知识库中关于 ROE 的详细文档 ✅

四、文档语义切分:把知识库切成“刚好”的大小 📚笔记: Pipeline D

文档太长大模型一次读不完;切太碎信息不完整。怎么切是个技术活。

方案原理优点缺点
基于规则(开源方案)按标点符号、字数、段落切分实现简单缺乏通用性,文本易被截断导致信息不完整
基于模型(学术方案)Transformer 编码+分类判断片段起始考虑语义信息只支持一级切片,无法兼顾检索精准度和生成全面性
多级文档切分(腾讯云)生成式模型做切分处理超长文本,效果最佳
一级片段(完整语义,包含整段主题信息)
二级片段(细粒度,精准检索用)
二级片段
二级片段

一级片段包含完整语义信息,内部包含多个连续的二级片段。检索时用二级片段精准匹配,回答时用一级片段提供完整上下文。

PM 实战速查 2025 主流切分策略

切分实战策略:如何用 PM 视角选对切分方法

切分是 RAG 检索质量的第一道天花板。切太碎丢上下文,切太粗混噪声。本节从产品经理视角,带你速查 2025 市面上最常用的五种切分方法,并给出场景决策树、参数经验表和成本效益对比。

① 市面 RAG 调研四大渠道
渠道用途推荐入口
权威出处理解原理 + 面试背书RAG 原论文 (Facebook 2020) · Graph RAG (Microsoft 2024) · 信通院 RAG 白皮书
开源框架看真实工程实现LangChain · LlamaIndex · Unstructured.io · RAGFlow / Dify 源码
厂商产品看默认参数 + 竞品对标主流国内知识库平台 · 海外 Notion / Glean / Perplexity
社区动态追踪新方案GitHub Trending (关键词 rag) · Anthropic 博客 · Hugging Face Blog
PM 调研三步法:① 先定业务场景 → ② 扒 2-3 个头部竞品的切分参数 → ③ 与算法对齐技术边界
② 五大主流切分方法对比(PM 决策用)
方法核心逻辑最适场景成本召回提升
递归字符切分
Recursive Character
按分隔符优先级(段落→句号→逗号)递归切MVP / 通用文档 / 项目起步基线
语义切分
Semantic Chunking
相邻句 embedding 相似度,语义突变处下刀高质量问答 / 信息密度高中(需 Embedding 调用)+8-15%
父子切分
Parent-Child / Small-to-Big
小块(200字)检索 + 大块(2000字)送 LLM法律 / 医疗 / 研报等长文中(存储双倍)+10-20%
Contextual Chunking
Anthropic 2024
切分时用 LLM 给每块加 50-100 字上下文前缀高精度要求 / 预算充裕高(每块 1 次 LLM 调用)+30-49%
结构化切分
Document-aware
按文档天然结构(标题 / 章节 / 表格 / 代码)切Markdown / PDF / 代码库+15%
③ 场景 → 策略决策树
◆ 按文档类型
├─ 通用文本(网页 / Word / TXT) → 递归字符切分 ✅ 起步首选
├─ 结构化文档(Markdown / 带标题 PDF) → 结构化切分 + 递归兜底
├─ 超长专业文档(法律 / 医疗 / 研报) → 父子切分(小检索+大生成)
├─ 代码库 → 按函数 / 类切分
└─ 多类型混合 → 分类路由 + 对应策略
◆ 按精度要求
├─ 高精度问答 → 递归字符 + 语义切分 + Contextual 三段式
└─ 一般精度 → 递归字符起步,遇到 bad case 再升级
◆ 按预算
├─ 紧张 → 递归字符 + metadata 增强(最低成本高性价比)
└─ 充裕 → 可尝试 Contextual Chunking(LLM 调用成本高)
④ 参数经验表(2025 生产参考)
业务场景chunk_sizeoverlap推荐组合
中文文档问答300-500 字50 字 (10%)递归字符
英文技术文档500-1000 tokens10-20%递归字符
法律 / 医疗报告父 2000 / 子 20020%父子切分
学术论文按小节(动态)0结构化切分
客服 FAQ一问一答整条0不切,整条入库
高精度垂域动态自适应动态语义 + Contextual

⚠️ 所有参数仅为起步参考。生产参数必须通过召回率 / 准确率 AB 实验确定。

⑤ 成本效益对比(向老板汇报用)
方法离线成本存储开销在线延迟效果提升适用阶段
递归字符基线基线基线MVP / POC
结构化基线基线+15%MVP / 优化
语义切分+20%基线+8-15%迭代 / 质量攻坚
父子切分+80%+20%+10-20%高端企业级
Contextual高(需 LLM)+15%基线+30-49%高价值场景
⑥ 2025 行业三大趋势
🔀
从单一 → 混合切分
主检索用递归,精排 / 重排用语义。生产环境普遍采用混合策略。
🏷️
从纯切分 → 切分 + 增强
给每块 chunk 加标题 / 摘要 / 关键词作为 metadata,召回可提升 10%+。
🤖
从被动 → Agentic Chunking 萌芽
让 LLM 主动判断怎么切,仍在早期,成本高,适合超高价值场景。
⑦ PM 与算法对齐三问(面试 / 对齐会必备)
Q1 · 目标召回率和准确率是多少? → 通常 召回 ≥90% / 准确 ≥85%
Q2 · 长尾 bad case 有哪些? → 要求算法提供真实失败样例
Q3 · chunk_size / overlap 的 AB 实验方案怎么设计? → 对照组变量、样本量、显著性
📚关联课程 008-2 · Pipeline D 文本分割

五、语义向量检索 📚笔记: Pipeline E

将文本转为向量后在数据库中按相似度匹配。腾讯云在向量模型训练上做了三项关键优化:

深入了解:腾讯云向量模型训练方案 +

先让模型做"完形填空"学会整句理解能力,再用行业数据做三阶段训练逐步提升。

创新 1
MAE-style 训练

遮盖部分输入让模型预测,加强对整句的表示能力(类似完形填空训练)

创新 2
RoPE 位置编码

使模型能支持更长的文本输入长度

创新 3
三阶段训练

行业数据预训练 → 大规模弱监督训练 → 有监督训练,逐步提升业务适应能力

六、三大搜索策略 📚笔记: 多路查询

🔀 策略一:混合搜索

虽然向量搜索很强大,但面对短文本、少字符、低频词时,传统关键词检索依然有优势。

腾讯云将关键词搜索与向量搜索结合,再通过 Rerank 模型重新排序,取长补短。

💡 Rerank(重排序模型):对初步检索结果再做一次精细评估,把最相关的排到前面。

🔎 策略二:以小搜大

先用细粒度的二级片段做精准检索,当多个二级片段属于同一个一级片段时,用完整的一级片段替换——既保证检索精准,又获得主题完整的语义信息。

解决了"小切片信息不全、长文本效果差"的两难问题。

📊 策略三:相关性排序

向量检索或混合检索可能返回大量内容,信息冗余。通过 Reranker 模型重排+筛选,将相关内容置于前列;再训练检索评估器进一步精简。

七、结构化数据检索

当知识已经以数据库(表格)形式存储时,用 SQL 查询比向量检索更精确。

标准表格

Text2SQL 多智能体框架

将自然语言转为 SQL,在数据库中精确查询。用三个 Agent 协作解决信息干扰、问题复杂、反馈不及时的问题:

🤖 Agent 选择器
从众多表中选择相关表和列,减少干扰
🤖 Agent 分解器
复杂问题分解为子问题逐步解决
🤖 Agent 优化器
执行 SQL 获取反馈,优化错误 SQL
非标准表格

表格摘要 + 以小搜大

Text2SQL 无法处理不规范的表格(如合并单元格表格、嵌套表格)。

腾讯云方案:大模型对表格生成摘要 → 通过检索摘要找到相关表格 → 加工后送给大模型生成回复。

对于超长表格:先切成子切片,通过子切片摘要生成最终表格摘要。

检索优化总览 查询改写 混合搜索 相关性排序
专题三

如何让大模型理解长文本

RAG 实践中的阅读理解技术优化

一句话理解:大模型在 ToB(面向企业)场景中经常"胡说八道"(幻觉),腾讯云通过"精调大模型 + RAG"双管齐下,让模型既有行业知识,又能可靠地回答问题。
🎓

生活比喻

想象一个实习医生——即使能读书(RAG),但缺乏临床经验会导致误诊。精调就像让这个医生先在专科实习半年,让他既有临床直觉,又能查资料确认。精调+RAG = 经验丰富的专家 + 随时可查的资料库。

什么是阅读理解能力?

阅读理解能力是指大模型通过阅读上下文获取信息的能力。上下文来自限定范围的文档库、知识库或搜索引擎,使得模型回答内容安全可控、减少幻觉、具备知识时效性。

它是 RAG 的核心模块——前面的文档解析和检索是为了找到正确的内容,而阅读理解决定了模型能否基于这些内容给出可靠回答。

💡 幻觉(Hallucination):大模型生成看起来合理但实际不正确的信息。特别是在专业领域,模型训练数据不足时最容易出现。

一、消除 ToB 场景幻觉的四种解法

面对需要处理专业化行业知识的 ToB 场景,腾讯云对比了四种解法,最终采用"精调大模型 + RAG"的组合方案:

方法一
Prompt 工程

改善模型在专业场景的行为偏好

❌ 无法解决行业知识和专业度不够的根本问题

方法二
精调大模型

用行业数据做增量学习,对特定任务有更好表现

❌ 依赖大量数据和算力,对域外知识仍有幻觉风险

方法三
RAG + Prompt

弥补大模型专业知识不足

❌ 无法理解复杂语义,指令遵循效果差
=

腾讯云解法
精调大模型 + RAG

集合前三种方法的优势

✅ 准确性:解决专有领域知识不够的问题
✅ 可靠性:符合 ToB 业务逻辑的指令遵循

二、精调大模型的四个应用场景

点击下方标签切换查看不同场景的详细介绍:

场景 1

通用长文本阅读理解

典型场景:企业内部知识问答(业务查询、员工培训)、各种业务咨询客服

基于行业数据的有监督精调

在腾讯混元大模型基础上,使用金融、政务、教育、交通、汽车、文旅等重点行业数据做阅读理解任务的精调:

  • 增强专业知识的理解能力
  • 符合专业领域的回复范式
基于 RAG 任务的有监督精调

构造 RAG 场景下的训练样本,四步流程:

目标切片抽取问题检索相似切片拼接上下文生产答案

通过人工+自动化核验清洗得到训练数据

关键:优化目标不是让模型记住行业知识,而是让模型具备在专业知识库中寻找正确知识并以可靠方式呈现给用户的能力
场景 2

阅读理解 CoT(思维链)

典型场景:客服问答中需要推理计算的场景、教育场景(通过知识引擎检索教学知识点)

💡 CoT(Chain of Thought,思维链):让模型像人一样一步步推理,而不是直接给答案。这样推理过程透明、结果更准确。

四步思维链训练
1
内容拼接

短文本的 CoT 上下文与相似问题拼接,构造 RAG 场景复杂上下文

2
内容定位

模型先理解意图,引用或复述上下文中的相关内容

3
理由生成

根据问题意图和相关信息,逐步生成推理理由或计算步骤

4
答案推断

根据中间推理过程,总结得到最终答案

支持调用计算 API:构造 API 调用训练样本,输出触发计算 API 的特殊字符,支持数值计算、解方程、时间推理等任务
场景 3

表格理解

典型场景:零售销售看板、金融产品问讯

难点:单点知识抽取、综合多点知识分析、结构化数据输出、表文混合阅读理解

根据表格理解的业务特点,构造五种指令数据:
知识抽取

多种表格形式(markdown/html/csv),含简单和复杂表格

表格总结

单表多行多列、多表信息的知识问答和内容总结归纳

逻辑推理

根据表格信息做条件判断、逻辑推理

数值比较

最小值/最大值/最佳值计算,长表格结合 Text2SQL 和计算 API

表格生成

按条件筛选表格内容,或根据 KV 数据生成表格

结合 Text2SQL,知识引擎能在大表格场景检索到更精确的信息送给大模型
场景 4

指令遵循

典型场景:符合 ToB 客户指令要求和身份认知的问答机器人(企业客服、行业专家、指导老师等角色)

无关内容拒答

知识精度要求高的场景(金融客服、政策问答)。

技术:构造正负样本对(相关/无关 context 对应正面回答/拒答),拼接不相关但有一定检索相似度的 context,让模型学习真实场景拒答能力。

来源引用

标记答案来源的引用和定位。

技术:构造出引用/不出引用的正负样本,引用和答案同时输出,一个回答可对应多个参考来源。

为什么用大模型做来源引用比传统方案好?
  • LLM 参数规模更大,语义理解能力远超传统 Embedding 模型
  • LLM 支持更长的序列(8K/32K+),传统模型只有 0.5~2K
  • 基于语义内容匹配来源,而非简单的关键词匹配,准确率更高
通用性指令

包括反问澄清、格式规范、范围限制、角色设定等。构造泛化组合数据增强指令遵循能力,训练指令评估模型优选高质量指令。

阅读理解总览 消除幻觉四解法 通用阅读理解 CoT思维链
专题四

如何让大模型看懂图片/视频

RAG 实践中的多模态问答

一句话理解:很多文档的关键信息藏在图片里(流程图、财报图表、产品说明图),纯文字 RAG 看不到这些内容。多模态 RAG 让大模型同时"看图"和"读文",实现图文联合问答。
👁️

生活比喻

想象你在看一本图文并茂的教科书——如果只读文字不看图,你会错过关键的图表、流程图和示意图。多模态 RAG 就是让大模型也能"看图说话",图文一起理解。

为什么需要多模态大模型?

在企业文档中,大量关键信息以图片形式存在——架构图、流程图、数据图表、产品照片等。如果 RAG 只能处理文字,就会丢失这些重要信息。多模态大模型(MLLM)能同时理解文字和图像,是 RAG 处理真实文档的必备能力。

💡 MLLM(Multimodal Large Language Model):多模态大语言模型,能同时处理文字、图片甚至视频的 AI 模型。

一、四大场景痛点

1

文档图文混排

说明书/PPT 文档中,图片与文本顺序错位,正确图片不一定在对应文本附近,周围还有内容相近的干扰图片。需要从文档中准确关联多个图文对应关系

2

图文交错查询

用户输入图像并提问(如拍照操作手册某页提问),系统需在文档中找到相关信息,对干扰内容保持鲁棒,准确理解图文交错的查询意图

3

复杂图片理解

文档内复杂自然图片(不带文字,包含复杂指示标记或流程/架构组织),正确答案不在文字中而在图中,需要深入理解图片内容。

4

图像推理计算

金融财报PPT、教育教材题库文档问答。需要先识别图像内容,再做数学计算、知识推理,需要目标计数、位置关系判断、OCR 识别等多种能力。

二、三种解决方案对比

三、腾讯云多模态 RAG 四步流程

1

用户上传文档
支持 PDF/PPT/Word 等多种格式

2

Markdown 转换
文档解析模型提取文字和图片,保存到知识库

3

检索图文片段
根据用户查询,检索知识库中相关图文混合片段

4

多模态阅读理解
MLLM 根据检索到的图文序列和问题输出准确回答

四、多模态大模型的技术路径

构建多模态大模型分为三个阶段,从基础的图像理解到精细的任务适配层层递进:

阶段 1

模态特征编码

模态信息的细节抓取与语义整合

使用 SAM(分割万物模型)和 CLIP(图文对齐模型)等将图片编码为模型能理解的特征向量,就像给图片做"翻译"。

阶段 2

图文对齐预训练

让模型学会"图和文说的是同一件事"

使用海量图文对数据(COYO-700M、LAION-5B)和图文交错数据(MMC4、OBELICS、OmniCorpus)进行预训练,让模型学会图文对应关系。

阶段 3

多模态微调策略

针对具体任务精细调优

  • 多模态指令微调(M-IT):让模型学会遵循图文相关的指令
  • 多模态上下文学习(M-ICL):让模型能从少量图文示例中学习
  • 多模态思维链(M-CoT):让模型对图像内容做逐步推理

五、三种训练策略

针对 RAG 场景中"看图回答"的需求,腾讯云设计了三种训练策略:

👁️

看清图:动态分辨率训练

文档解析得到的局部图片通过动态分辨率训练,保证模型能看清图片中的细节内容(文字、数字、标注等)。

🔒

锁定图:多尺度图文混合训练

通过多种尺度的上下文构造训练,保证模型对逐渐增多的干扰图片、干扰文本保持鲁棒,不会因为干扰内容太多影响行业知识学习。

答对图:鲁棒性训练

答案索引正确的图片 ID,通过正负样本保证出图准确率。增加据答功能,防止误报过多。覆盖说明书/金融/攻略/论文 4 大场景。

六、三大应用场景

场景 1

图片信息挖掘

核心问题:如何看懂上下文中的图片?

覆盖说明书/金融/攻略/论文 4 大场景。回答准确率和出图准确率高。

训练策略:动态分辨率(看清图)+ 多尺度混合训练(锁定图)+ 正负样本(答对图)

场景 2

输入输出图片

核心问题:如何支持用户发图提问、回答带图?

多任务学习
  • 学归纳:单模态摘要、信息提取
  • 学关联:多尺度图文交错排序、长视觉上下文图片定位
指令遵循优化

利用问题改写模型、指令进化策略,修改用户问题主体和细节,优化摘要总结、带图问答的指令遵循能力。

功能:图查询功能 + 摘要功能

场景 3

推理文档中的图片

核心问题:如何对图片做复杂推理和计算?

两步流程:

决策生成:分析问题,结合专家模块特性生成决策执行:调用专家模块执行子任务,汇总生成最终答案
四大专家模块:
TextIntel Extract

按要求针对性地提取图像中的文本

ObjectQuant Locator

识别并定位图像中的对象,擅长比较数量和识别空间关系

VisionIQ Analyst

处理任何与图像内容相关的查询,善于分析图像

Chart Sense Expert

分析和解释图表信息,提取数据点、了解趋势、识别标题/轴/标签/图例

多模态总览 场景痛点 三种方案对比 训练策略