RAG 技术

RAG 技术 检索增强的生成系统(Retrieve Augment Generation)简称 RAG。 原理是在大语言模型的基础上,辅助检索技术,让大语言模型能够获得与用户问题相关的更多上下文信息,使得的大语言模型可以: 降低幻觉出现概率 适应垂直场景应用 弥补数据实时性不足 一个典型 RAG 系统的架构 RAG 系统的核心技术要素 文档导入 文档切分 文档向量化 向量数据库选型 检索算法 文档排序 Prompt 生成 $\dots$ 市面上大部分的关于 RAG 的介绍都是类似上面的逻辑进行的,然后就顺利的将 某一种 RAG 的方法 变成了 通用 RAG 的框架,从而让我们迷失了 RAG 的真正价值。 ...

2023-11-23 · 3 分钟 · 癸老师

大语言模型原理分享

大语言模型原理分享 什么是大语言模型? 当我说了很多话之后,我马上要说 $\Box$ 数学公式描述 $w_1, w_2,\dots, w_{N}$ 是一个单词序列,这个序列的概率分布是: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 大语言模型能做什么? 大模型能记住它看到过的一切信息。 大模型对于已经看到过的信息,有一定的泛化能力(有限度的推广)。 大模型能达到怎样的泛化能力? 大模型可以涌现出智能吗? ...

2023-11-21 · 1 分钟 · 癸老师

大模型的计算能力

大语言模型的计算能力 LLM 的几个核心数学问题 N-GRAM 的计算能力问题 过参数化模型的统计学习问题 非凸的数值优化问题 对深度神经网络的数学理解 Transformer 算子的含义 fine-tuning 的数学含义 N-GRAM 的计算能力 大语言模型的基本范式: 假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ ...

2023-11-20 · 4 分钟 · 癸老师

大语言模型的数学理解

大语言模型的基本逻辑 大语言模型的本质是一个 N-GRAM 模型,即: 定义: 假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 该模型是一个 $N-1$ 阶的马尔可夫链,称为 N-GRAM 模型 ...

2023-11-09 · 10 分钟 · 癸老师

大语言模型的计算能力

大模型是有穷自动机 非确定型有穷自动机(NFA)的定义 非确定型有穷自动机是一个 5 元数组 $Q,\Sigma,\delta,q_0,F$,其中 $Q$ 是一个有穷集合,称为状态集。 $\Sigma$ 是一个有穷集合,称为字母表。 $\delta:Q\times\Sigma_\varepsilon\rightarrow \mathcal{P}(Q)$ 是转移函数。 $q_0\in Q$ 是起始状态。 $F \subseteq Q$ 是接受状态集。 大模型是 NFA 的证明 令 $q_0 =\varepsilon$ 为初始状态,大语言模型的预测函数记为 ...

2023-10-30 · 5 分钟 · 癸老师

所谓“压缩即是智慧”毫无意义

算数编码才是压缩的本质 一直以来,大家对于大模型的理解都接受了“压缩即是智慧”这个思想,这个想法源自 Compression for AGI - Jack Rae | Stanford MLSys #76 里面核心模式只有一个: 代码 假定我有一个程序 f,我将 f 的代码传输给另一端; 我有一个序列需要传输,我通过 f 对逐个字符出现的概率进行了预测; 我根据算数编码,将结果编码后,传输给了另一端; 最后传输的信息量最小。 这不过是算数编码的定义好不好!!! 哪里有什么神奇的地方。。。 ...

2023-10-25 · 3 分钟 · 癸老师