拾柒读库

Hugo 更换字体 & 使用 Reveal.js 做在线展示

摘要又开始折腾博客了。 ...

浮躁的时代

从拼多多市值超过阿里说起昨天，拼多多的市值超过阿里了。随后，看到了诸多的自媒体和身边资本圈的朋友开始热议，然后是前同事们的讨论，然后是马老师讲话又炸出一波人跟着转发着各种评论。 ...

RAG 技术

RAG 技术检索增强的生成系统（Retrieve Augment Generation）简称 RAG。原理是在大语言模型的基础上，辅助检索技术，让大语言模型能够获得与用户问题相关的更多上下文信息，使得的大语言模型可以：降低幻觉出现概率适应垂直场景应用弥补数据实时性不足一个典型 RAG 系统的架构 RAG 系统的核心技术要素文档导入文档切分文档向量化向量数据库选型检索算法文档排序 Prompt 生成 $\dots$ 市面上大部分的关于 RAG 的介绍都是类似上面的逻辑进行的，然后就顺利的将某一种 RAG 的方法变成了通用 RAG 的框架，从而让我们迷失了 RAG 的真正价值。 ...

大语言模型原理分享

大语言模型原理分享什么是大语言模型？当我说了很多话之后，我马上要说 $\Box$ 数学公式描述 $w_1, w_2,\dots, w_{N}$ 是一个单词序列，这个序列的概率分布是： $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 大语言模型能做什么？大模型能记住它看到过的一切信息。大模型对于已经看到过的信息，有一定的泛化能力（有限度的推广）。大模型能达到怎样的泛化能力？大模型可以涌现出智能吗？ ...

大模型的计算能力

大语言模型的计算能力 LLM 的几个核心数学问题 N-GRAM 的计算能力问题过参数化模型的统计学习问题非凸的数值优化问题对深度神经网络的数学理解 Transformer 算子的含义 fine-tuning 的数学含义 N-GRAM 的计算能力大语言模型的基本范式：假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率： $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ ...

大语言模型的数学理解

大语言模型的基本逻辑大语言模型的本质是一个 N-GRAM 模型，即：定义：假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率： $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 该模型是一个 $N-1$ 阶的马尔可夫链，称为 N-GRAM 模型 ...