LLM | 拾柒读库

大语言模型的数学理解

大语言模型的基本逻辑大语言模型的本质是一个 N-GRAM 模型，即：定义：假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率： $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 该模型是一个 $N-1$ 阶的马尔可夫链，称为 N-GRAM 模型 ...

大语言模型的计算能力

大模型是有穷自动机非确定型有穷自动机（NFA）的定义非确定型有穷自动机是一个 5 元数组 $Q,\Sigma,\delta,q_0,F$，其中 $Q$ 是一个有穷集合，称为状态集。 $\Sigma$ 是一个有穷集合，称为字母表。 $\delta:Q\times\Sigma_\varepsilon\rightarrow \mathcal{P}(Q)$ 是转移函数。 $q_0\in Q$ 是起始状态。 $F \subseteq Q$ 是接受状态集。大模型是 NFA 的证明令 $q_0 =\varepsilon$ 为初始状态，大语言模型的预测函数记为 ...

所谓“压缩即是智慧”毫无意义

算数编码才是压缩的本质一直以来，大家对于大模型的理解都接受了“压缩即是智慧”这个思想，这个想法源自 Compression for AGI - Jack Rae | Stanford MLSys #76 里面核心模式只有一个：代码假定我有一个程序 f，我将 f 的代码传输给另一端；我有一个序列需要传输，我通过 f 对逐个字符出现的概率进行了预测；我根据算数编码，将结果编码后，传输给了另一端；最后传输的信息量最小。这不过是算数编码的定义好不好！！！哪里有什么神奇的地方。。。 ...

Scaling Law 的数学解读

Dataset Size 和 Loss 的关系最大似然估计（MLE）一切机器学习的本质都是最大似然估计：模型下的理想真实世界的概率分布：$p(x|\theta)$ 我们不知道真实世界的分布，所以我们要用样本估计似然函数 $L(\theta|x)$ ...