大语言模型原理分享
什么是大语言模型?
当我说了很多话之后,我马上要说 $\Box$
数学公式描述
$w_1, w_2,\dots, w_{N}$ 是一个单词序列,这个序列的概率分布是:
$$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$
大语言模型能做什么?
- 大模型能记住它看到过的一切信息。
- 大模型对于已经看到过的信息,有一定的泛化能力(有限度的推广)。
大模型能达到怎样的泛化能力?
大模型可以涌现出智能吗?
大语言模型不能做什么?
- 大模型无法判别一个 $\{[0|1]^*\}$ 序列中是否有奇数个 $1$。
- 给定 $n$ 大模型无法生成 $(aa)^n$。
- 大模型无法判定 $\{0^n\#1^n\}$ 形式的序列。
- 大模型无法执行加法运算。
- $\dots$
大语言模型没有,也不可能具有推理能力。
大语言模型只是记住了足够多的别人的推理,然后用类比的方法将这些推理泛化了而已。
大语言模型是如何将信息泛化的?
- 通过相似度计算来进行泛化,然后通过概率分布来进行选择。
- 粗略的可以如下理解:可以用同义词替代的都能被泛化。
- 这种泛化的替代能力是可以保留相对位置信息的(例如一道数学题中的数字变了,它可以泛化到后续的解题过程中,都用新数字替代原来的数字)。
- 在训练样本充分的情况下,可以跨语言进行同义词泛化。