大语言模型原理分享


什么是大语言模型?


当我说了很多话之后,我马上要说 $\Box$


数学公式描述


$w_1, w_2,\dots, w_{N}$ 是一个单词序列,这个序列的概率分布是:

$$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$


大语言模型能做什么?


  • 大模型能记住它看到过的一切信息。
  • 大模型对于已经看到过的信息,有一定的泛化能力(有限度的推广)。

大模型能达到怎样的泛化能力?

大模型可以涌现出智能吗?


大语言模型不能做什么?


  1. 大模型无法判别一个 $\{[0|1]^*\}$ 序列中是否有奇数个 $1$。
  2. 给定 $n$ 大模型无法生成 $(aa)^n$。
  3. 大模型无法判定 $\{0^n\#1^n\}$ 形式的序列。
  4. 大模型无法执行加法运算。
  5. $\dots$

大语言模型没有,也不可能具有推理能力。

大语言模型只是记住了足够多的别人的推理,然后用类比的方法将这些推理泛化了而已。


大语言模型是如何将信息泛化的?


  • 通过相似度计算来进行泛化,然后通过概率分布来进行选择。
    1. 粗略的可以如下理解:可以用同义词替代的都能被泛化。
    2. 这种泛化的替代能力是可以保留相对位置信息的(例如一道数学题中的数字变了,它可以泛化到后续的解题过程中,都用新数字替代原来的数字)。
    3. 在训练样本充分的情况下,可以跨语言进行同义词泛化。

Q & A