大语言模型原理分享 什么是大语言模型? 当我说了很多话之后,我马上要说 $\Box$ 数学公式描述 $w_1, w_2,\dots, w_{N}$ 是一个单词序列,这个序列的概率分布是: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 大语言模型能做什么? 大模型能记住它看到过的一切信息。 大模型对于已经看到过的信息,有一定的泛化能力(有限度的推广)。 大模型能达到怎样的泛化能力? 大模型可以涌现出智能吗? 大语言模型不能做什么? 大模型无法判别一个 $\{[0|1]^*\}$ 序列中是否有奇数个 $1$。 给定 $n$ 大模型无法生成 $(aa)^n$。 大模型无法判定 $\{0^n\#1^n\}$ 形式的序列。 大模型无法执行加法运算。 $\dots$ 大语言模型没有,也不可能具有推理能力。 大语言模型只是记住了足够多的别人的推理,然后用类比的方法将这些推理泛化了而已。 大语言模型是如何将信息泛化的? 通过相似度计算来进行泛化,然后通过概率分布来进行选择。 粗略的可以如下理解:可以用同义词替代的都能被泛化。 这种泛化的替代能力是可以保留相对位置信息的(例如一道数学题中的数字变了,它可以泛化到后续的解题过程中,都用新数字替代原来的数字)。 在训练样本充分的情况下,可以跨语言进行同义词泛化。 Q & A