大语言模型原理分享

什么是大语言模型？

当我说了很多话之后，我马上要说 $\Box$

$w_1, w_2,\dots, w_{N}$ 是一个单词序列，这个序列的概率分布是：

$$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$

大模型可以涌现出智能吗？

大语言模型没有，也不可能具有推理能力。

大语言模型只是记住了足够多的别人的推理，然后用类比的方法将这些推理泛化了而已。

通过相似度计算来进行泛化，然后通过概率分布来进行选择。
1. 粗略的可以如下理解：可以用同义词替代的都能被泛化。
2. 这种泛化的替代能力是可以保留相对位置信息的（例如一道数学题中的数字变了，它可以泛化到后续的解题过程中，都用新数字替代原来的数字）。
3. 在训练样本充分的情况下，可以跨语言进行同义词泛化。