大语言模型原理分享
大语言模型原理分享 什么是大语言模型? 当我说了很多话之后,我马上要说 $\Box$ 数学公式描述 $w_1, w_2,\dots, w_{N}$ 是一个单词序列,这个序列的概率分布是: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 大语言模型能做什么? 大模型能记住它看到过的一切信息。 大模型对于已经看到过的信息,有一定的泛化能力(有限度的推广)。 大模型能达到怎样的泛化能力? 大模型可以涌现出智能吗? ...