大语言模型的数学理解

大语言模型的基本逻辑 大语言模型的本质是一个 N-GRAM 模型,即: 定义: 假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 该模型是一个 $N-1$ 阶的马尔可夫链,称为 N-GRAM 模型 ...

2023-11-09 · 10 分钟 · 癸老师