Scaling Law 的数学解读

Dataset Size 和 Loss 的关系 最大似然估计(MLE) 一切机器学习的本质都是最大似然估计: 模型下的理想真实世界的概率分布:$p(x|\theta)$ 我们不知道真实世界的分布,所以我们要用样本估计似然函数 $L(\theta|x)$ ...

2023-10-10 · 10 分钟 · 癸老师