所谓“压缩即是智慧”毫无意义

算数编码才是压缩的本质 一直以来,大家对于大模型的理解都接受了“压缩即是智慧”这个思想,这个想法源自 Compression for AGI - Jack Rae | Stanford MLSys #76 里面核心模式只有一个: 代码 假定我有一个程序 f,我将 f 的代码传输给另一端; 我有一个序列需要传输,我通过 f 对逐个字符出现的概率进行了预测; 我根据算数编码,将结果编码后,传输给了另一端; 最后传输的信息量最小。 这不过是算数编码的定义好不好!!! 哪里有什么神奇的地方。。。 ...

2023-10-25 · 3 分钟 · 癸老师

Scaling Law 的数学解读

Dataset Size 和 Loss 的关系 最大似然估计(MLE) 一切机器学习的本质都是最大似然估计: 模型下的理想真实世界的概率分布:$p(x|\theta)$ 我们不知道真实世界的分布,所以我们要用样本估计似然函数 $L(\theta|x)$ ...

2023-10-10 · 10 分钟 · 癸老师