Hugo + Reveal.js 后续
摘要 上一篇 介绍了如何在 Hugo 中使用 Reveal.js 进行 Slide 分享后,这段时间把自己历史的分享逐一迁移到博客上了。这个过程中,又发现了上次方案的一些问题,并做了很多细节的调整,整理如下: ...
摘要 上一篇 介绍了如何在 Hugo 中使用 Reveal.js 进行 Slide 分享后,这段时间把自己历史的分享逐一迁移到博客上了。这个过程中,又发现了上次方案的一些问题,并做了很多细节的调整,整理如下: ...
摘要 又开始折腾博客了。 ...
从拼多多市值超过阿里说起 昨天,拼多多的市值超过阿里了。 随后,看到了诸多的自媒体和身边资本圈的朋友开始热议,然后是前同事们的讨论,然后是马老师讲话又炸出一波人跟着转发着各种评论。 ...
大语言模型的基本逻辑 大语言模型的本质是一个 N-GRAM 模型,即: 定义: 假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 该模型是一个 $N-1$ 阶的马尔可夫链,称为 N-GRAM 模型 ...
大模型是有穷自动机 非确定型有穷自动机(NFA)的定义 非确定型有穷自动机是一个 5 元数组 $Q,\Sigma,\delta,q_0,F$,其中 $Q$ 是一个有穷集合,称为状态集。 $\Sigma$ 是一个有穷集合,称为字母表。 $\delta:Q\times\Sigma_\varepsilon\rightarrow \mathcal{P}(Q)$ 是转移函数。 $q_0\in Q$ 是起始状态。 $F \subseteq Q$ 是接受状态集。 大模型是 NFA 的证明 令 $q_0 =\varepsilon$ 为初始状态,大语言模型的预测函数记为 ...
算数编码才是压缩的本质 一直以来,大家对于大模型的理解都接受了“压缩即是智慧”这个思想,这个想法源自 Compression for AGI - Jack Rae | Stanford MLSys #76 里面核心模式只有一个: 代码 假定我有一个程序 f,我将 f 的代码传输给另一端; 我有一个序列需要传输,我通过 f 对逐个字符出现的概率进行了预测; 我根据算数编码,将结果编码后,传输给了另一端; 最后传输的信息量最小。 这不过是算数编码的定义好不好!!! 哪里有什么神奇的地方。。。 ...