大模型的计算能力

大语言模型的计算能力 LLM 的几个核心数学问题 N-GRAM 的计算能力问题 过参数化模型的统计学习问题 非凸的数值优化问题 对深度神经网络的数学理解 Transformer 算子的含义 fine-tuning 的数学含义 N-GRAM 的计算能力 大语言模型的基本范式: 假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ ...

2023-11-20 · 4 分钟 · 癸老师

大语言模型的数学理解

大语言模型的基本逻辑 大语言模型的本质是一个 N-GRAM 模型,即: 定义: 假设 $w_1, w_2,\dots, w_{N}$ 是一个单词序列。我们可以按如下公式计算单词序列的概率: $$ p(w_{1},w_{2},\dots,w_{N})=\prod^N_{i=1}p(w_{i}|w_{1},w_{2},\dots,w_{i}) $$ 该模型是一个 $N-1$ 阶的马尔可夫链,称为 N-GRAM 模型 ...

2023-11-09 · 10 分钟 · 癸老师

大语言模型的计算能力

大模型是有穷自动机 非确定型有穷自动机(NFA)的定义 非确定型有穷自动机是一个 5 元数组 $Q,\Sigma,\delta,q_0,F$,其中 $Q$ 是一个有穷集合,称为状态集。 $\Sigma$ 是一个有穷集合,称为字母表。 $\delta:Q\times\Sigma_\varepsilon\rightarrow \mathcal{P}(Q)$ 是转移函数。 $q_0\in Q$ 是起始状态。 $F \subseteq Q$ 是接受状态集。 大模型是 NFA 的证明 令 $q_0 =\varepsilon$ 为初始状态,大语言模型的预测函数记为 ...

2023-10-30 · 5 分钟 · 癸老师

所谓“压缩即是智慧”毫无意义

算数编码才是压缩的本质 一直以来,大家对于大模型的理解都接受了“压缩即是智慧”这个思想,这个想法源自 Compression for AGI - Jack Rae | Stanford MLSys #76 里面核心模式只有一个: 代码 假定我有一个程序 f,我将 f 的代码传输给另一端; 我有一个序列需要传输,我通过 f 对逐个字符出现的概率进行了预测; 我根据算数编码,将结果编码后,传输给了另一端; 最后传输的信息量最小。 这不过是算数编码的定义好不好!!! 哪里有什么神奇的地方。。。 ...

2023-10-25 · 3 分钟 · 癸老师

Hugo 搭建流程

基本安装 搭建站点 1 hugo new site <name of site> -f yml 初始化 Git 仓库 1 2 git init git branch -m main # 兼容 Github 的设置 安装主题 1 git submodule add --depth=1 https://github.com/adityatelange/hugo-PaperMod.git themes/PaperMod 若是已经安装过主题的,需要下面的命令激活 1 git submodule update --init --recursive 本地调试 1 hugo server 添加新文章 1 hugo new posts/my-first-post.md 配置 配置 config.yml 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 baseURL: "https://examplesite.com/" languageCode: zh-cn title: ExampleSite theme: PaperMod timeZone: Asia/Shanghai enableInlineShortcodes: true enableGitInfo: true enableRobotsTXT: true enableEmoji: true hasCJKLanguage: true outputs: home: [HTML, RSS, JSON] Params: title: ExampleSite description: "ExampleSite description" author: xxx homeInfoParams: Title: Hi there wave Content: Can be Info, links, about... socialIcons: # optional - name: rss url: /index.xml ShowFullTextinRSS: true ShowReadingTime: true ShowCodeCopyButtons: true DateFormat: "2006-01-02" # 日期格式化 menu: main: - identifier: home name: 主页 url: / weight: 10 - identifier: search name: 搜索 url: /search weight: 20 - identifier: tags name: 标签 url: /tags weight: 30 - identifier: archives name: 时间轴 url: /archives weight: 40 配置 content/archives.md 1 2 3 4 5 --- title: "时间轴" layout: "archives" summary: archives --- 配置 content/search.md 1 2 3 4 5 6 --- title: "搜索" # in any language you want layout: "search" # is necessary summary: "search" placeholder: "Typing something..." --- 增加 Latex 数学公式的支持 在 layouts/partials 路径下新建文件 extend_head.html: ...

2023-10-18 · 2 分钟 · 癸老师

Scaling Law 的数学解读

Dataset Size 和 Loss 的关系 最大似然估计(MLE) 一切机器学习的本质都是最大似然估计: 模型下的理想真实世界的概率分布:$p(x|\theta)$ 我们不知道真实世界的分布,所以我们要用样本估计似然函数 $L(\theta|x)$ ...

2023-10-10 · 10 分钟 · 癸老师