从编码到 AGI(视频版)

这是一段关于大语言模型(LLM)原理与垂直场景应用的分享。 本期内容 从编码到 AGI 的演进之路 大语言模型的基本原理 垂直场景应用实践

2026-02-26 · 1 分钟 · 癸老师

从编码到 AGI

2025-06-06 · 0 分钟 · 癸老师

大模型的推理能力

引言 自 GPT3.5 引爆大模型概念以来,大家都期盼着 AGI1 的到来。但与此同时,当下各类大模型虽然依据 Scaling Law2,不断提升各方面的性能,但是关于模型的推理能力,总显得不足。 甚至科研界针对大模型究竟是否可能具有推理能力,也争论不休。例如下列近期比较热烈的讨论: ...

2024-11-06 · 9 分钟 · 癸老师

编码的意义

导言 伴随着大模型研究的推进和在应用中的实践,我们发现了一个现象——对于现有的 LLM 模型而言,一个好的编码可能会对其模型能力带来极大的助力。 关于这方面的思考其实由来已久,早前在听闻“压缩即智能”的论断,以及相关的数学阐述时,就产生过一种奇妙的念头: ...

2024-09-18 · 17 分钟 · 癸老师

RAG 的数学理解

问题的定义 探讨 RAG 之前,我们需要对我们要解决的问题做一个重新的理解。传统的 LLM 是一个语言的概率预测模型,它描述的是语言的自然分布概率,所以对于这样的模型,没有回答的答案哪个更好的说法,只有回答的答案哪个概率更高的描述。 ...

2024-04-07 · 14 分钟 · 癸老师

大模型对齐的数学理解

摘要 AI alignment,广义的 SFT 技术,因为其多种多样的实现方式,包括 continue learning、fine turing、LoRA、RLHF 等等,往往让大家对这个过程充满了好奇和憧憬,觉得似乎任何 NLP 的问题,只要拥有了神乎奇迹的 SFT 能力,就能从 pre-train model 进行进一步的提升,从而解决问题。 ...

2024-02-27 · 8 分钟 · 癸老师