文章 | 拾柒读库

大模型的推理能力

引言自 GPT3.5 引爆大模型概念以来，大家都期盼着 AGI1 的到来。但与此同时，当下各类大模型虽然依据 Scaling Law2，不断提升各方面的性能，但是关于模型的推理能力，总显得不足。甚至科研界针对大模型究竟是否可能具有推理能力，也争论不休。例如下列近期比较热烈的讨论： ...

编码的意义

导言伴随着大模型研究的推进和在应用中的实践，我们发现了一个现象——对于现有的 LLM 模型而言，一个好的编码可能会对其模型能力带来极大的助力。关于这方面的思考其实由来已久，早前在听闻“压缩即智能”的论断，以及相关的数学阐述时，就产生过一种奇妙的念头： ...

谈一谈什么是幸福的工作

从雷军的年度演讲说起最近，小米的发布会上，雷军花了一个小时讲述小米造车的故事，又一次成了互联网的热点。当然，按照互联网成王败寇的准则，现在雷军身上的一切必将镀上一层光环，讲话中的每个做法，都会成为新的成功学标杆。所以在当下的时间点，每一种解读小米或雷军的成功之处的声音，都仿佛追逐热点的“苍蝇”，“很难评”。 ...

RAG 的数学理解

问题的定义探讨 RAG 之前，我们需要对我们要解决的问题做一个重新的理解。传统的 LLM 是一个语言的概率预测模型，它描述的是语言的自然分布概率，所以对于这样的模型，没有回答的答案哪个更好的说法，只有回答的答案哪个概率更高的描述。 ...

大模型对齐的数学理解

摘要 AI alignment，广义的 SFT 技术，因为其多种多样的实现方式，包括 continue learning、fine turing、LoRA、RLHF 等等，往往让大家对这个过程充满了好奇和憧憬，觉得似乎任何 NLP 的问题，只要拥有了神乎奇迹的 SFT 能力，就能从 pre-train model 进行进一步的提升，从而解决问题。 ...

UglyChain，面向开发者的大模型开发框架

最近的新玩具：UglyChain 先上链接：UglyChain ，文档：https://uglychain.uglyboy.cn 最近几个月都在开发这个项目。一方面是自己有更多的关于大模型开发的定制需求，需要更加底层的接触模型的接口，从零开始开发适合自己的脚手架对熟悉大模型应用有很大的帮助；另一方面也确实是因为当前主流的大模型开发框架，例如 LangChain，LlamaIndex 等工具对开发者并不友好，所有的功能都封装得太过，使得使用起来很不灵活，尤其是大模型这种常常遇到不可预期的错误的情况，很难定位和解决问题。 ...