第二支羽毛|吹灭读书灯，一身都是月

对Transformer中位置编码的可视化理解

了解位置编码背后的数学原理和直觉 Transformer是一种深度学习架构，它利用注意力机制来学习数据元素之间的关系。它由一个编码器和一个解码器组成，与传统的循环神经网络（RNN）或卷积神经网络（CNN）不同，它可以并行处理输入序列，而不依赖于顺序处理。Transformer模型的一个重要组成部分是

LLM架构

从Softmax到Flash Attention的关键优化

2017年，《Attention is All You Need》一文发表，向世界展示了Transformer模型可以依靠注意力（Attention）层取得优异的性能。八年后，我们见证了这些模型借助注意力的力量通过了图灵测试以及其他更多成就。尽管注意力非常强大，但它也有一定的代价。随着输入变长，计算

LLM架构

无需人工监督！SPHERE 框架如何驱动小语言模型多步推理自我进化？

SPHERE 是一个自我进化框架，通过在没有人工监督的情况下生成高质量的偏好数据来增强小语言模型（SLM）中的多步骤推理能力。它利用蒙特卡罗树搜索（MCTS）有效地探索推理轨迹，同时使用基于过程的奖励模型来分配逐步的正确性分数。为了降低计算成本，SPHERE 会修剪掉次优分支，每次展开时仅保留奖励最

论文速递

字节跳动的 BAGEL：一体化的大语言模型

GitHub: https://github.com/Bytedance/bagel Demo: https://bagel-ai.org 什么是 BAGEL？ BAGEL 是字节跳动在大规模多模态模型领域推出的开源模型。它由字节跳动-Seed 研究团队开发，旨在提供一个单一的架构，能够执行广泛的任

论文速递

从线性到非线性：感知器如何诞生深度学习

从线性到非线性：感知器如何诞生深度学习更多专栏文章点击查看： LLM 架构专栏

理论基础 LLM架构

LangGraph 多智能体群：使用 LangGraph 创建群风格多智能体系统的 Python 库

LangGraph 多智能体群是一个 Python 库，旨在将多个 AI 智能体编排成一个有凝聚力的 “群”。它建立在 LangGraph 之上，LangGraph 是一个用于构建健壮、有状态智能体工作流的框架，以实现一种特殊形式的多智能体架构。在一个群中，具有不同专业的智能体根据任务的需要动态地将

LLM架构

置顶
全网最全的神经网络数学原理（代码和公式）直观解释全网最全

置顶
深度剖析L1与L2正则化：机器学习的关键策略

置顶
深度解析创新RAG：PIKE-RAG与DeepRAG，RAG技术的创新变革

置顶
2W8000字读懂GPT全家桶：从GPT-1到O1的技术演进与突破

对Transformer中位置编码的可视化理解

从Softmax到Flash Attention的关键优化

无需人工监督！SPHERE 框架如何驱动小语言模型多步推理自我进化？

字节跳动的 BAGEL：一体化的大语言模型

从线性到非线性：感知器如何诞生深度学习

LangGraph 多智能体群：使用 LangGraph 创建群风格多智能体系统的 Python 库

置顶 全网最全的神经网络数学原理（代码和公式）直观解释 全网最全

置顶 深度剖析L1与L2正则化：机器学习的关键策略

置顶 深度解析创新RAG：PIKE-RAG与DeepRAG，RAG技术的创新变革

置顶 2W8000字读懂GPT全家桶：从GPT-1到O1的技术演进与突破

对Transformer中位置编码的可视化理解

从Softmax到Flash Attention的关键优化

无需人工监督！SPHERE 框架如何驱动小语言模型多步推理自我进化？

字节跳动的 BAGEL：一体化的大语言模型

从线性到非线性：感知器如何诞生深度学习

LangGraph 多智能体群：使用 LangGraph 创建群风格多智能体系统的 Python 库

置顶
全网最全的神经网络数学原理（代码和公式）直观解释全网最全

置顶
深度剖析L1与L2正则化：机器学习的关键策略

置顶
深度解析创新RAG：PIKE-RAG与DeepRAG，RAG技术的创新变革

置顶
2W8000字读懂GPT全家桶：从GPT-1到O1的技术演进与突破