第二支羽毛

分类
理论基础

从线性到非线性：感知器如何诞生深度学习

从线性到非线性：感知器如何诞生深度学习更多专栏文章点击查看： LLM 架构专栏

神经网络系列：源起

神经网络系列：源起更多专栏文章点击查看： LLM 架构专栏

理论基础

万字深度解析 FlashAttention：让 Transformer 效率飙升的神奇算法

本文1W字，FlashAttention 巧妙地重新组织计算方式，通过使注意力计算具备I/O感知能力，最大限度减少慢速内存操作，它能更高效地获得与标准注意力机制相同的结果。我们深入探讨了它如何利用平铺技术将数据保存在片上内存，通过分块进行softmax和矩阵乘法运算，避免将庞大的 $n×n$ 矩阵写

理论基础

一文读懂自动编码器：类型、原理与应用

一文读懂自动编码器：类型、原理与应用近日热文：全网最全的神经网络数学原理（代码和公式）直观解释欢迎关注知乎和公众号的专栏内容 LLM架构专栏知乎LLM专栏

理论基础

运行一个大模型需要多少GPU?

为大型语言模型（LLM）提供服务需要多少GPU内存？在人工智能领域，大型语言模型（LLM）已经成为推动自然语言处理和理解的关键技术。然而，随着模型规模的不断扩大，为这些模型提供服务所需的GPU内存也成为一个亟待解决的问题。本文将深入探讨如何估算为LLM提供服务的GPU内存需求，并提供实际应用的示例

理论基础

神经网络本质不过是初中生都会的复合函数？

理论基础

置顶
全网最全的神经网络数学原理（代码和公式）直观解释全网最全

置顶
深度剖析L1与L2正则化：机器学习的关键策略

从线性到非线性：感知器如何诞生深度学习

神经网络系列：源起

万字深度解析 FlashAttention：让 Transformer 效率飙升的神奇算法

一文读懂自动编码器：类型、原理与应用

运行一个大模型需要多少GPU?

神经网络本质不过是初中生都会的复合函数？

置顶 全网最全的神经网络数学原理（代码和公式）直观解释 全网最全

置顶 深度剖析L1与L2正则化：机器学习的关键策略

从线性到非线性：感知器如何诞生深度学习

神经网络系列：源起

万字深度解析 FlashAttention：让 Transformer 效率飙升的神奇算法

一文读懂自动编码器：类型、原理与应用

运行一个大模型需要多少GPU?

神经网络本质不过是初中生都会的复合函数？

置顶
全网最全的神经网络数学原理（代码和公式）直观解释全网最全

置顶
深度剖析L1与L2正则化：机器学习的关键策略