置顶

全网最全的神经网络数学原理(代码和公式)直观解释 全网最全

2025-04-13

置顶

深度剖析L1与L2正则化:机器学习的关键策略

2025-04-03

万字深度解析 FlashAttention:让 Transformer 效率飙升的神奇算法

本文1W字,FlashAttention 巧妙地重新组织计算方式,通过使注意力计算具备I/O感知能力,最大限度减少慢速内存操作,它能更高效地获得与标准注意力机制相同的结果。我们深入探讨了它如何利用平铺技术将数据保存在片上内存,通过分块进行softmax和矩阵乘法运算,避免将庞大的 $n×n$ 矩阵写

一文读懂自动编码器:类型、原理与应用

一文读懂自动编码器:类型、原理与应用 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏

运行一个大模型需要多少GPU?

为大型语言模型(LLM)提供服务需要多少GPU内存? 在人工智能领域,大型语言模型(LLM)已经成为推动自然语言处理和理解的关键技术。然而,随着模型规模的不断扩大,为这些模型提供服务所需的GPU内存也成为一个亟待解决的问题。本文将深入探讨如何估算为LLM提供服务的GPU内存需求,并提供实际应用的示例