掌握Torchtune:高效微调、评估和部署大型语言模型的实用指南


掌握Torchtune:高效微调、评估和部署大型语言模型的实用指南 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏

ScholarCopilot:借助精准引用训练大语言模型助力学术写作

ScholarCopilot:借助精准引用训练大语言模型助力学术写作 在学术写作中,精准引用与优质文本生成至关重要,现有检索 - 增强生成系统却难以满足需求。今天为大家带来一篇研究成果介绍,文中提出的ScholarCopilot框架,能训练大语言模型助力学术写作。它表现如何?又有哪些创新?快来一探究

开源 

万字深度解析 FlashAttention:让 Transformer 效率飙升的神奇算法

本文1W字,FlashAttention 巧妙地重新组织计算方式,通过使注意力计算具备I/O感知能力,最大限度减少慢速内存操作,它能更高效地获得与标准注意力机制相同的结果。我们深入探讨了它如何利用平铺技术将数据保存在片上内存,通过分块进行softmax和矩阵乘法运算,避免将庞大的 $n×n$ 矩阵写

LLM架构系列 ---探索文本嵌入模型:从基础到BERT与SBERT实战

本文1W字,探讨了各种用于生成文本向量表示的嵌入模型,包括词袋模型(BoW)、TF-IDF、Word2Vec、GloVe、FastText、ELMO、BERT等等。深入研究了BERT的架构和预训练,介绍了用于高效生成句子嵌入的句子BERT(SBERT),并提供了一个使用sentence-transf

1W2000字 一文读懂向量数据库:原理、索引技术与选型指南

本文1W2000字,本文简要介绍了向量数据库,重点阐述了其在检索增强生成(RAG)应用中的关键作用。文章突出了ChromaDB、Pinecone和Weaviate等热门数据库,强调了高效存储和检索对优化 RAG 性能的重要性。 文中深入探讨了各种索引技术和算法,对Annoy、倒排文件(IVF)索引、

RAG 

1W8000字 探秘 RAG 应用搜索:从语义搜索到评估指标的深度解析

本文1W8000字,在这篇文章中,我们探讨了检索增强生成(RAG)应用程序中的搜索过程,重点介绍了使用向量数据库的语义搜索。我们强调了其减少处理时间和支持实时更新等优势,同时也指出了面临的挑战,比如对独特查询可能给出不太理想的回复。预防这些问题的策略包括监控查询密度和收集用户反馈。优化工作应贯穿构建

RAG 

2W6000字 大模型核心技术综述:微调、推理与优化指南

本文2W6000字,10篇参考文献,内容涵盖了语言建模、预训练面临的挑战、量化技术、分布式训练方法,以及大语言模型的微调。此外,还讨论了参数高效微调(PEFT)技术,包括适配器、LoRA和QLoRA;介绍了提示策略、模型压缩方法(如剪枝和量化),以及各种量化技术(GPTQ、NF4、GGML)。最后,

一文读懂大语言模型评估:方法、指标与框架全解析

大模型评估全解析:方法、指标与框架 🕙发布时间:2025-02-24 本文3W4000字,分了8个小节介绍大模型评估方法,后续会把最新的方法更新进来~,有些内容是翻译自HuggingFace和一些论文,更多LLM架构文章:

2W8000字揭秘RAG:从基础到高级的逆袭,彻底重塑大模型!

2W8000字揭秘RAG:从基础到高级的逆袭,彻底重塑大模型! 🕙发布时间:2025-02-24 本文2W8000字,配图58张,分了11个小节介绍RAG技术,后续会把最新的方法更新进来~,有些内容是翻译自HuggingFace和一些论文,更多LLM架构文章:

RAG 

3W6000字了解大模型LLM:部署、优化与框架

3W6000字了解大模型LLM:部署、优化与框架 🕙发布时间:2025-02-20 本文3W6000字,分了11个小结介绍各种框架和方法,后续会把最新的方法更新进来~,有些内容是翻译自HuggingFace和一些论文 近日热文: 1. 全网最全的神经网络数学原理(代码和公式)直观解释 2. 大模型