Qwen2.5-Max:对标DeepSeek V3

Qwen2.5-Max:对标DeepSeek V3 Qwen2.5-Max:阿里巴巴挑战DeepSeek V3的新AI巨头 大语言模型(LLMs)彻底改变了AI领域,实现了从聊天机器人到复杂推理系统等众多应用。这些模型依赖大量数据和计算能力,随着规模的扩大,它们的能力也在不断提升。这一进步背后的关键

开源 

DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理:强化学习如何教大型语言模型进行推理

DeepSeek-R1的顿悟时刻是如何出现的? 背后的数学原理:强化学习如何教大型语言模型进行推理 DeepSeek-R1的卓越表现 DeepSeek-R1的开创性论文《DeepSeek-R1:通过强化学习激励大语言模型(LLMs)的推理能力》,对其性能进行了全面分析,结果令人惊叹。在标准语言模型基

强化学习中的关键模型与算法:从Actor-Critic到GRPO


强化学习中的关键模型与算法:从Actor-Critic到GRPO 强化学习中的Actor-Critic模型是什么? 这与生成对抗网络(GANs)十分相似。在生成对抗网络中,生成器和判别器模型在整个训练过程中相互对抗。在强化学习的Actor-Critic模型中,也存在类似的概念: Actor-Crit

DeepSeek-R1:通过强化学习激励大语言模型的推理能力

DeepSeek-R1:通过强化学习激励大语言模型的推理能力 在开始之前,需要了解以下术语。 什么是强化学习? 强化学习(RL)是一种机器学习方式,人工智能通过采取行动,并根据这些行动获得奖励或惩罚来进行学习,其目标是在一段时间内最大化奖励。 举个例子:想象教一个机器人玩游戏,机器人尝试不同的动作,

OpenAI o3-mini 与 DeepSeek-R1 在各类基准测试中的大比拼

OpenAI o3-mini与DeepSeek-R1在各类基准测试中的大比拼 OpenAI终于发布了o3-mini,还为ChatGPT的所有用户免费提供了一些使用额度。但大家心里始终有个大大的疑问:OpenAI的o3-mini会比DeepSeek-R1更胜一筹吗? 虽说OpenAI官方团队并没有发布

用DeepSeek R1和Ollama构建本地RAG系统,向PDF提问不再是梦!

用DeepSeek R1和Ollama构建本地RAG系统,向PDF提问不再是梦! 有没有想过能直接向PDF文件或者技术手册提问?如何利用开源推理工具DeepSeek R1和运行本地AI模型的轻量级框架Ollama,搭建一个检索增强生成(RAG)系统。 为什么选DeepSeek R1? DeepSee

RAG 

DeepSeek R1重磅开源!一文读懂训练方法与RAG应用搭建

DeepSeek R1重磅开源!一文读懂训练方法与RAG应用搭建 DeepSeek R1学习方法概述 DeepSeek R1的特点在于使用强化学习(RL)进行后期训练。一般来说,大规模语言模型的开发要经过以下几个步骤: 预训练:利用大规模语料库创建一个 “预测下一个单词” 的模型。 监督微调(SFT

RAG 

DeepSeek-R1:通过强化学习激发大语言模型的推理潜能

DeepSeek-R1:通过强化学习激发大语言模型的推理潜能 在本文中,我们将深入探索DeepSeek-R1背后的前沿进展与创新方法。这一成果作为提升大语言模型(LLMs)推理能力的卓越方案,融合了强化学习(RL)等前沿技术,不仅革新了模型训练范式,还为行业发展开辟了新方向。接下来,让我们一同揭开D

微调DeepSeek LLM:使用监督微调(SFT)与Hugging Face数据集的详细指南

📖阅读时长:20分钟 🕙发布时间:2025-02-02 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏 知乎LLM专栏 知乎

微调特定于域的搜索的文本嵌入:附Python代码详解


微调特定于域的搜索的文本嵌入:附Python代码详解 📖阅读时长:20分钟 🕙发布时间:2025-02-02 近日热文:全网最全的神经网络数学原理(代码和公式)直观解释 欢迎关注知乎和公众号的专栏内容 LLM架构专栏