论文速递

字节跳动的 BAGEL：一体化的大语言模型

GitHub: https://github.com/Bytedance/bagel

Demo: https://bagel-ai.org

什么是 BAGEL？

BAGEL 是字节跳动在大规模多模态模型领域推出的开源模型。它由字节跳动-Seed 研究团队开发，旨在提供一个单一的架构，能够执行广泛的任务，包括：

文本和图像理解
文本到图像的生成
图像编辑（包括智能的、多步骤的编辑）

架构：专家混合与统一视觉

BAGEL 的核心是一个为灵活性和能力而精心设计的架构。以下是它的特别之处：

变换器专家混合（MoT）：BAGEL 使用两个变换器解码器专家——一个针对理解进行了优化，另一个针对生成进行了优化。两者都处理相同的输入序列，并共享一个共同的注意力上下文。这种共享注意力确保了连贯的理解，同时允许每个专家专注于其特定领域。
双视觉编码器：视觉输入由两个预训练的编码器处理：
- 一个 视觉变换器（SigLIP-L） 用于提取高级语义
- 一个 基于变分自动编码器（VAE）的编码器（来自 FLUX.1） 用于像素级图像重建
共享注意力层：两个专家都使用共享的自注意力机制，这使得在文本、图像和视频之间能够进行高效的计算和无缝的标记流处理。
因果机制：文本标记遵循因果的、从左到右的模式；视觉标记使用双向注意力策略，这使得它非常适合自回归和双向任务。

这种统一的架构使 BAGEL 能够执行复杂的任务，例如回答关于图像的问题、根据描述编辑图片，或者生成逼真的场景——所有这些都可以通过单一模型完成。

训练：数万亿个标记，无缝混合

训练像 BAGEL 这样的模型不仅需要巧妙的设计，还需要大量且多样化的数据集。BAGEL 是在 数万亿个标记 上进行训练的，这些标记来自文本、图像、视频和网络数据的混合。

训练策略的关键方面：

交错的多模态数据：BAGEL 不是在单独的图像或文本数据上进行训练，而是被输入交错的数据流。例如，一个训练序列可能包括一段文本，接着是图像标记，然后是更多的文本，甚至可能是视频帧标记。这种混合的数据输入有助于模型建立对上下文的统一理解。
下一组标记预测：与传统的下一个标记模型不同，BAGEL 一次预测整个标记组（例如，一整幅图像或一个句子）。这提高了效率，并鼓励产生更丰富的表示。
分阶段训练管道：
- 在原始的、大规模多模态数据上进行预训练
- 在精心策划的指令跟随数据集上继续训练
- 针对特定任务（例如，编辑、推理）进行有监督的微调

结果是一个不仅学习模式，而且学习模态之间关系的模型——理解一个字幕如何与一张图像相关，或者一个视频如何逐帧演变。

能力：BAGEL 能做什么

BAGEL 不仅仅是一个研究演示；它是一个实用的、通用的人工智能系统。以下是它的关键能力的详细介绍：

1. 视觉-语言理解

BAGEL 在以下任务中表现出色：

视觉问答（“这张图片中有多少人在踢足球？”）
图像字幕（“用一句话描述这个场景。”）
场景分析和物体识别

它在像 MMBench、MMVet 和 MMMU 这样的基准测试中名列前茅，甚至超过了最新的开源竞争对手，如 Qwen-VL 和 InternVL。

2. 文本到图像的生成

给 BAGEL 一个提示，比如 “一只机器猫头鹰栖息在未来风格的树枝上”，它就会生成一幅生动、逼真的图像。在 GenEval 上，BAGEL 的得分为 0.88，领先于像 SD3-Medium（0.74）和 Janus-Pro-7B（0.80）这样的模型。

这种质量不仅体现在像素的逼真度上，还体现在对提示的遵循和风格的一致性上。

3. 图像编辑

这是 BAGEL 真正闪耀的地方。你可以上传一张图像并提出以下要求：

“把天空改成暴风雨的夜晚。”
“给狗戴上一顶巫师帽。”
“交换猫和狗的位置，并把狗变成蓝色。”

BAGEL 能够以令人印象深刻的保真度和连贯性处理所有这些编辑任务。在 GEdit-Bench 上，它的得分为 7.36，在开源模型中击败了所有竞争对手。

甚至更多的是，BAGEL 通过思维链提示支持 多步骤编辑。告诉它分步骤规划编辑，它就会照做。

4. 世界建模与未来预测

BAGEL 最酷的技能之一是它能够预测未来的视频帧，或者从另一个角度生成一个场景。例如，给定一张街道的照片，它可以推断出后巷可能是什么样子。

它还支持导航任务，比如 “如果我在这张图片中向前走，我接下来会看到什么？” 这些任务暗示了它对 3D 空间和运动的内在理解。

基准测试：BAGEL 的优势所在

涌现行为：让研究人员惊讶的地方

使 BAGEL 与众不同的不仅仅是它被训练去做的事情，还有它学会去做的事情：

多视图合成：给定一个房间的一个视图，它可以生成合理的背面或侧面视图。
3D 空间推理：理解物体的位置，并能够规划导航。
智能编辑：在执行复杂任务之前，将其分解为推理步骤。
思维链多模态推理：处理涉及文本和视觉的多轮提示。

这些并不是明确编程的——它们是从训练的规模和多样性中涌现出来的。

如果觉得文章对你有用，请随意赞赏

字节跳动论文

字节跳动的 BAGEL：一体化的大语言模型

https://www.chenbaiqi.com/archives/%E5%AD%97%E8%8A%82%E8%B7%B3%E5%8A%A8%E7%9A%84%20BAGEL%EF%BC%9A%E4%B8%80%E4%BD%93%E5%8C%96%E7%9A%84%E5%A4%A7%E8%AF%AD%E8%A8%80%E6%A8%A1%E5%9E%8B

作者

柏企

发布于

2025-06-24

更新于

2025-06-24

许可协议

CC BY 4.0

字节跳动的 BAGEL：一体化的大语言模型

什么是 BAGEL？

架构：专家混合与统一视觉

训练：数万亿个标记，无缝混合

能力：BAGEL 能做什么

1. 视觉-语言理解

2. 文本到图像的生成

3. 图像编辑

4. 世界建模与未来预测

基准测试：BAGEL 的优势所在

涌现行为：让研究人员惊讶的地方

作者

发布于

更新于

许可协议

评论