GitHub: https://github.com/Bytedance/bagel

Demo: https://bagel-ai.org

什么是 BAGEL?

BAGEL 是字节跳动在大规模多模态模型领域推出的开源模型。它由字节跳动-Seed 研究团队开发,旨在提供一个单一的架构,能够执行广泛的任务,包括:

  • 文本和图像理解
  • 文本到图像的生成
  • 图像编辑(包括智能的、多步骤的编辑)

架构:专家混合与统一视觉

BAGEL 的核心是一个为灵活性和能力而精心设计的架构。以下是它的特别之处:

  • 变换器专家混合(MoT):BAGEL 使用两个变换器解码器专家——一个针对理解进行了优化,另一个针对生成进行了优化。两者都处理相同的输入序列,并共享一个共同的注意力上下文。这种共享注意力确保了连贯的理解,同时允许每个专家专注于其特定领域。
  • 双视觉编码器:视觉输入由两个预训练的编码器处理:
    • 一个 视觉变换器(SigLIP-L) 用于提取高级语义
    • 一个 基于变分自动编码器(VAE)的编码器(来自 FLUX.1) 用于像素级图像重建
  • 共享注意力层:两个专家都使用共享的自注意力机制,这使得在文本、图像和视频之间能够进行高效的计算和无缝的标记流处理。
  • 因果机制:文本标记遵循因果的、从左到右的模式;视觉标记使用双向注意力策略,这使得它非常适合自回归和双向任务。

这种统一的架构使 BAGEL 能够执行复杂的任务,例如回答关于图像的问题、根据描述编辑图片,或者生成逼真的场景——所有这些都可以通过单一模型完成。

训练:数万亿个标记,无缝混合

训练像 BAGEL 这样的模型不仅需要巧妙的设计,还需要大量且多样化的数据集。BAGEL 是在 数万亿个标记 上进行训练的,这些标记来自文本、图像、视频和网络数据的混合。

训练策略的关键方面:

  • 交错的多模态数据:BAGEL 不是在单独的图像或文本数据上进行训练,而是被输入交错的数据流。例如,一个训练序列可能包括一段文本,接着是图像标记,然后是更多的文本,甚至可能是视频帧标记。这种混合的数据输入有助于模型建立对上下文的统一理解。
  • 下一组标记预测:与传统的下一个标记模型不同,BAGEL 一次预测整个标记组(例如,一整幅图像或一个句子)。这提高了效率,并鼓励产生更丰富的表示。
  • 分阶段训练管道
    • 在原始的、大规模多模态数据上进行预训练
    • 在精心策划的指令跟随数据集上继续训练
    • 针对特定任务(例如,编辑、推理)进行有监督的微调

结果是一个不仅学习模式,而且学习模态之间 关系 的模型——理解一个字幕如何与一张图像相关,或者一个视频如何逐帧演变。

能力:BAGEL 能做什么

BAGEL 不仅仅是一个研究演示;它是一个实用的、通用的人工智能系统。以下是它的关键能力的详细介绍:

1. 视觉-语言理解

BAGEL 在以下任务中表现出色:

  • 视觉问答(“这张图片中有多少人在踢足球?”)
  • 图像字幕(“用一句话描述这个场景。”)
  • 场景分析和物体识别

它在像 MMBenchMMVetMMMU 这样的基准测试中名列前茅,甚至超过了最新的开源竞争对手,如 Qwen-VL 和 InternVL。

2. 文本到图像的生成

给 BAGEL 一个提示,比如 “一只机器猫头鹰栖息在未来风格的树枝上”,它就会生成一幅生动、逼真的图像。在 GenEval 上,BAGEL 的得分为 0.88,领先于像 SD3-Medium(0.74)和 Janus-Pro-7B(0.80)这样的模型。

这种质量不仅体现在像素的逼真度上,还体现在对提示的遵循和风格的一致性上。

3. 图像编辑

这是 BAGEL 真正闪耀的地方。你可以上传一张图像并提出以下要求:

  • “把天空改成暴风雨的夜晚。”
  • “给狗戴上一顶巫师帽。”
  • “交换猫和狗的位置,并把狗变成蓝色。”

BAGEL 能够以令人印象深刻的保真度和连贯性处理所有这些编辑任务。在 GEdit-Bench 上,它的得分为 7.36,在开源模型中击败了所有竞争对手。

甚至更多的是,BAGEL 通过思维链提示支持 多步骤编辑。告诉它分步骤规划编辑,它就会照做。

4. 世界建模与未来预测

BAGEL 最酷的技能之一是它能够预测未来的视频帧,或者从另一个角度生成一个场景。例如,给定一张街道的照片,它可以推断出后巷可能是什么样子。

它还支持导航任务,比如 “如果我在这张图片中向前走,我接下来会看到什么?” 这些任务暗示了它对 3D 空间和运动的内在理解。

基准测试:BAGEL 的优势所在

涌现行为:让研究人员惊讶的地方

使 BAGEL 与众不同的不仅仅是它被 训练 去做的事情,还有它 学会 去做的事情:

  • 多视图合成:给定一个房间的一个视图,它可以生成合理的背面或侧面视图。
  • 3D 空间推理:理解物体的位置,并能够规划导航。
  • 智能编辑:在执行复杂任务之前,将其分解为推理步骤。
  • 思维链多模态推理:处理涉及文本和视觉的多轮提示。

这些并不是明确编程的——它们是从训练的规模和多样性中涌现出来的。