文 | 周鑫雨
编辑 | 苏建勋
六根手指、机器猫圆手……手部细节一直是图像生成式 AI 的盲区。
(资料图)
用 Midjourney 生成的图,手部有 6 根手指。而如今,这一图像生成的阿喀琉斯之踵有望被 Meta 破解。6 月 14 日,Meta 推出了 I-JEPA(Image Joint Embedding Predictive Architecture, 图像联合嵌入预测架构),实现无需手动变换图像对额外知识进行编码的情况下,生成基于世界常识的图像。
这一研究由纽约计算量子物理中心研究院 Anna Dawid,以及图灵奖获得者 Yann LeCun 共同提出—— I-JEPA 也被视作继 LeCun 提出 " 世界模型(World Model)" 构想后,第一个卓有成效的进展。
从自回归到世界模型
为何图像生成模型普遍难以精确生成手部?其根本原因在于以自回归为框架的模型缺乏对现实世界的常识。
在自回归框架下,模型利用当前的上文信息对下文信息进行预测。应用至图像生成领域," 图像像素 " 则成了上下文信息:自回归模型通过将训练图像转换为一维序列输入,利用 Transformer 转换器自回归预测图像像素。
这一方法的优势在于可以很好地建立像素和高级别属性,如纹理、语义和尺寸等属性之间的关系。但劣势依然明显,由于缺乏常识,模型对图像像素的预测时常违反常理,比如 " 六根手指 " ——这也造成了自回归模型常出现的 " 幻觉 " 现象。
LeCun 认为,想要让 AI 接近人类水平,其需要像婴儿一样学习世界如何运作。由此,他提出了 " 世界模型 " 的概念,解决方案即为 JEPA(联合嵌入预测架构)。
JEPA 通过一系列的编码器提取世界状态的抽象表示,并使用不同层次的世界模型预测器,来预测世界的不同状态,并在不同的时间尺度上做出预测。
LeCun 在论文中提出的基于 " 世界模型 " 的自主化 AI 的模块化结构。图源:论文在智源大会的演讲中,LeCun 有关 " 层级规划 " 举了一个例子:我想从纽约前往北京,第一件事是去机场,第二件事是乘去往北京的飞机,最终的代价函数(cost function)可以表示从纽约到北京的距离。那么我该如何去机场?解决方案是把任务分解到毫秒级,通过毫秒级的控制来找到预测成本最小的行动序列。
LeCun 表示,所有复杂的任务都可以通过这种 " 分层 " 的方式完成,而层次规划则是其中最大的挑战。
迈向 " 世界模型 " 的第一步
为何说 I-JEPA 是迈向 " 世界模型 " 的一步?
从训练原理来看,I-JEPA 预测的并非是图像像素,而是抽象的预测目标。其中的预测器能够从部分可观察的上下文中,对静态图像中缺失的空间进行模拟。
基于图像的联合嵌入预测体系结构:使用单个上下文块来预测来自同一图像的各种目标块。图源:论文I-JEPA 训练过程:给定一张图像,从中随机抽取 4 个目标块,比例范围为 ( 0.15,0.2 ) ,宽高比范围为 ( 0.75,1.5 ) 。接下来,随机采样一个范围为 ( 0.85,1.0 ) 的上下文块,并删除任何重叠的目标块。在这种策略下,目标块是相对语义化的,而上下文块在保证信息量足够大的同时又很稀疏 ( 处理效率高 ) 。图源:论文为了理解可观察的内容,Meta 训练了一个随机解码器和生成模型,将 I-JEPA 预测的内容映射为像素,再输出为预测的内容草图。
I-JEPA 预测器可以正确地捕捉空间的不确定性,并正确生成预测对象的部件 ( 例如,鸟的背部和汽车的顶部 ) 。图源:论文从效果而言,I-JEPA 的计算效率远高于主流计算机视觉模型。比如 Meta 在 72 小时内用了 16 块 A100 训练了一个参数规模为 632M 的视觉 Transformer 模型,所用 GPU 小时数是一般方法的 1/10 到 1/2,并且在相同训练数据量下,误差率更低。
与以前的方法相比,I-JEPA 所需的计算量更少,性能更强:与 MAE 和 data2vec 相比,I-JEPA 所需的预训练时间更少。与 iBOT 相比,I-JEPA 所需的手动标注的数据更少。与此同时,最大的 I-JEPA 模型 ( ViT-H/14 ) 比其他两款中最小的模型 ( ViT-H/16 ) 所需的计算更少。图源:论文I-JEPA 已经显示出世界模型在图像生成上的作用。可预见的是,JEPA 在视频、音频等更多模态的预测和生成中将发挥作用。目前,I-JEPA 的训练代码和模型检查点已在 GitHub 上开源。
延伸阅读
I-JEPA 论文链接:https://arxiv.org/pdf/2301.08243.pdf
JEPA 原理解释论文链接:https://arxiv.org/abs/2306.02572
GitHub 链接:https://t.co/DgS9XiwnMz
欢迎交流