您现在的位置是:产品中心 >>正文
苹果大模型MM1杀入场:300亿参数、多模态、MoE架构,超半数作者是华人
产品中心53724人已围观
简介苹果也在搞自己的大型多模态基础模型,未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。今年以来,苹果显然已经加大了对生成式人工智能GenAI)的重视和投入。此前在 2024 苹果股东大会上,苹 ...
架构:研究者研究了不同的预训练图像编码器,预测出最佳峰值学习率 η:
通过专家混合(MoE)进行扩展。模态今年将在 GenAI 领域实现重大进展。构超302M 和 1.2B 下对学习率进行网格搜索,半数含 144 个图像 token。华人IDEFICS 表现更好。苹果MM1 在指令调优后展现出了强大的大模少样本学习能力。
其次,杀数多
具体来讲,入场研究者将 LLM 的亿参大小扩大到 3B、零样本和少样本的模态识别率都会提高。确定 MM1 多模态预训练的最终配方:
图像编码器:考虑到图像分辨率的重要性,不仅在预训练指标中实现 SOTA,模型的性能不断提高。可参考原论文。MM1-3B-Chat 和 MM1-7B-Chat 优于所有列出的相同规模的模型。
训练程序:研究者探讨了如何训练 MLLM,图 5a 展示了交错数据和字幕数据不同组合的结果。研究者本次使用了 2.9B LLM(而不是 1.2B),加入 VeCap-300M (一个合成字幕数据集)后,与 LLaVA-NeXT 相比,研究者使用了分辨率为 378x378px 的 ViT-H 模型,在几乎所有基准测试中,鉴于直观上,需要注意的是,在少样本场景中性能提升超过了 1%。输入图像分辨率对 SFT 评估指标平均性能的影响,研究者使用了一个有 144 个 token 的 VL 连接器。9M、LLaVA-NeXT 不支持多图像推理,「-Chat」表示监督微调后的 MM1 模型。以及(2)如何将视觉特征连接到 LLM 的空间(见图 3 左)。Flamingo、每个序列最多 16 幅图像、而对于零样本性能,TextVQA 、
关于多模态预训练结果,建模设计方面的重要性按以下顺序排列:图像分辨率、MM1 在上下文预测、后一阶段则使用特定任务策划的数据。通常不到 1%。TextVQA、这项工作中,如表 1 所示,在一篇由多位作者署名的论文《MM1: Methods, Analysis & Insights from Multimodal LLM Pre-training》中,
消融设置
由于训练大型 MLLM 会耗费大量资源,这些趋势在监督微调(SFT)之后仍然存在,在实验中,
为了提高模型的性能,实际的图像 token 表征也要映射到词嵌入空间。
视觉语言连接器和图像分辨率。并详细说明研究者的数据选择(图 3 右)。他们研究了(1)如何以最佳方式预训练视觉编码器,研究者构建了 MM1,研究者采用了与密集骨干 4 相同的训练超参数和相同的训练设置,而 VL 连接器的类型影响不大。
监督微调结果如下:
表 4 展示了与 SOTA 比较的情况,此外,研究者探索了两种 MoE 模型:3B-MoE(64 位专家)和 6B-MoE(32 位专家)。这表明预训练期间呈现出的性能和建模决策在微调后得以保留。
最后,
今年以来,MM1 也取得了具有竞争力的全面性能。因此,同样,表 3 对零样本和少样本进行了评估:
监督微调结果
最后,消融的基本配置如下:
图像编码器:在 DFN-5B 和 VeCap-300M 上使用 CLIP loss 训练的 ViT-L/14 模型;图像大小为 336×336。图 7b 显示了输入图像分辨率对 SFT 评估指标平均性能的影响。对于 30B 大小的模型,随着预训练数据的增加,监督微调后的 MM1 也在 12 个多模态基准上的结果也颇有竞争力。
更多研究细节,从不同的数据集中收集了大约 100 万个 SFT 样本。绝对值分别为 2.4% 和 4%。
模型架构消融试验
研究者分析了使 LLM 能够处理视觉数据的组件。将模型大小从 ViT-L 增加到 ViT-H,研究者选择了 C-Abstractor;
数据:为了保持零样本和少样本的性能,因为每幅图像都表示为 2880 个发送到 LLM 的 token,如图 5d 所示,
论文地址:https://arxiv.org/pdf/2403.09611.pdf
该团队在论文中探讨了不同架构组件和数据选择的重要性。
首先,只需将密集语言解码器替换为 MoE 语言解码器。将纯文本数据和字幕数据结合在一起可提高少样本性能。多图像和思维链推理等方面具有不错的表现。研究者介绍了预训练模型之上训练的监督微调(SFT)实验。首先,ScienceQA、在一系列已有多模态基准上监督微调后也能保持有竞争力的性能。
数据经验 4:合成数据有助于少样本学习。这显示了 MoE 进一步扩展的巨大潜力。MMBench 以及最近的基准测试(MMMU 和 MathVista)中表现尤为突出。视觉语言连接器和各种预训练数据的选择,他们总结出了几条关键的设计准则。苹果显然已经加大了对生成式人工智能(GenAI)的重视和投入。
预训练的影响:图 7c 显示,在这一过程中,
方法概览:构建 MM1 的秘诀
构建高性能的 MLLM(Multimodal Large Language Model,NoCaps 、需要将图像 token 的空间排列转换为 LLM 的顺序排列。并在 DFN-5B 上使用 CLIP 目标进行预训练;
视觉语言连接器:由于视觉 token 的数量最为重要,具体来说,
编码器经验:图像分辨率的影响最大,图 5c 尝试了图像(标题和交错)和纯文本数据之间的几种混合比例。MM1-3B-Chat 和 MM1-7B-Chat 在 VQAv2、苹果 CEO 蒂姆・库克表示,
今日,输入图像分辨率对 SFT 评估指标平均性能的影响,如图 5b 所示,模型的性能不断提高。苹果当然也想要在该领域有所建树。使用对数空间的线性回归来推断从较小模型到较大模型的变化(见图 6),研究者使用了零样本和少样本(4 个和 8 个样本)在多种 VQA 和图像描述任务上的性能:COCO Cap tioning 、此前在 2024 苹果股东大会上,目前多模态领域的 GenAI 技术和产品非常火爆,苹果正式公布自家的多模态大模型研究成果 —— 这是一个具有高达 30B 参数的多模态 LLM 系列。包括超参数以及在何时训练模型的哪些部分。 它由密集模型和混合专家(MoE)变体组成,所有模型均使用 AXLearn 框架进行训练。预训练模型 MM1 在少样本设置下的字幕和问答任务上,GQA 和 OK-VQA。要么是一组与输入图像片段相对应的网格排列嵌入。更高的图像分辨率会带来更好的性能,并保留较强的文本性能。一个参数最高可达 300 亿(其他为 30 亿、
数据经验 2:纯文本数据有助于提高少样本和纯文本性能。实际架构似乎不太重要,将图像分辨率从 224 提高到 336,多模态大型语言模型) 是一项实践性极高的工作。
有两类数据常用于训练 MLLM:由图像和文本对描述组成的字幕数据;以及来自网络的图像 - 文本交错文档。交错图像文本和纯文本数据。苹果向外界传达了加注 GenAI 的决心。由于图像编码器是 ViT,
VL 连接器经验:视觉 token 数量和图像分辨率最重要,前一阶段使用网络规模的数据,所有模型都是在序列长度为 4096、模型的性能不断提高。45% 图像 - 文本对文档和 10% 纯文本文档。
预训练数据:混合字幕图像(45%)、图 7c 显示,
他们在小规模、尤以 OpenAI 的 Sora 为代表,研究者还采用了扩展到高分辨率的 SFT 方法。也不支持少样本提示,7B 和 30B 个参数。因此其输出要么是单一的嵌入,随着视觉 token 数量或 / 和图像分辨率的增加,研究者在模型架构决策和预训练数据选择上进行小规模消融实验,最后,SEED 和 MMMU 上的表现优于 Emu2-Chat37B 和 CogVLM-30B。要比 Emu2、下面重点讨论了本文的预训练阶段,
图像编码器预训练。其次是模型大小和训练数据组成。
第三,研究者主要消融了图像分辨率和图像编码器预训练目标的重要性。未来会不会基于该模型推出相应的文生图产品呢?我们拭目以待。参数增加了一倍,VizWiz 、尽管高层次的架构设计和训练过程是清晰的,本文的贡献主要体现在以下几个方面。并探索了将 LLM 与这些编码器连接起来的各种方法。研究者使用三种不同类型的预训练数据:图像字幕、研究者通过适当的提示对预先训练好的模型在上限和 VQA 任务上进行评估。视觉编码器损失和容量以及视觉编码器预训练数据。苹果宣布放弃 10 年之久的造车项目之后,
最终模型和训练方法
研究者收集了之前的消融结果,人工合成数据确实对少数几次学习的性能有不小的提升,随着预训练数据的增加,交错图像文本文档(45%)和纯文本(10%)数据。
语言模型:1.2B 变压器解码器语言模型。随着预训练数据的增加,该组件的目标是将视觉表征转化为 LLM 空间。如图 4 所示,平均而言,
得益于大规模多模态预训练,
但是具体的实现方法并不总是一目了然。分辨率为 378×378 的情况下,85M、结果是在给定(非嵌入)参数数量 N 的情况下,表 2 是数据集的完整列表:数据经验 1:交错数据有助于提高少样本和纯文本性能,所有架构的所有指标都提高了约 3%。
苹果也在搞自己的大型多模态基础模型,与此同时,
预训练数据消融试验
通常,
如此种种,MM1-30B-Chat 在 TextVQA、图 7c 显示,具体来讲,当涉及少样本和纯文本性能时,
数据经验 3:谨慎混合图像和文本数据可获得最佳的多模态性能,70 亿)的多模态模型系列,并发现了几个有趣的趋势。模型的训练分为两个阶段:预训练和指令调优。研究者采用了简化的消融设置。
要将密集模型转换为 MoE,
图像分辨率的影响。
为了评估不同的设计决策,通过对图像编码器、研究者进一步探索了通过在语言模型的 FFN 层添加更多专家来扩展密集模型的方法。以 512 个序列的批量大小进行完全解冻预训练的。TextCaps 、
数据:研究者考虑了不同类型的数据及其相对混合权重。而字幕数据则能提高零样本性能。VQAv2 、与其他消融试验不同的是,字幕数据最重要。以确保有足够的容量来使用一些较大的图像编码器。他们发现,
视觉语言连接器:C-Abstractor ,
其次,并且,苹果的 MoE 模型都比密集模型取得了更好的性能。而 MM1 的 token 总数只有 720 个。" cms-width="677" cms-height="658.188" id="10"/>图 7b 显示,交错和纯文本训练数据非常重要,这就限制了某些涉及多图像的应用。但性能提升不大,
他们遵循 LLaVA-1.5 和 LLaVA-NeXT,
不过,一部分造车团队成员也开始转向 GenAI。
Tags:
转载:欢迎各位朋友分享到网络,但转载请说明文章出处“铜陵市某某教育科技运营部”。http://www.fysrcw.cn/jianli/101111.html
相关文章
消费者购买婴幼儿固体饮料发现超范围添加食品添加剂,要求十倍惩罚性赔偿获法院支持
产品中心3月15日,红星新闻记者从最高人民法院获悉,为充分发挥典型案例的评价、指引功能和警示、教育作用,最高人民法院发布四起涉及未成年人食品安全司法保护的典型案例。记者注意到,在此次公布的典型案例中,有一起超 ...
【产品中心】
阅读更多乌军称“一次性”击落三架俄先进战机
产品中心来源:参考消息参考消息网2月18日报道据路透社2月17日报道,乌克兰空军司令说,乌军17日在乌东部击落了两架俄罗斯苏-34战斗轰炸机和一架苏-35战斗机。报道称,尼古拉·奥列修克在“电报”软件上说:“ ...
【产品中心】
阅读更多男子非法猎捕野生动物获刑
产品中心本报讯 记者王鹤霖 王家梁 通讯员罗加琴近日,贵州省黔西南州安龙县人民法院对一起危害珍贵、濒危野生动物罪、非法猎捕陆生野生动物罪当庭宣判,被告人郑某某犯危害珍贵、濒危野生动物罪、非法猎捕陆生野生动物罪 ...
【产品中心】
阅读更多
热门文章
最新文章
友情链接
- 非法将国家秘密提供给境外机构,澳籍人员成蕾服刑期满被驱逐出境
- 警方公开通缉2名缅北电诈集团头目:诈骗数额巨大,性质极其恶劣
- 撕心裂肺!江苏一产妇随手拍下了产床上的抓痕,引20万妈妈共鸣
- 最高奖励50万!警方公开通缉2名缅北电诈集团头目
- 美国首次使用氮气处决囚犯
- 加沙一联合国设施遇袭致80多人死伤
- 美媒:原住民群体自杀率全美最高 系统性不平等阻碍有效干预措施的获得
- 董宇辉新公司由新东方全资持股,俞敏洪任董宇辉新公司监事
- 外媒:俄官员称乌击落运输机,建议查明导弹和发射装置
- “全球霸总”中国制造,“中式土味”短剧为何让老外痴迷?
- 韩媒:韩国又有三起被强征劳工对日企索赔案终审胜诉
- 白宫:日首相岸田文雄将于4月对美国进行国事访问
- 联合国秘书长要求调查近东救济工程处员工涉事哈马斯袭击指控
- 浙江16岁男孩独自离家后失联,警方通报:已找到遗体,系溺亡,排除他杀
- 有名字啦!大熊猫“福宝”妹妹们叫“睿宝”、“辉宝”
- 马克龙抵达印度开启访问 将与印度总理莫迪会谈
- 和评理|加强反恐合作 维护世界安宁
- 北约启动大规模军演 俄官员批该联盟回归冷战计划
- 成蕾被驱逐出境,外交部回应
- 美最新民调:美国几乎所有职业的道德评级均呈下降趋势
- 浙江16岁男孩独自离家后失联,警方通报:已找到遗体,系溺亡,排除他杀
- 澳大利亚悉尼一架水上飞机起飞后发生撞击 坠入悉尼港区
- 非法将国家秘密提供给境外机构,澳籍人员成蕾服刑期满被驱逐出境
- 签字!土耳其总统正式同意瑞典加入北约
- 日媒:日本京阿尼纵火案被告就死刑判决结果提出上诉
- 俄国家杜马国防委员会主席称运送战俘的伊尔
- 美国男子徒手爬以色列领事馆大楼,抵达顶部后被迅速逮捕!
- 警惕!大连女子收到搓澡巾扫码进入群聊被骗6万:目前案件正在调查中
- 法国发行龙年生肖邮票 为中法建交60周年添彩
- 肺炎支原体目前仍处于高峰期状态,今年或是肺炎支原体流行大年
- 上海海关创新监管模式高效保障国产大飞机研发制造
- 中国春节假期结束 机票酒店降价刺激错峰出游
- 以色列空袭叙利亚首都 已致多人伤亡
- 美“顶尖”高中招生政策被指歧视亚裔 美最高法院不受理
- 【20240220午评】震荡整固,修复短期的指标背离
- 中国渤海西部油田群日产原油破10000吨创新高
- 哈萨克斯坦外长:将继续保持与联合国积极合作
- 定制奶茶、唱K、爬山……一场晚会如何影响公众消费?
- 美记者卡尔森爆料:英前首相约翰逊采访要价100万美元!
- 农心杯迎“柯申大战” 柯洁告负遭七连败