世界今亮点!用模型进化模型,智源发布开源套装;大模型带不来AGI,LeCun提出三大挑战 - 最前线
文 | 周鑫雨
编辑 | 邓咏仪
(相关资料图)
大模型的下一站是通用人工智能(AGI)吗?
在6月9日开幕的智源大会上,来自中美两国AI领域的顶尖人才们围绕着大模型和AGI的未来进行了讨论。
由于非营利+科研型的特性,智源被业界视作“中国版的早期OpenAI”,同时也是国内AI人才的黄埔军校。在智源的大模型研究项目“悟道”中,汇聚了智谱华章唐杰、循环智能杨植麟、元乘象卢志武等AI创业的高校第一梯队。
这次大会上,参会阵容的豪华程度似乎也意味着,关于大模型的未来,到了需要建立全球性行业共识的时刻。与会者包括图灵奖得主Geoffrey Hinton、Yann LeCun、Joseph Sifakis和姚期智,Midjourney 创始人David Holz等。OpenAI创始人Sam Altman,将参加6月10日以“安全”为主题的分论坛。
“透明开放的生态”,是其中的一个主题。这一主题指向通过建立开放的开源生态和模型能力测评体系,探寻目前大模型能力的“天花板”。
自2021年推出了“世界上最大模型”、参数规模达到了1.75万亿的“悟道 2.0”后,智源在会上发布了“悟道 3.0”——一个围绕三个开源模型体系所打造的模型服务平台。“悟道 3.0”提供的模型服务包括底层数据处理和汇聚、模型能力和算法评测。
另一个主题,则围绕着人们如何从大模型时代,真正迈向AGI。
“它们(预训练模型)没有关于基础显示的知识。”在连线中,“深度学习三巨头”之一、Meta首席AI科学家Yann LeCun先给当下火热的大模型判了迈向AGI的“死刑”。而后,他给出了有关解决方案的构想:“像婴儿一样观察世界”。
基础模型+测评工具+迭代方案,开源“全家桶”发布
与2021年发布的以“纯炼大模型”为目标的1.0和2.0版本不同,用智源研究院院长黄铁军的话来说,“悟道 3.0”是“以大模型为核心的生态”,其中包括底层数据处理和汇聚、模型能力和算法评测、开源开放,形成一套高效的大模型技术和算法体系。
通俗来讲,“悟道 3.0”就是用大模型来更科学和可控地“炼模型”。
这一模型训练模型的体系包括两个开源大模型基座:语言大模型系列“悟道·天鹰”,视觉大模型系列“悟道·视界”,一个开源大模型评测体系与开放平台FlagEval(天秤),一个大模型技术开源体系FlagOpen(飞智)。
1、“悟道·天鹰”和“悟道·视界”
语言大模型系列“悟道·天鹰”包含了基础模型Aquila(7B和33B版本)、对话模型AquilaChat和文本-代码生成模型AquilaCode。
对标ChatGPT,AquilaChat在提供对话功能的同时,还能通过定义可扩展的指令规范,调用其他模型的API和第三方工具,弥补单模态对话模型的局限性。
AquilaChat的文字对话能力。图源:智源
比如仅靠AquilaChat无法实现文生图的功能,但是靠调用智源开源的文生图模型AltDiffusion,就能弥补文字模型”偏科”的短板。若是进一步调用图像编辑器InstructFace,用户还能实现对图像的编辑。
AquilaChat调用AltDiffusion生成图片。图源:智源
AquilaChat调用图像编辑器InstructFace可以对人像进行调整。图源:智源
此次推出的文生代码模型AquilaCode-7B,目前能够在使用更少训练数据和参数的情况下,性能接近OpenAI的CodeX-12B,并且在芯片架构适配性上具有较好的包容性。
AquilaCode实现时钟程序的代码编写。图源:智源
“悟道·视界”则提供了5个基础模型:多模态大模型Emu、十亿级视觉基础模型EVA、开源 CLIP模型EVA-CLIP、通用视觉模型Painter、视界通用分割模型SegGPT。
与此同时,“悟道·视界”还基于基础模型,推出了零样本视频编辑方法vid2vid -zero。所谓的“无样本”,指的是用注意力机制动态运算结合图像扩散模型,代替原有的用大量视频数据进行模型训练的方案。
举个例子,当画面中出现了一个跑步的人,算法能够自动区别运动的人和身后的景色,只要输入prompt,就能够对人和风景分别进行编辑。
vid2vid -zero对视频画面元素的分割。图源:vid2vid -zero论文
2、FlagEval(天秤)
除了不断提升模型对多模态内容的推理演绎能力,提高模型的“可解释性”同样重要——这能帮助我们像理解大脑一样,去理解大模型的“智能”从何而来,从而为提升模型的性能和安全性提供根本的解决方案。
目前,FlagEval构建了“能力-任务-指标”的三维评测框架,形成了包括30+种能力、5种任务、4大类指标在内的600+维的全面测评。
FlagEval构建的“能力-任务-指标”三维评测框架。图源:智源
结合“悟道·天鹰”,FlagEval目前已经实现了对语言和图文两类大模型的评测,并推出了大语言模型评测体系、多语言文图大模型评测工具mCLIP-Eval和文图生成评测工具ImageEval。
与此同时,FlagEval并非静态的模型打分工具,而是通过自动化评测和自适应评测机制“因材施教”,为模型提供针对性的训练意见。
3、FlagOpen(飞智)
通俗来讲,FlagOpen是一个开源数据、算法、模型、工具和评测体系的“仓库”。框架FlagBoot、AIGC应用FlagStudio等体系组成部分则构成了承担不同功能的“储物间”。
比如其中的大模型算法开源项目FlagAI,集成了全球主流的大模型算法和技术方案,包括语言大模型OPT和T5、视觉大模型ViT和Swin Transformer,以及多模态大模型CLIP。
FlagOpen构建了涵盖数据、算法、模型、工具和评测体系的开源仓库。图源:智源
大模型、类脑智能、具身智能,三条大路互通AGI
语言大模型的智能涌现固然令人兴奋,但智源大会上学者达成的共识是:强如GPT的预训练模型,难以通往真正的AGI。
其原因在于自监督的训练方法。自监督的出现,代替了原有需要大量标注数据的监督学习,提高了深度学习的效率。但自监督的问题也很明显:机器只能根据输入的数据对空缺部分进行了预测,但并不理解前后之间的现实关系。
Yann LeCun指出,“如果你将这些模型训练在一万亿个 Token 或两万亿个 Token 的数据上,它们的性能是惊人的。但最终,它们会犯很愚蠢的错误。它们会犯事实错误、逻辑错误、不一致性,它们的推理能力有限,会产生有害内容。”
这也导致了AI难以攻克的现状:大模型不具备基础现实的知识。
对此,黄铁军提出了通往AGI的三条路线:大模型、类脑智能、具身智能。它们之间并不孤立存在,而是相互作用和影响。
· 大模型:通过海量高质量数据,使得复杂的AI系统初步具有智能涌现能力;
· 类脑智能:形成基础的神经网络结构、信号加工机理等,使得机器达到类似于生物或人脑的能力;
· 具身智能:通过强化学习方法,利用物理实体与环境互动吸取经验和教训,不断调整自身策略。
Yann LeCun则用婴儿学习做了类比:当一个5个月大的婴儿看到小汽车漂浮在空中的照片,他并不会感到惊讶。但一个10个月大的婴儿会很吃惊,因为他知道物体在重力的作用下不可能漂浮在空中。
Yann Lecun。
“我认为,我们应该用机器复制这种通过观察世界或体验世界学习世界运作方式的能力。”在大会上,Yann LeCun重申了其于2022年提出的“世界模型(World Model)”理论。
他将视界是做由不同现实场景数据组成的系统,世界模型则能够精准预测出基于现实的行动。基于理想化的“世界模型”,机器将更加具有自主智能(Autonomous Intelligence)。
不过,在真正的AGI时代来临之前,他认为AI在未来几年首先需要面临3个主要挑战:
· 学习世界的表征和预测模型;
· 学习推理;
· 通过将复杂任务分解成简单任务,以分层的方式运行来规划复杂的行动序列。
欢迎交流