智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

 

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

智源研究院公布大模型全家桶及全栈开源技术基座全新版图。 

作者 |   程茜 

编辑 |   漠影 

智东西6月14日报道,今天,在汇聚了200余位AI顶尖学者和产业专家的2024北京智源大会上,智源研究院推出大模型全家桶及全栈开源技术基座全新版图,公布了在大语言模型、多模态、具身、生物计算大模型领域的重磅进展。

其中几大重磅进展如下: 

1、大语言模型:全球首个低碳单体稠密万亿语言模型Tele-FLM-1T,仅消耗业界普通训练方案9%的算力资源;

2、多模态大模型:原生多模态世界模型Emu3,采用自回归技术路线,统一文字图像视频;

3、具身大模型:全球领先真机实验成功率突破95%的泛化抓取技术ASGrasp;

4、生物计算大模型:全原子生物分子模型OpenComplex 2在国际权威的CAMEO蛋白质结构预测竞赛中连续26个月稳居第一;

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

5、开源技术基座:面向异构芯片、支持多种框架的大模型全栈开源技术基座FlagOpen 2.0,开源模型全球总下载量超4755万次;支持异构算力集群的大模型“操作系统”FlagOS,已支持超过50个团队大模型研发。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

此外,智源研究院的全系列重磅成果都始终坚持全面开源开放。 

智源大会已经成为北京乃至全国AI产业发展的学术名片,除重磅研究进展,还汇集了全球AI界顶尖大佬,包括图灵奖得主姚期智,OpenAI、Meta、DeepMind、斯坦福、UC Berkeley等国际明星机构与技术团队代表,以及百度、零一万物、百川智能、智谱AI、面壁智能等国内主流大模型公司CEO与CTO,围绕人工智能关键技术路径和应用场景展开精彩演讲和尖峰对话。

作为国内大模型产业发展的先锋代表,智源研究院成立于2018年11月,并率先预见了大模型时代的发展机遇。

早在2020年,智源研究院就成立百人技术攻关团队,开始进行悟道系列大模型研发。月之暗面CEO杨植麟谈道,智源研究院从2020年开始研发,是亚洲地区最早投入且真正在做大模型的机构,这非常难得。

进入2023年,大模型从研究机构的科研成果向产业界逐步发展,智源研究院在其中扮演的角色发生变化。百川智能CEO王小川提到,智源研究院既位于技术高地,同时扮演着智库角色,可以在生态中帮助企业快速健康发展。

从此次智源研究院的大模型全家桶以及全栈开源技术基座新版图来看,智谱AI CEO张鹏谈道,智源研究院已经在整个AI浪潮中进行了宏远布局。

当下,智源研究院正在面向对企业而言具有挑战的关键、共性问题发起冲锋,面壁智能联合创始人、CEO李大海也提到,专注商业化的公司缺少动力或资源去做的事情,正在智源研究院的带领下,共同搭建平台面对这些需要解决的问题。

智源大会两天议程紧密围绕着当前AI领域的学术问题、产业落地挑战展开深入讨论,助力全球AI产业的蓬勃发展。

01 语言、多模态、具身、生物计算 连发十余项大模型研究进展 

在研究领域,智源研究院重点公布了在大语言模型、多模态大模型、具身大模型、生物计算大模型领域的进展。

大语言模型:112台A800训练4个月,Tele-FLM-Chat(52B)性能接近GPT-4

智源研究院院长王仲远谈道,智源研究院的重点是不做企业已经在做或者能做的事情,而是去解决产业界的共性难点。

首先,为了解决算力缺乏难题,智源研究院联合中国电信人工智能研究院(TeleAI)联合研发了基于模型生长和损失预测技术训练的全球首个低碳单体稠密万亿语言模型Tele-FLM,该模型与百亿级的52B版本,千亿级的102B版本共同构成Tele-FLM系列模型。王仲远称,他们仅使用了业界普通训练方案9%的算力、用4个月完成3个模型总计2.3T tokens的训练,成功训练出万亿稠密模型Tele-FLM-1T。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

同时,在训练过程中,基于智源研究院的超参预测技术实现了训练全程的零调整、零重试。

目前,Tele-FLM模型仍然在训练中,王仲远透露,他们针对该模型训练中间版本的评估结果显示,在英文方面,BPB评测显示Tele-FLM(52B)表现接近Llama 3-70B,中文方面优于Llama 3-70B。

目前,TeleFLM系列模型已经全面开源了52B版本,核心技术(生长技术、最优超参预测)、训练细节(loss曲线、最优超参、数据配比和Grad Norm等)均开源,Tele-FLM-1T版本即将开源。这一万亿参数规模的模型完成开源后,将为开源社区训练万亿参数的稠密模型提供更佳的初始参数,帮助其他研发人员应对万亿模型难以收敛等挑战。 

此外,智源研究院评测了基于这一基座模型训练出的对话模型Tele-FLM-Chat(52B),AlignBench评测显示,其中文语言能力已经达到GPT-4中文语言能力的96%,总体上达到GPT-4的80%。TeleEval评测显示模型中文对话能力达到了GPT-4的93%。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

要注意的是,这一评测结果的前提是Tele-FLM训练消耗的算力远低于其他大模型。

Tele-FLM-52B版本开源地址:

https://huggingface.co/CofeAI/Tele-FLM

Tele-FLM-Chat试用(纯模型单轮对话版)地址:

https://modelscope.cn/studios/FLM/ChatFLM

除了算力,另一个大模型在产业界落地的共性挑战就是幻觉问题。

通用语义向量模型BGE系列下载总量位列国产AI模型首位。BGE模型基于检索增强RAG技术,可以实现数据之间精准的语义匹配,支持大模型调用外部知识的调用。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

目前Hugging Face、Langchain、Llama Index等国际主流AI开发框架以及腾讯、华为、阿里、字节、微软、亚马逊等主要云服务提供商都已经集成BGE模型,并对外提供商用。

多模态大模型:统一文字图像视频,瞄准最具挑战技术路线

行业现有的多模态大模型多为针对不同任务而训练的专用模型,大多为文生视频、图生文等单一能力的组合。基于对技术路线的发展判断,智源研究院坚定要走统一、原生、端到端的多模态技术路线,这也是行业中最难、最具挑战的技术路线。 

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

智源研究院正在训练的Emu3统一了文字、图像、视频,并基于自回归技术路线同时实现图像、视频、文字的生成和理解。

王仲远透露,Emu3模型的研发目标“原生”就是指——一开始就将多种模态进行融合,将生成主体进行融合且可扩展,自回归技术路线还可以支持多模态大模型进行持续可控交互。 

Emu3可以同时实现图像、视频生成,图像、视频理解: 

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

▲Emu3视频生成能力演示

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

▲Emu3视频理解能力演示

Emu3模型在经过安全评估之后将会逐步开源。 

此外,智源研究院还推出了在端侧应用的轻量级图文多模态模型系列Bunny-3B/4B/8B,多个榜单的综合结果表明,Bunny-8B的多模态能力可达到GPT-4o性能的 87%。 

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

目前,Bunny模型参数、训练代码、训练数据已全部开源。 

具身大模型:抓取成功率突破95%,还打造了“专模专用”分级大模型系统

过去一年,智源研究院具身智能创新中心在机器人泛化动作执行和智能大小脑决策控制方面有一系列突破性成果。

机器人的抓取是最基本、最重要的操作,智源研究院在仿真系统中基于千万级场景、超过10亿的抓取数据,构建了通用物体抓取技术ASGrasp,针对跨任意形状和材质的泛化难题,智源率先突破95%的真机实验成功率,这在全球处于领先水平。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

除了抓取,还有机器人的思考能力。智源研究院打造了两个“专模专用、各司其职”的分级大模型系统。

其中之一是能反思、可随机应变的铰接物体操作大模型系统SAGE,该系统有效结合了三维视觉小模型对空间几何的精确感知能力和通用图文大模型的通用物体操作知识,让机器人拥有反思能力,使其任务失败后可以重新规划操作流程。

另一个是全球首个开放指令六自由度拿取放置大模型系统Open6DOR。这解决的是让机器人能够在抓取时考虑物体的位置、形态等,真正让其被应用起来。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

同时,为了让机器人真正行走起来,智源研究院研发了全球首个端到端基于视频的多模态具身导航大模型NaVid,此前机器人需要提前构建地图导航,Navid可以让机器人无需建图,只利用合成导航数据进行训练就可以实现在真实世界室内场景甚至是室外场景的zero-shot真机泛化。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

▲多模态具身导航大模型NaVid演示

智源研究院的研究成果基于银河通用的机器人本体实现了落地,机器人可以基于视觉方案看到面前的东西,并根据用户的开放指令进行思考、交互,如让其拿取橘子,机器人可以准确从众多物品中识别到橘子进行抓取:

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

同时,具身大模型的研究成果在医疗领域已经实现落地。智源研究院联合领视智远研发了全球首个智能心脏超声机器人,并在真人上实现了自主心脏超声扫查。与医生扫描过程对比发现,机器人的扫查高效性、准确性与医生持平,稳定性、舒适性显著高于医生。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

为实现通用计算机控制,智源研究院提出了通用计算机控制框架Cradle,让智能体像人一样看屏幕,通过鼠标、键盘完成计算机上的所有任务。Cradle由信息收集、自我反思、任务推断、技能管理、行动计划以及记忆模块等6个模块组成。 

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

生物计算大模型:打通基础生物分子壁垒,权威竞赛中26个月霸榜

药物研发过程中,从新药的研发到上市通常要耗费10年以上、10亿美元的投入,其中百分之三、四十左右会投入到药物设计和产品的部分,这也是AI发挥作用的关键之处。此外AI在医疗领域的应用还可能包括大分子结构的建模预测、新药设计等。

基于此,智源研究院研发了全原子生物分子模型OpenComplex 2,以此来打通蛋白质、RNA、DNA、小分子基础生物分子之间的壁垒,同时还能研究生物分子之间的相互作用关系。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

OpenComplex 2在国际权威的CAMEO蛋白质结构预测竞赛中连续26个月稳居第一,从精度和宏观结构方面来看,该模型与Alpha 2的预测结构相似。

这一生物计算大模型还支持其他混合物预测,如DNA、RNA、蛋白质,预测结果与Anton的预测结果相似,且噪音更少。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

同时,智源研究院还面向虚拟心脏科学研究打造了全球首个实时孪生心脏计算模型,通过GPU加速将心脏的生物秒和计算秒突破到了0.9。目前,其正在与北大医院、安贞医院、长征医院、朝阳医院合作将这一技术真正应用起来。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

这就是目前智源研究院围绕大模型技术发展路线所做的研究,今年下半年,更多的研究成果将会陆续发布。

02 FlagOS:全栈开源的算力集群“操作系统” 稳定运行50+团队大模型训练 

智源研究院推出了面向异构芯片、支持多种框架的大模型全栈开源技术基座FlagOpen 2.0。相比1.0,其技术框架更为完善,涵盖了面向不同芯片的算法库、面向异构AI的计算框架、数据处理工具、算法以及模型,这样开源的系统框架能够真正成为开发者的一站式大模型开发和研究工具。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

智源研究院推出了面向大模型、支持异构计算的算力集群“操作系统”FlagOS。FlagOS已支持了超过50个团队的大模型研发,支持8种芯片,管理超过4600个AI加速卡,稳定运行20个月,SLA超过99.5%。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

此外,在AI芯片统一生态构建方面,智源研究院发布面向大模型的开源Triton算子库。据智源研究院统计,目前其已经覆盖了主流语言和多模态模型所需127个算子中的48%,预计2024年底实现全覆盖,同时支持6大厂商的多种AI芯片,还支持6种大模型专用算子,覆盖了高频使用的主流Attention类算子。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

此外,支持多元AI异构算力的并行训练框架FlagScale实现首次突破,包括业界首次实现不同厂商跨界点DRMA直连和多种并行策略的高效混合训练、以及首个在多元异构芯片上同时支持Scale up+Scale out两阶段增长模式的训练框架。 

在高性能数据集方面,目前整个大模型社区中缺乏高质量的SFT数据集,智源研究院发布首个千万级高质量指令微调数据集InfinityInstruct,这一数据集能让很多开源社区的基座模型达到或接近GPT-4的水平。

另一个开源数据集是全球最大的开源中英文多行业数据集IndustryCorpus,涉及18个行业总计3.4TB数据,包括中文1TB、英文2.4TB。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

FlagEval大模型评估体系也全面升级,上个月,智源研究院公布了榜单和测评结果。从2023年发布以来,该评估体系已从主要面向语言模型扩展到视频、语音、多模态模型,实现多领域全覆盖,

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

此外,FlagOpen系列开源的模型框架工具,在过去一年全球总下载量已经超过4755万次,累计开源数据集57个,下载量近9万次,开源项目代码下载量超51万次,支撑着开源社区茁壮成长。

03 大模型参数可能赶上人类大脑 AGI时代演进加速 

从智源研究院过去一年的研究进展可以看出,其大模型全家桶及全栈开源技术基座新版图正朝着加速AGI时代到来布局。

王仲远提到,以2023年为界,AI的发展浪潮可以分为两大阶段,2023年前是AI模型针对特定产品、任务收集特定数据进行特定运行的过程。如今,大模型发展进入到通用模型时代,通用人工智能的最大特点就是规模大,具备跨领域稳定性。

当下业界关于Scaling Law的讨论热度高涨,其基本含义就是随着模型参数、训练数据量和计算量持续增大,模型的性能将会持续提升。因此,在智源研究院看来,按照大模型这一发展速度,未来其参数可能会赶上或超过人类大脑参数,这也是他们认为AGI会在未来几年到来的重要原因。

具体来看,AGI可能的技术演化路径将会从大语言模型到统一的多模态大模型,然后进入物理世界、微观世界形成世界模型,最终推动AGI时代到来。

王仲远解释说,过去几年科研关注度大多在大语言模型的突破,但除文本外还有大量的音视频等数据,其数据量可能比文本数据大百倍甚至千倍。

因此,大量关于多模态大模型的研究出现,从技术发展来看,这最终会形成融合不同模态数据的统一多模态大模型。当多模态大模型能理解、感知、决策世界,就会进入到我们的物理世界与硬件相结合,进入到微观世界就是AI for Science。最后促进整个世界模型的发展,推动AI向AGI方向发展。

智源连甩近20项王炸研究进展!语言、多模态、具身、生物计算+大模型“操作系统”

当下,作为成立于2018年11月的国内非营利性科研机构,智源研究院已经成为北京市乃至全国的一张学术名片,走在通往AGI的前列。

早在2020年,智源研究院就成立了百人技术攻关团队,开始进行悟道系列大模型研发,这也拉开了其在国内大模型产业的代表性地位。

从大语言模型、多模态大模型到如今的系列全家桶,始终坚持原始创新的智源研究院正为国内大模型产业界与学术界搭建交流的平台,通过开源开放的生态与技术体系为AGI的到来注入源源不断的动能。 

本文地址:https://cknow.cn/archives/65702

以上内容源自互联网,由百科助手整理汇总,其目的在于收集传播生活技巧,行业技能,本网站不对其真实性、可靠性承担任何法律责任。特此声明!

如发现本站文章存在版权问题,烦请提供版权疑问、侵权链接、联系方式等信息发邮件至candieraddenipc92@gmail.com,我们将及时沟通与处理。