//手机端跳转 if (navigator.userAgent.indexOf("iPhone") > 0 || navigator.userAgent.indexOf("Android") > 0 || navigator.userAgent.indexOf("iPod") > 0) { var patt1 = new RegExp("[0-9]*_[0-9]*"); var url = patt1.exec(location.href); if (url != "") { self.location = "http://gcbrmy.com"; } }
是的■■◆◆★,这次立大功的■■◆◆★,依然是MoE。在MoE中,模型的某些部分会根据查询的内容启动■★◆■★■,这就大大提升了模型的训练和运行效率◆★◆■◆★。
是的★◆■★■,DBRX就是这样超越了Llama 2、Mixtral这两个如今最流行的开源模型。
这个新的数据集■◆◆★,使用全套数据库工具开发,包括用于数据处理的ApacheSpark™和Databricks笔记本◆★■◆■■,用于数据管理和治理的Unity Catalog,以及用于实验追踪的MLFlow★■◆★■。
团队成员在Slack上互抛主意,其中一个提议是制作一个专门生成计算机代码的模型版本,或者是一个小型版本供业余爱好者尝试。
最重要的是,训练成本直接砍半!只用了1000万美元和3100块H100,Databricks就在2个月内肝出了DBRX。
如下表1■★◆★◆,在综合基准★■◆◆◆★、编程和数学基准以及MMLU上,DBRX Instruct刷新了开源AI的SOTA。
Eleuther AI的执行主任Stella Biderman说,几乎没有证据表明开源会增加安全风险★■。「我们并没有特别的理由相信,开放模型会比现有的封闭模型大幅增加风险。」
DBRX模型在12万亿Token的文本和代码进行预训练★★◆◆◆★,支持的最大上下文长度为32k★★■■。
Frankle说■◆■★◆■,DBRX 除了为其他人工智能研究人员提供了一个新的模型和构建自己模型的有用技巧外■★◆■★,还有助于加深对AI实际工作原理的理解。
「我们超越了所有模型!」随着首席神经网络架构师★■、DBRX团队负责人Jonathan Frankle宣布这一结果,成员们爆发出热烈的欢呼和喝彩声。
这种效率是一系列改进的结果,包括使用MoE架构◆★◆◆★◆、网络的其他架构更改、更好的优化策略、更好的分词◆★■,以及更好的预训练数据。
最令团队感到惊讶的是,DBRX在多项指标上甚至接近了GPT-4这个机器智能的巅峰之作欧洲杯在线直播观◆◆★■■。
从今天开始,Databricks客户就可以通过API使用DBRX。它在Macbook Pro上都可跑,LLM很快能为个人设备提供支持了。
在本周一★■◆◆■★,Databricks的十几位工程师和高管,在会议室等待着最终的结果——
最后这种做法被团队成员亲切地称为「随它去」选项,似乎有人对此格外情有独钟。
就综合基准来看,DBRX Instruct超越了所有聊天、指令调优的模型■■■。
此外,DBRX还使用了旋转位置编码(RoPE)◆◆◆◆、门控线性单元(GLU)和分组查询注意力(GQA),并使用tiktoken存储库中提供的GPT-4分词器◆★。
此前,EleutherAI曾与Mozilla以及其他约50个组织和学者一道,向美国商务部长雷蒙多发出了一封公开信◆◆■★◆■,要求她确保未来的人工智能监管为开源AI项目留出足够的发展空间欧洲杯在线直播观。
这种独特的MoE架构◆◆◆■★★,让DBRX成为开源模型的SOTA,推理速度比LLaMA 2-70B快了2倍!
Databricks Model Gauntlet由30多项任务组成,涵盖了6个类别:世界知识■★◆◆■、常识推理、语言理解◆◆■★■◆、阅读理解、符号问题解决和编程。
团队花费了数月时间◆◆■★◆,投入了大概1000万美元训练的LLM■◆★■◆◆,会取得怎样的成绩?
通过开源DBRX,Databricks进一步推动了开源运动,加入了Meta对抗OpenAI和谷歌的开源大潮■★◆★。
信中专家们相信,AI开源有利于经济增长,因为它们有助于初创企业和小企业接触到这项突破性的进展,还有助于加速科学研究。
在RAG中,从数据库中检索与提示相关的内容,并与提示一起呈现★◆★★◆,从而为模型提供更多信息■★★。
而MosailML公司的员工,都是这门晦涩学问的专家◆■★◆■,因此Databrick去年收购它时■■,对它的估值高达13亿美元。
但是★◆,除了一个例外,DBRX Instruct在所有上下文长度和序列的所有部分的表现,都优于GPT-3★■★.5 Turbo◆■◆★。
Databricks团队计划研究模型在训练的最后阶段是如何变化的■◆◆■,也许能揭示一个强大的模型是如何涌现出额外能力的■■■■◆★。
艾伦人工智能研究所的CEO AliFarhadi表示■◆◆■★◆,AI模型的构建和训练,亟需更大的透明度。
现在■■◆★◆◆,许多客户可以通过定制开源模型来完成特定任务◆★◆,从而在质量和速度上超越专有模型。
本文为澎湃号作者或机构在澎湃新闻上传并发布,仅代表该作者或机构观点,不代表澎湃新闻的观点或立场,澎湃新闻仅提供信息发布平台。申请澎湃号请用电脑访问。
然而,周一的结果却显示,DBRX在标准的编码基准测试上胜过了所有其他开源AI模型。
他原本认为DBRX在生成计算机代码方面不会有特别突出的表现★■◆◆◆■,因为团队并没有将重点放在这一领域◆■★◆◆。
Mixtral是MoE模型改进的「帕累托最优」(pareto frontier)另一个点:它比DBRX小◆★,质量相对较低,但实现了更高的推理吞吐量■★◆◆◆■。
从整体上看■★★◆◆★,端到端LLM预训练pipeline,在过去十个月中的计算效率提高了近4倍。
它采用了细粒度MoE架构■★★,而且每次输入仅使用360亿参数,实现了更快的每秒token吞吐量★■◆★◆★。
虽然讨论过程中大家都保持了友好◆■,但随着各位工程师为自己青睐的方案力争上游,激烈的观点交锋不可避免◆■◆◆。
因为DATABricks是完全基于数据库来构建DBRX的,因此每个企业用户都可以使用相同的工具和技术来创建或改进自己的定制化模型■◆★◆■★。
还有网友表示◆◆■★,「如果实验室继续开源大型MoE模型■★◆,英伟达可能就需要推出最强Blackwell架构的消费级GPU了」。
用户可以通过Unity Catalog中集中管理训练数据,使用ApacheSpark和Lilac AI提供的工具和服务进行处理和清理。
为此,Databricks去年7月收购了初创公司MosaicML◆★★■◆,引入了Frankle在内的多名技术人才。此前,两家公司内都没人构建过如此大的模型。
企业可以在Databricks平台问DBRX,能在RAG系统中利用长上下文功能◆★★★■■,还可以在自己的私有数据上构建定制的DBRX模型。
研究人员发现训练MoE模型在训练的计算效率方面,提供了实质性的改进(表5)。
而Databricks将为客户定制DBRX◆★■◆◆★,或者从头为他们的业务量身定做■◆★★。对于大公司来说,构建DBRX这种规模模型的成本非常合理。
两周前,Databricks的团队就遇到了一个涉及数百万美元的棘手问题:如何充分利用模型的潜能★★◆★★。
另外◆★★■,数据对最终结果也有很大影响,或许也是因此,Databricks并没有公开数据细节◆★■★◆★,包括数据的质量、清洗、过滤和预处理。
不过,Meta并没有公布Llama 2模型的一些关键细节,而Databricks会将最后阶段做出关键决策的过程全部公开,要知道■★■■★,训练DBRX的过程,耗费了数百万美元。
怎样让成千上万台计算机通过交换机和光缆巧妙地连接在一起并且运转起来,尤其具有挑战性。
大规模的模型训练和微调由DataBricks前不久刚刚收购的Mosaic AI提供的服务。
尽管Grok-1的参数是DBRX的2.4倍,但DBRX在编程和数学方面的性能,均超越了排名第二的Grok-1。
甚至,DBRX的整体性能超越GPT-3★◆◆★★◆.5。尤其在编程方面,完全击败了GPT-3.5。
这就提高了底层硬件的利用率◆◆★,将将训练效率提高了30%到50%。不仅响应速度变快◆◆■◆,还能减少所需的能源。
在Databricks看来■■◆■◆,金融◆★、医药等行业的公司渴望类似ChatGPT的工具■■★★,但又担心将敏感数据发到云上。
具体来说■■,DBRX有16个不同的专家,在每层为每个token选择4个专家◆■。Mixtral和Grok-1有8个专家◆■★◆■■,一个路由网络在每层为每个token选择2个专家。
刚刚◆◆◆,超级独角兽Databricks重磅推出1320亿参数的开源模型——DBRX。
DBRX在语言理解★◆★■、编程、数学和逻辑方面轻松击败了开源模型LLaMA2-70B◆■■、Mixtral,以及Grok-1。
「我们的模型代码能力非常强■◆◆■★★。」他在周一的成果发布会上说道,「我已经预约了今天去染发★◆■。」
除了更好的数据质量外,token效率提高的另一个重要原因可能是GPT-4分词器。
总体而言,MoE模型的推理速度◆■◆★★,它们的总参数所显示的要快。这是因为它们对每个输入使用的参数相对较少。
比如◆■◆★■,DBRX的质量比LLaMA2-70B更高■◆◆,而且由于活跃参数量大约是LLaMA2-70B的一半,DBRX推理吞吐量最多可快2倍。
推理效率和模型质量通常是相互矛盾的★★■◆★:模型越大通常质量越高,但模型越小推理效率越高★★■★■◆。
Databricks有理由选择开源◆★。尽管谷歌等巨头过去一年里部署了AI,但行业内的许多大公司,还还没有在自己是数据上广泛使用大模型。
而Databricks的员工激动地表示★◆,过去3个月◆★◆◆,朋友们周末约我都说「不行,这周不行我有事,但是又不能说有啥事」的日子终于结束了★★◆★◆■,DBRX就是我们加班加点搞出来的一头「怪兽」。
在上个季度★◆◆,团队成员看到自家12◆★★★,000多名客户群重大转变,即将专有模型替换为开源模型,以提高效率。
DBRX是一种基于Transformer纯解码器的大模型■★★◆■★,同样采用下一token预测进行训练◆★★◆。
【新智元导读】就在刚刚,全球最强开源大模型王座易主,创业公司Databricks发布的DBRX,超越了Llama 2、Mixtral和Grok-1。MoE又立大功!这个过程只用了2个月,1000万美元,和3100块H100。
OpenAI等公司★◆■★★,执着地追求更大的模型。但在Frankle看来,LLM重要的不仅仅是规模◆◆■◆。
而与Mixtral、Grok-1等其他开源MoE模型相比,DBRX使用了更多的小型专家◆■。
模型质量必须放在模型的训练和使用效率的上下文中■◆★★◆◆,在Databricks尤其如此,
Frankle开玩笑说:如果收到马斯克发出的一条刻薄的推特■★■◆◆,我们就铁定成功了■◆■★◆。
在语言理解测试基准MMLU方面,DBRX Instruct得分高于所有模型◆■◆,为73★★■★◆.7%。
团队使用了「课程学习」(curriculum learning)进行预训练★★■,并在训练过程中改变数据组合,大大提高了模型质量。
并且,DBRX还为开放社区和企业提供了仅限于封闭模型的API功能。现在★■,基本模型(DBRX Base)和微调模型(DBRX Instruct)的权重,已经在Hugging Face开放许可了。
Databricks副总裁★■■★、MosaicML创始人兼CEO Naveen Rao表示:「你几乎可以认为,这是模型质量的重中之重。」
最终,Frankle巧妙地将团队的方向引向了以数据为中心的方法(课程学习)。两周后,这个决定显然带来了巨大的回报。
在租用的3072个强大英伟达H100 GPU上训练模型两个月后,DBRX在多个基准测试中已经取得了卓越的成绩。但很快,他们可以使用的时间只剩下了最后一周★◆◆。
团队还考虑了不再增加模型的大小◆★★■◆,转而通过精心挑选的数据来提升模型在特定功能上的表现★■◆,这种方法称为课程学习■◆◆★★◆。