产品中心

【48812】Llama 3忽然来袭开源社区再次欢腾:GPT-4等级模型能自在拜访的年代到来
首页 > 产品中心
来源:电竞比赛押注平台app    发布时间:2024-04-20 15:28:54

  Meta官方多个方面数据显现,Llama 3 8B和70B版别在各自参数规划上逾越一众对手。

  咱们正在步入一个新国际,一个GPT-4等级的模型开源并能自在拜访的国际。

  英伟达科学家Jim Fan则以为,还在练习中的Llama 3 400B将成为开源大模型的分水岭,改动许多学界研讨和草创公司的开展方法。

  练习数据上看,Llama 3的练习数据规划达到了15T tokens,悉数来自于揭露信息,其间5%为非英文数据,包括30多种言语。

  此外,为了进步 Llama 3 模型的推理功率,Meta AI还采用了分组查询注意力 (GQA)机制,在8192个tokens的序列上练习模型,并运用掩码保证自注意力不会跨过文档鸿沟。

  成果,无论是8B仍是70B版别,Llama 3相较于近似规划的上一代Llama 2,都取得了严重腾跃。

  在迄今为止的8B和70B参数规划的模型中,Llama 3都成为了新的SOTA模型。

  在言语(MMLU)、常识(GPQA)、编程(HumanEval)、数学(GSM-8K、MATH)等才能上,Llama 3简直全面领先于平等规划的其他模型。

  除了这些惯例的数据集,Meta AI还评价了Llama 3在实际场景中的功用,并为此研发了一套高质量的测验数据集。

  这个测验集包含了1800条数据,包括代码、推理、写作、总结等12 个要害用例,并针对开发团队保密。

  不过美中不足的是,Llama 3的上下文窗口只要8k,这与现在动辄几十上百万窗口的大模型比较,好像还停留在上一代(手动狗头)。

  但也不用过度忧虑,Matt Shumer就对此持乐观态度,他表明信任在开源社区的尽力下,窗口长度很快就会扩展上去。

  此外,微软Azure、谷歌云、亚马逊AWS、英伟达NIM等云服务渠道也将连续上线。

  一起,Meta还表明Llama 3会得到英特尔、英伟达、AMD、高通等多家厂商供给的硬件渠道支撑。

  值得一提的是,此次与根底模型一起发布的,还有根据Llama 3的官方Web版别,姓名就叫Meta AI。

  现在该渠道有对话和绘画两大功用,只用对话的话无需注册登录、即开即用,运用绘画功用则需求先登录账号。

  代码方面,该渠道也能够运转一些简略的Python程序,但好像只能输出文本,涉及到绘图这样的使命就无法运转了。

  一个小插曲是,其实在Meta官宣前几个小时,微软的Azure商场现已偷跑了Llama 3 8B Instruct版其他音讯。

  开源模型机器学习在线渠道Replicate上的Llama 3价格表也被网友们第一时间扒拉了出来。

  好在乌龙完了,官方也没拖着,关怀开源大模型的小伙伴们,能够做作起来了(doge)。

  原标题:《Llama 3忽然来袭!开源社区再次欢腾:GPT-4等级模型能自在拜访的年代到来》

  本文为汹涌号作者或组织在汹涌新闻上传并发布,仅代表该作者或组织观念,不代表汹涌新闻的观念或态度,汹涌新闻仅供给信息发布渠道。请求汹涌号请用电脑拜访。