只用05天训练一个15亿参数小模型；谷歌推出新型Transformer架构｜大模型周报_电竞比赛押注平台app_正规的电竞竞猜软件

新闻动态

技术专利企业动态行业资讯

只用05天训练一个15亿参数小模型；谷歌推出新型Transformer架构｜大模型周报

来源：电竞比赛押注平台app 发布时间：2024-04-22 21:58:15

德州大学奥斯汀分校团队研究了一种基于现有大型基础语言模型开发小型基础语言模型的简单方法的有效性：首先从大型语言模型中继承几个 transformer 块，然后在大型模型的原始预训练数据的极小子集（0.1%）上训练这个较小的模型。

他们将这一简单方法称为 Inheritune，并首次演示了怎么样去使用 1B token（以及具有 3B 参数的大型语言模型的起始几层）构建具有 1.5B 参数的小型基础语言模型；他们使用单张 A6000 GPU 完成了这一工作，耗时不到半天。

在 9 个不同的评估数据集以及 MMLU 基准测试中，所得到的模型与公开的 1B-2B 大小的基础模型相比性能相当，其中一些模型使用了 50-1000 倍的 token 进行训练。

他们在一个略有不同的环境中研究了 Inheritune，即利用较大的语言模型及其完整的预训练数据集来训练较小的语言模型。他们展示了利用 GPT2-medium（3.55 亿）和 GPT2-large（7.7 亿）的部分层训练的较小语言模型，在具有 9B token 的 OpenWebText 数据集上从头开始训练时，在相同的训练步骤数下，可以轻松又有效地与较大语言模型的估值损失相媲美。

Transformers 的二次方复杂性和较弱的长度外推能力限制了其扩展至长序列的能力，虽然存在线性注意和状态空间模型等二次方以下的解决方案，但根据经验，它们在预训练效率和下游任务准确性方面都不如 Transformers。

来自 Meta、南加州大学、卡内基梅隆大学和加州大学圣地亚哥分校的研究团队提出了一种用于高效序列建模、上下文长度不受限制的神经架构 Megalodon。

Megalodon 继承了 Mega 架构，并进一步引入了多种技术组件来提高其能力和稳定能力，包括复杂指数移动平均线（CEMA）、时间步归一化层、归一化注意力机制和带双跳残差配置的 pre-norm。

歌曲是歌声和伴奏的结合，然而，现有的工作大多分布在在歌唱声音合成和音乐生成上，很少有人关注歌曲合成。

浙江大学研究团队提出了一项名为“文本到歌曲合成”（text-to-song synthesis）的新任务，其中包含人声和伴奏的生成，他们开发的 Melodist 是一种两阶段文本到歌曲方法，包括歌唱语音合成（SVS）和人声到伴奏合成（V2A）。Melodist 利用三塔对比预训练来学习更有效的文本表示，用于可控的 V2A 合成。

为了缓解数据的稀缺性问题，他们构建了一个从音乐网站中挖掘出的中文歌曲数据集。在他们的数据集上的评估根据结果得出，Melodist 可以合成具有相当质量和风格一致性的歌曲。

近来，状态空间模型（State Space Model，SSM）作为一种可能替代基于自注意力的 Transformer 的方法，受到了慢慢的变多的关注。在这项工作中，来自安徽大学、哈尔滨工业大学和北京大学的研究团队，首先对这些工作进行了全面的综述，并进行了实验比较和分析，从而更好地展示 SSM 的特点和优势。

具体而言，他们第一步对 SSM 的原理进行了详细描述，从而帮助读者快速捕捉 SSM 的主要思想；然后，对现有的 SSM 及其各种应用进行综述，包括自然语言处理、计算机视觉、图、多模态多媒体、点云/事件流、时间序列数据等领域。

此外，他们还对这些模型进行了统计上的比较和分析，希望能帮助读者了解不同结构在各种任务上的有效性。

最后，他们提出了该方向可能的研究方向，从而更好地推动 SSM 理论模型和应用的发展。

虽然 Transformer 给深度学习带来了革命性的变化，但二次注意力复杂性阻碍了其处理无限长输入的能力。

谷歌研究团队提出了一种新型 Transformer 架构“反馈注意力记忆”（Feedback Attention Memory，FAM），其利用反馈环路使网络能够关注自身的潜在表征。这种设计促进了 Transformer 工作记忆的出现，使其可处理无限长的序列。TransformerFAM 不需要额外的权重，因此能与预训练模型无缝集成。

来自马萨诸塞大学阿默斯特分校、清华大学和北京大学的研究团队及其合作者，探讨了具身多智能体合作问题，在这种情况下，去中心化智能体必须在只有部分自我中心世界观的情况下进行合作。

为了在这种情况下有效地制定计划，与在单个智能体场景中学习世界动态不同，他们必在仅对世界进行部分自我中心视觉观察的情况下，模拟以任意数量智能体的行动为条件的世界动态。

为了解决部分可观测性这一问题，他们第一步训练生成模型，以便在部分自我中心观测条件下估计整体世界状态。为了可以在此世界状态下精确模拟多组行动，他们建议通过对多个智能体的自然可组合联合行动进行因式分解并组合生成视频，从而学习多智能体合作的组合世界模型。利用这种组合世界模型，结合视觉语言模型来推断其他智能体的行动，就能够正常的使用树状搜索程序来整合这些模块，促进在线合作规划。

为了评估这一方法的有效性，他们使用 ThreeDWorld 模拟器创建了两个具有挑战性的多智能体长视野合作任务，并用 2-4 个智能体进行了实验。根据结果得出，他们的合成世界模型是有效的，而且该框架能使智能体在各种任务和任意数量的智能体中与不同智能体进行高效合作。

Snap 研究团队提出了一种新的架构——注意力混合（MoA），用于文本到图像扩散模型个性化。受大型语言模型（LLMs）中使用的专家混合机制（Mixture-of-Experts mechanism）的启发，MoA 在两个注意力路径之间分配生成工作量：个性化分支和非个性化先验分支。

MoA 的设计目的是通过将注意力层固定在先验分支中来保留原始模型的先验性，同时通过个性化分支最好能够降低对生成过程的干预，该分支学会将主题嵌入到先验分支生成的布局和上下文中。一种新颖的路由机制可以管理各层像素在这些分支中的分布，从而优化个性化和通用内容创建的融合。

经过训练后，MoA 就能帮助创建高质量的个性化图像，这些图像包含多个主体，其构图和交互方式与原始模型生成的图像一样多样化。重要的是，MoA 增强了模型原有能力与新增强的个性化干预之间的区别，从而提供了一种以前没办法实现的更加独立的主体—语境控制。

目前，大型语言模型（LLMs）最擅长的是 “少样本上下文学习”（ICL）—— 即在推理时从上下文中提供的少数几个示例中学习，而不进行任何权重更新。新扩展的上下文窗口允许用数百或数千个案例来研究 ICL——多样本模式，从少样本到多样本，在各种生成性和判别性任务中观察到显著的性能提升。

然而，虽然多样本 ICL 前景广阔，但可能会受到人类生成示例可用数量的瓶颈制约。

为此，来自 Google DeepMind 的研究团队探索了两种新的设置：强化 ICL 和无监督 ICL。强化 ICL 使用模型生成的思维链理由来代替人类示例；无监督 ICL 则完全取消了提示中的理由，只用特定领域的问题来提示模型。他们发现，强化型和无监督型 ICL 在多轮推理，尤其是在复杂推理任务中都非常有效。

实验证明，与少样本学习不同，多样本学习在覆盖预训练偏差方面是有效的，并能学习具有数值输入的高维函数。他们的分析还揭示了下一个 token 预测损失作为下游 ICL 性能指标的局限性。

根据人类标注的偏好数据对语言模型（LMs）进行对齐，是获得基于 LM 的系统实用且性能好的的关键一步。

然而，多语言人类偏好数据很难大规模获取，因此将这一框架扩展到多种语言具有挑战性。

来自麻省理工大学和谷歌的研究团队评估了一种简单的零样本跨语言对齐方法，即在一种源语言的偏好数据上训练奖励模型，然后直接应用于其他目标语言。在总结和开放式对话生成方面，他们表明这种方法在包括人工评估在内的综合评估设置下始终是成功的，在多达 70% 的评估实例中，跨语言对齐模型比非对齐模型更受人类青睐。

此外，不同语言奖励模型有时会比同种语言奖励模型产生更好的对齐模型。他们还确定了在没有特定语言数据甚至监督微调时的最佳实践。

最近，随着大型语言模型（LLMs）被大范围的应用于长内容生成，对高效长序列推理支持的需求日益增长。

然而，为避免重复计算而存储的键值（KV）缓存已成为一个关键瓶颈，其大小随序列长度呈线性增长。由于 LLM 的自动递归特性，每生成一个 token 就会加载整个 KV 缓存，因此导致计算核心利用率低而延迟高。虽然已经提出了各种 KV 缓存压缩方法来缓解这一问题，但这一些方法都会导致生成质量下降。

来自卡内基梅隆大学和 Meta 的研究团队提出了一种可扩展至长序列生成的分层推测解码系统 TriForce。这种方法通过检索利用原始模型权重和动态稀疏 KV 缓存作为草稿模型，作为层次结构中的中间层，并由更小的模型进一步推测，由此减少其草稿延迟。

TriForce 不仅为 Llama2-7B-128K 带来了令人印象非常深刻的速度提升，在 A100 GPU 上实现了高达 2.31 倍的速度，而且还展示了在处理更长上下文时的可扩展性。在两个 RTX 4090 GPU 上的卸载设置中，TriForce 实现了 0.108s/token 的速度，仅为 A100 上自动回归基线速度的一半，而在优化的卸载系统上则达到了 7.78 倍。

新闻动态

产品中心

新闻动态

关于我们