免息配资马斯克说这就是kimi 点赞中国AI技术论文

科技博主Avi Chawla在X上发了一条长帖，详细拆解了月之暗面Kimi团队刚刚发布的一篇技术报告。帖子发出后不久，马斯克回复说：“月之暗面做出了令人印象深刻的结果”。马斯克在AI领域的表态向来以挑剔著称，甚至曾批评过Anthropic和OpenAI。他自己的xAI最近也在经历大规模重组，多位华人联合创始人离职，Grok的表现也不尽如人意。然而，在这个关键时刻，他对一家中国AI公司的技术论文表示认可，确实出人意料。

马斯克说这就是kimi

被马斯克点赞的这篇论文实际上是一篇纯粹的技术论文，它提出了一种新的方式，试图替换掉Transformer架构里一个自2015年以来几乎没人动过的基础组件。尽管普通用户可能不会直接感受到这篇论文的影响，但它触及了整个深度学习的基石。

马斯克说这就是kimi 点赞中国AI技术论文

要理解这篇论文的内容，需要了解现代大语言模型，无论是GPT、Claude还是国内的一些模型，其底层架构都是Transformer。Transformer之所以能训练到几十层甚至上百层而不崩溃，是因为“残差连接”机制在起作用。残差连接的原理是每一层网络在做完计算后，将自己的输出和输入加在一起传到下一层，这样梯度在反向传播时可以直达底层，不会因为层数太深而消失。但这种“加法”是完全平等的，导致早期层的信息逐渐被稀释，后期层的信息变得不稳定，这就是所谓的“PreNorm稀释”。

马斯克说这就是kimi 点赞中国AI技术论文

Kimi团队注意到这个问题，并提出了一种新的方法——全注意力残差。具体做法是给每一层赋予一个可学习的查询向量，这个向量会对之前所有层的输出做一次注意力计算，产生一组归一化的权重。当前层的输入不再是之前所有层输出的简单求和，而是按照这组权重的加权组合。然而，全注意力残差在实际应用中存在内存和通信开销问题，因此他们又提出了块注意力残差，将所有层分成若干个块，每个块内部使用传统的残差连接，块与块之间使用注意力机制选择性聚合。这样只需要存储和传输每个块的汇总表示，大大降低了内存占用。

马斯克说这就是kimi 点赞中国AI技术论文

Kimi团队还进行了一系列实验，验证了这一改进在不同模型规模下的有效性。结果显示，注意力在所有计算预算下都优于基线，效果相当于用1.25倍的计算量训练出的基线模型。此外，他们在自己的大模型上进行了实战验证，结果表明块注意力残差确实缓解了PreNorm稀释问题，各层输出的幅度保持在一个相对稳定的范围内，梯度分布也更加均匀。

马斯克说这就是kimi 点赞中国AI技术论文

月之暗面正处于上市的关键时期，近期完成了多轮融资，估值迅速增长。然而，融资顺利并不意味着没有争议。OpenClaw创始人彼得·斯坦伯格公开质疑月之暗面的Kimi Claw产品，认为其云端部署模式违背了OpenClaw的设计理念，存在安全和隐私风险。斯坦伯格的质疑在社区中产生了影响，一些用户表示暂时不会使用该产品。

尽管如此，马斯克的那条回复为月之暗面带来了正面影响。虽然这两件事看似无关，但在舆论场上，它们会被放在一起解读。马斯克的认可对正在进行新一轮融资的月之暗面来说时机极佳，引发了更多人关注这篇论文。一个十一年没人碰过的组件被重新打开免息配资，接下来会发生什么，谁也不知道。

汇盈配资提示：文章来自网络，不代表本站观点。