475 天前

02月18日,星期二 10:00

DeepSeek发布《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》论文

火讯财经讯,2月18日消息,DeepSeek团队近日发布了一篇题为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》的技术论文,介绍了他们提出的NSA(NativelySparseAttention)机制。NSA结合了算法创新和硬件优化,旨在实现高效的长文本建模。其核心创新包括: 1.动态分层稀疏策略,结合粗粒度的令牌压缩与细粒度的令牌选择,以保留全局上下文信息和局部精度; 2.通过平衡算术强度的算法设计和现代硬件优化,显著加速计算; 3.支持端到端训练,减少预训练计算成本,同时保持模型性能。 实验结果表明,NSA在长文本任务和指令推理等领域表现优异,尤其在64k长度的序列处理中,实现了解码、前向传播和反向传播的显著加速。

1
0
  • 数据:H 链上价格跌至 0.003 美元,与 Binance 合约价差达 20 倍

    火讯财经讯,链上分析师监测到某代币链上价格持续下跌至0.003美元,已接近归零。当前该代币合约与现货价差显著,Binance永续合约报价为0.06美元,与链上价格相差20倍。

    8 分钟前

  • 慢雾:Asterix 攻击与 Flooring Protocol、BMP 的类似,攻击者在找漏洞共性

    火讯财经讯,慢雾创始人余弦指出,Asterix遭遇的攻击与Flooring Protocol、BMP的攻击逻辑类似,均涉及高位NFT ID位移操作溢出复用,攻击者正寻找漏洞共性。Asterix此前披露,其Uniswap v4流动性池6月8日遭攻击,攻击者通过242笔交易盗取约30枚ETH,漏洞源于DN404早期版本未限制批准操作的代币ID,攻击者利用过时代币批准循环操作耗尽资金。智能合约不可变无法修补,团队建议用户停止交互,正规划迁移部署安全代币,怀疑攻击者使用越狱版AI工具做模糊测试发现非常规逻辑路径。

    20 分钟前

  • SuperEx 于 6 月 9 日上线 PANW、AXTI 等多个股票 U 本位永续合约

    火讯财经讯,加密交易平台SuperEx宣布于北京时间6月9日11:00正式上线PANWUSDT、AXTIUSDT、CRDOUSDT、IRENUSDT及QNTXUSDT股票U本位永续合约交易对,上述交易对支持全仓、逐仓及分仓模式,用户可通过平台Web端及APP端参与交易。

    20 分钟前

  • RootData:VANA 将于一周后解锁价值约 279 万美元的代币

    火讯财经讯,据Web3资产数据平台代币解锁数据,vana(VANA)将于北京时间6月16日19时解锁约257万枚代币,价值约279万美元。

    25 分钟前

  • RootData:ROLL 将于一周后解锁价值约 308 万美元的代币

    火讯财经讯,Web3资产数据平台RootData代币解锁数据显示,RollX(ROLL)将于北京时间6月16日11时解锁约3333万枚代币,价值约308万美元。

    25 分钟前