10月19日,星期四 10:15
火讯财经讯,据品玩10月19日报道,Arxiv页面显示,微软研究院联手中国科学院大学、清华大学共同发布论文,公布了一款可扩展且稳定的1位Transformer架构BitNet架构。BitNet专为大语言模型设计。研究团队表示,为了训练1位权重,团队引入了BitLinear作为nn.Linear层的替代品。实验结果显示,BitNet在语言建模任务上实现了竞争力的性能,同时显著减少了内存占用和能源消耗。此外,BitNet呈现出与全精度Transformer类似的扩展定律,表明它有潜力在保持效率和性能优势的同时,扩展到更大的语言模型。