07月18日,星期二 04:00
火讯财经讯,据量子位报道,来自微软亚洲研究院(MSRA)的学者在“RetentiveNetwork:ASuccessortoTransformerforLargeLanguageModels”论文中提出新的大模型架构RetentiveNetwork(RetNet),这被视作大模型领域Transformer的继任者。实验数据显示,在语言建模任务上:RetNet可以达到与Transformer相当的困惑度(perplexity),推理速度达8.4倍,内存占用减少70%,具有良好的扩展性。并且当模型大小大于一定规模时,RetNet表现会优于Transformer。