09月05日,星期二 09:45
火讯财经讯,据品玩9月5日报道,NousResearch联手EleutherAI实验室以及瑞士日内瓦大学的研究者发表论文,公布了一项名为YaRN的方法,可扩展大模型上下文窗口。论文显示,和传统方法相比,YaRN需要更少的标记和训练步骤。利用这种方法,LLaMA模型可以有效地利用和外推到比其原始预训练所允许的上下文长度更长的上下文,同时超过了过去窗口扩展的最新技术水平。据GitHub页面显示,使用YaRN进行微调的LLaMA27B/13B上下文窗口分别可达到64k和128k。