10月08日,星期天 11:45
火讯财经讯,据MarkTechPost10月7日报道,MetaAI研究人员提出了一种构建长语境LLM的方法,这种方法优于所有现有的开源模型。该方法围绕LLAMA2检查点进行持续的预训练,并利用额外的4000亿个token形成广泛的训练序列。这些序列旨在捕捉长语境理解的本质。此外,这项工作提供了一系列模型变体,包括使用32,768个token序列训练的较小的7B/13B模型和使用16,384个token序列训练的较大的34B/70B模型。与研究基准上的LLAMA2相比,该方法在长语境任务中取得了显著改进,而在标准短语境任务中则略有提高。这些改进在编码、数学问题解决和知识相关任务中尤为明显。此外,该团队还探索了一种简单而经济高效的程序,用于在没有人类标注数据的情况下对持续预训练的长模型进行指令微调。结果是,在一系列长语境基准测试中,聊天模型的性能超过了gpt-3.5-turbo-16k模型。