10月24日,星期二 09:45
火讯财经讯,据品玩10月24日报道,Arxiv页面显示,一支由来自新加坡科技设计大学、微软研究院和清华大学的研究者所组成的研究团队今日发布了一款名为Tuna的提起有方法,让模型可以使用大语言模型的反馈进行指令调整。研究团队使用其新颖的概率排名和上下文排名方法来微调指令调整后的LLM,以增加生成更好响应的可能性。概率排名使指令调整后的模型可以从高阶大模型处继承高质量和低质量响应的相对排名。另一方面,使用上下文排名学习允许模型使用更强大模型的上下文理解能力来精炼其自己的响应分布。据研究团队表示,Tuna在SuperNaturalInstructions(119个测试任务)、LMentry(25个测试任务)、VicunaQA等任务上均表现出色。