11月06日,星期一 02:15
火讯财经讯,据站长之家11月6日报道,AI初创公司TogetherAI发布RedPajamav2,这是一个包含30万亿token的数据集,旨在支持大型语言模型的研究和开发。研究人员从CommonCrawl和其他公开可用的网络数据中提取了原始文本数据,其中包括40多个质量注释和去重集群。他们计划扩展这些注释,以包括与常用LLM基准的比较、主题建模和分类注释等内容,以促进更深入的研究。据悉,RedPajamav2的数据集还经过最小处理,以保持尽可能多的原始数据,并让模型构建者在后续处理中进行过滤和重新加权。