08月23日,星期三 10:00
火讯财经讯,据TheDecoder报道,艾伦人工智能研究所(AllenInstituteforAI,简称AI2)发布包含各种网络内容、科学出版物、代码和书籍的三万亿个token的开源数据集Dolma,是迄今为止最大的公开数据集。Dolma是开放语言模型(OLMo)的基础。OLMo是AI2目前正在开发的语言模型,计划于2024年初发布,目标是成为“最佳开放语言模型”。Dolma的第一个版本主要限于英文文本,开发人员和研究人员现可以通过HuggingFace访问该数据集。