3万亿训练数据，可商用，媲美Llama2！阿里云开源通义千问14B

转载

878 天前

4449

AIcore

文章转载来源：AIcore

原文来源：AIGC开放社区

图片来源：由无界 AI‌ 生成

阿里云官宣开源Qwen-14B和Qwen-14B-Chat模型，通过文本问答方式可自动生成文本/代码、总结文本摘要、翻译、分析代码等。

据悉，Qwen-14B是在3万亿token高质量数据上进行稳定的预训练，允许商业化，最大支持8k的上下文窗口长度，在多个权威评测中超越同等规模模型，部分指标媲美Llama2-70B。

前不久，阿里云曾开源了Qwen-7B系列模型，仅一个多月的时间下载量就突破100万，成为最强中文开源大模型之一。而此次的Qwen-14B在训练数据、参数等全面增强，帮助企业、个人开发者打造专属生成式AI助手。

魔搭地址：https://www.modelscope.cn/models/qwen/Qwen-14B-Chat/summary

https://www.modelscope.cn/models/qwen/Qwen-14B/summary

HuggingFace地址：https://huggingface.co/Qwen/Qwen-14B

https://huggingface.co/Qwen/Qwen-14B-Chat

Github地址：https://github.com/QwenLM/Qwen

免费在线体验：https://modelscope.cn/studios/qwen/Qwen-14B-Chat-Demo/summary

论文：https://qianwen-res.oss-cn-beijing.aliyuncs.com/QWEN_TECHNICAL_REPORT.pdf

通义千问-14B技术亮点

高质量训练数据：通义千问-14使用超过3万亿tokens的数据进行预训练，包含高质量中、英、多语言、代码、数学等，涵盖通用及专业领域的训练语料。同时通过大量对比实验的方式，对预训练语料分布进行了优化。

性能强大：Qwen-14B在多个中英文下游评测任务上，涵盖常识推理、代码、数学、翻译等，效果显著超越同等规模的开源模型，甚至在部分指标上相比更大尺寸模型也有较强竞争力。

词表覆盖更全面：相比目前以中英词表为主的开源模型，Qwen-14B使用了约15万大小的词表。该词表对多语言更加友好，方便用户在不扩展词表的情况下对部分语种进行能力增强和扩展。

性能评测

Qwen-14B选取了MMLU、C-Eval、GSM8K、MATH、HumanEval、MBPP、BBH、CMMLU等目前较流行的评测平台，对模型的中英知识能力、翻译、数学推理、代码等能力进行综合评测。

Qwen-14B在所有评测平台的测试中，均取得了同级别开源模型中的最优表现。

此外，阿里云提供了评测脚本（https://github.com/QwenLM/Qwen/tree/main/eval），方便大家复现模型效果。注意：由于硬件和框架造成的舍入误差，复现结果如有小幅波动属于正常现象。

Qwen-14B模型技术细节

在位置编码、FFN激活函数和normalization的实现方式上，阿里云采用了目前最流行的做法，即RoPE相对位置编码、SwiGLU激活函数、RMSNorm（可选安装flash-attention加速）。

在分词器方面，相比目前主流开源模型以中英词表为主，Qwen-14B使用了超过15万token大小的词表。

该词表在GPT-4使用的BPE词表cl100k_base基础上，对中文、多语言进行了优化，在对中、英、代码数据的高效编解码的基础上，对部分多语言更加友好，方便用户在不扩展词表的情况下对部分语种进行能力增强。词表对数字按单个数字位切分。调用较为高效的tiktoken分词库进行分词。

阿里云从部分语种各随机抽取100万个文档语料，以对比不同模型的编码压缩率（以支持100语种的XLM-R为基准值1，越低越好）。

可以看到Qwen-14B在保持中英代码高效解码的前提下，对部分使用人群较多的语种（泰语th、希伯来语he、阿拉伯语ar、韩语ko、越南语vi、日语ja、土耳其语tr、印尼语id、波兰语pl、俄语ru、荷兰语nl、葡萄牙语pt、意大利语it、德语de、西班牙语es、法语fr等）上也实现了较高的压缩率，使得模型在这些语种上也具备较强的可扩展性和较高的训练和推理效率。

在预训练数据方面，Qwen-14B模型一方面利用了部分开源通用语料，另一方面也积累了海量全网语料以及高质量文本内容，去重及过滤后的语料超过3T tokens。囊括全网文本、百科、书籍、代码、数学及各个领域垂类。

关键词：

来源：AIcore

发布人：暖色

声明：该文观点仅代表作者本人，不代表火讯财经立场。火讯财经系信息发布平台，仅提供信息存储空间服务。

如文章涉及侵权，请及时致函告之，本站将第⼀时间删除⽂章。邮箱：840034348@qq.com

上一篇：VC：想要GPU吗？快来拿我的钱！

下一篇：AI时代的“稀缺资产”？高盛：HALO--重资产、不过时

3万亿训练数据，可商用，媲美Llama2！阿里云开源通义千问14B

通义千问-14B技术亮点

Qwen-14B模型技术细节

17903篇

119133884

新闻排行

比特币带头大哥的镰刀：股价暴跌99%后反向收购，一场设计好的纳斯达克收割

香港见闻录：一级已死，Agency当道，KOL身兼数职，做市商仍旧C位

托管、OTC与门槛下调：香港正在为哪类资产搭建“机构级入口”？

解读ai.com：除了天价域名和发币预期，它还带来了什么？

合规是地下经济的成人礼

数据资产首次在国家法律层面明确界定！《国有资产法（草案）》或将激活30万亿元要素市场

引爆RWA的关键拼图：香港2026年稳定币牌照落地，托管与OTC监管紧随其后

十分钟售罄的“碳资产”：国内首款碳信用数字资产是破冰，还是泡沫？

友情链接：