01月13日,星期六 02:30
火讯财经讯,据量子位报道,北京深度求索公司推出首个国产开源MoE大模型DeepSeekMoE,性能媲美Llama2-7B,计算量降低60%。DeepSeekMoE目前推出的版本参数量为160亿,实际激活参数量大约是28亿。此外,深度求索团队还透露,DeepSeekMoE模型还有145B版本正在研发。阶段性的初步试验显示,145B的DeepSeekMoE对GShard137B具有极大的领先优势,同时能够以28.5%的计算量达到与密集版DeepSeek67B模型相当的性能。