07月13日,星期四 12:45
火讯财经讯,据IT之家7月13日报道,外媒Semianalysis近日对OpenAI今年3月发布的GPT-4大模型进行了揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息。外媒表示,GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。而为了保持合理的成本,OpenAI采用混合专家模型来进行构建。据悉,GPT-4使用了16个混合专家模型(mixtureofexperts),每个有1110亿个参数,每次前向传递路由经过两个专家模型。此外,它有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高,外媒表示,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。对此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。