956 天前

07月13日,星期四 12:45

GPT-4 模型架构泄露:包含 1.8 万亿参数、采用混合专家模型

火讯财经讯,据IT之家7月13日报道,外媒Semianalysis近日对OpenAI今年3月发布的GPT-4大模型进行了揭秘,其中包括GPT-4模型架构、训练和推理的基础设施、参数量、训练数据集、token数、成本、混合专家模型(MixtureofExperts)等具体的参数和信息。外媒表示,GPT-4在120层中总共包含了1.8万亿参数,而GPT-3只有约1750亿个参数。而为了保持合理的成本,OpenAI采用混合专家模型来进行构建。据悉,GPT-4使用了16个混合专家模型(mixtureofexperts),每个有1110亿个参数,每次前向传递路由经过两个专家模型。此外,它有550亿个共享注意力参数,使用了包含13万亿tokens的数据集训练,tokens不是唯一的,根据迭代次数计算为更多的tokens。GPT-4预训练阶段的上下文长度为8k,32k版本是对8k微调的结果,训练成本相当高,外媒表示,8xH100也无法以每秒33.33个Token的速度提供所需的密集参数模型,因此训练该模型需要导致极高的推理成本,以H100物理机每小时1美元计算,那么一次的训练成本就高达6300万美元(约4.51亿元人民币)。对此,OpenAI选择使用云端的A100GPU训练模型,将最终训练成本降至2150万美元(约1.54亿元人民币)左右,用稍微更长的时间,降低了训练成本。

0
0
  • Upbit将IoTeX(IOTX)列入交易警示项目

    火讯财经讯,2月23日消息,据官方消息,韩国加密交易所Upbit宣布将IoTeX(IOTX)列入交易警示项目。目前充值及提现通道已关闭,后续将仅恢复提现服务。

    23 分钟前

  • 央视网:美国可能于2月23日或24日对伊朗发动军事打击

    火讯财经讯,2月23日消息,据央视网微博报道,美国被曝已决定对伊朗发动军事打击,预计时间可能为2月23日或24日。俄罗斯卫星通讯社22日报道称,美媒援引美国中央情报局前情报人员的话指出,美国对伊朗展开军事行动的风险依然存在。与此同时,伊朗正全天候监控边境沿线的敌方动向。尽管美伊释放谈判信号,战争阴云仍未散去。 此外,美国海关与边境保护局表示,将于北京时间2月24日13:01停止根据《国际紧急经济权力法》征收关税。 此前消息,美伊谈判代表周四将在日内瓦会晤,或成避免军事冲突最后机会。

    1 小时前

  • 某巨鲸加码200万美元SOL 20倍杠杆多头仓位

    火讯财经讯,2月23日消息,据OnchainLens监测,巨鲸地址“0x4A2”向HyperLiquid平台存入200万美元USDC,并加码其SOL20倍杠杆多头仓位,同时仍有未成交订单以进一步增加仓位。此外,该巨鲸还持有价值1114万美元的ETH20倍杠杆多头仓位。

    1 小时前

  • 某交易员高杠杆做多金银并做空加密市场,浮盈117万美元

    火讯财经讯,2月23日消息,据Lookonchain监测,交易员地址0x7c93使用最高杠杆做多黄金和白银,同时做空整个加密市场。目前,其未实现利润已超过117万美元。

    2 小时前

  • Bybit推出USDC活动,奖池达80万USDC

    火讯财经讯,2月23日消息,Bybit日前推出USDC超能出击活动,总奖池高达800,000USDC,其中USDC储蓄产品年化收益率固定为6%。活动现正在进行中,并将于UTC时间3月6日晚上11:59结束。参与用户交易金额达到500或以上USDC即可瓜分280,000USDC奖池。此外,用户可选购固定收益储蓄,最高质押额达100,000USDC,即可获得6%固定年化收益率加浮动年化收益率(当前浮动收益率达41%)。该活动需要登记,交易金额越高,可共享的奖池比例越大;用户所获年化收益率也随质押金额提高。

    2 小时前