a16z「门徒」Kuzco实操指南二:从单兵作战到集群部署

转载
16 天前
3305
Techub News

文章转载来源: Techub News

撰文:J1N,Techub News

引言:Epoch One to Two

Kuzco是一个专门服务 LLM 大语言模型算力挖矿网络,今年入选a16z 于 9 月 9 日在纽约启动的 Crypto Startup Accelerator(CSX)秋季加速器计划,被该计划选中的项目会能获得 a16z 至少 50 万美元的投资,并会得到 a16z 运营团队的指导和支持。目前该加速器计划已结束。

11 月 16 日, Kuzco宣布,第一期(Epoch One)激励计划将于 2024 年 11 月 18 日结束,所有操作将暂停,数据快照将永久存储,最终积分排名会公布在新排行榜上。

官方披露,Epoch One 从 2024 年 3 月 6 日推出,峰值设备数量超过 8000 台,该网络上运行Meta 发布的 8B 规格的 Llama-3 AI 大语言模型,共计推理超过 1 万亿条 tokens。

并宣布在接下来的数周内公布融资信息和项目发展路线图,以及第二期(Epoch Two)激励计划将于 12 月 9 日开启, Epoch Two 将带来一些新特性,如更高的 NVIDIA 硬件的吞吐量与可靠性;鼓励用户接入顶尖算力设备如 A100 和 H100;支持更多的图像生成和多模态语言模型 VLM。

目前离 Epoch Two 开启还有半个月的准备时间,本文将探讨:

  • 分享个人挖矿的实践与成果,从单机到集群的转变。

  • 展示通过研究和实践获取融资,并搭建高规格机器的全过程。

  • 探讨硬件配置与项目需求的匹配性,并解答投资者常见疑问。

Epoch One 回顾:单兵作战

配置

笔者的配置清单包括 RTX 系列显卡 2060、2070S、3080、4060、4060Ti,以及 4 张 4070S 和 2 台苹果 M2、M3 设备。这些设备分布在几台主机、笔记本电脑以及一台专用矿机上。

成本

值得一提的是,这些显卡原本就是笔者以往每年按游戏需求购置的,并非专为挖矿购买。因此,计算成本时并未将硬件购置费用计入,仅统计矿机的实际电费成本。这里拿第一篇《a16z「门徒」Kuzco 实操指南:如何高效地进行 AI 算力挖矿?》组装的矿机举例。

该矿机配置:

  • 主板:z490(后续换工业板)

  • CPU:10 代 I9

  • 显卡:2060、2070s、3080、4060ti、4070s

手搓矿机

下图为该矿机 10 月和 11 月消耗的电量,一共是 564 度,获得积分(KZO Point)约为 6 亿分。所有的机器加起来约为 11 亿分。具体的电费成本需要根据各位所在地的电费情况计算,这里仅提供参考。

图最右,共获得 10 亿积分

筹备 Epoch Two:集群部署

基于笔者在第一篇文章中的分享,以及亲身参与设备组装、调试和环境部署的丰富运维经验,笔者成功争取到一定资金支持,并将其全部投入用于组装高性能矿机,以进一步提升算力规模和运营效率。

单兵手搓到集群部署

高规格机器的配置与选择逻辑

结合笔者在 Epoch One 中的实践经验,对主板、CPU、显卡、电源、平台以及网络配置进行了全面优化,选择了更适配的硬件组合,不仅提升了整体运行的稳定性、安全性和效率,还在硬件选择上更注重二手市场的流通性。这一策略能够有效降低的实际投入成本,为后续参与者提供更高的性价比选择。

主板

笔者选择工业主板而非主流的 B85,主要基于性能、稳定性和性价比的综合考量。

性能方面,运行 Kuzco 的 Llama-3 模型需要启动多个 Docker 进程,而并行运行这些进程会占用大量 CPU 资源,对 CPU 的性能要求较高,而 B85 所兼容的 CPU 无法满足这一需求。

此外,工业主板在长时间稳定运行、耐高温性能以及厂家保修方面具备明显优势,同时在二手市场上的流通性更强,因此无疑是最优选择。

显卡

笔者选择使用 4070S 作为主力显卡,主要基于以下几点:

AI 运算性能的优势:相较于 30 系显卡,40 系显卡在 AI 运算中的性能提升远大于在游戏性能上的提升。其核心原因在于 AI 算力主要依赖显卡的 CUDA 核心数量,而 40 系显卡的 CUDA 核心显著多于 30 系显卡。

能效比优势:笔者对多款 GPU 进行了详细测试,计算了每条 Tokens 的平均功耗

  • 4060Ti(160W):0.125 Tokens/W

  • 3080(330W):0.22 Tokens/W

  • 4090(450W):0.26 Tokens/W

  • 4070S(220W):0.38 Tokens/W

从测试结果来看,4070S 在性能与功耗的平衡上表现最佳,其更高的能效比直接降低了电费成本,使其成为性价比最高的选择。

二手市场的价格和流动性:作为中高端显卡,4070S 在二手市场具备较高的流动性和保值性,进一步降低了设备的持有成本,同时为后续的硬件升级提供了灵活性。

CPU

如前文所述,Kuzco 的 Llama-3 在运行时需要启动多个 Docker,这对 CPU 资源的占用极为显著,尤其是在多卡运行的情况下,CPU 占用率可能高达 80%-90%。因此,多核多线程的处理能力显得尤为重要。高性能、多线程、稳定的 CPU 不仅能够有效支持多任务运行,还能保证整个挖矿过程的稳定性和效率。

13 代 i5 满载跑显卡能去到 70%+ 占用率

  1. 网络环境

软路由为图中方块盒子

网络环境在挖矿中同样至关重要,即使配置了高性能显卡,如果网络未优化,算力也会受到严重影响。根据笔者实测,网速不足可能导致算力下降至 30%,而低质量的网络节点则可能直接导致无法连接至 Kuzco 网络,这两点对挖矿而言都是不可接受的。为了解决这些问题,笔者采用软路由方案,这种方式不仅便于配置,而且在完成设置后几乎无需人工干预即可高效运行,理论上还能够支持无限台设备的接入。至于具体的操作方式,建议读者根据需求自行查阅相关资料。

电源

经典长城 2000w 核弹电源

在选择电源时需要特别注意峰值功耗的问题,这也是为什么即使 7 张 4070S 的额定功耗仅为 1540W,笔者仍然选择使用双 2000W 电源,总功率达到 4000W。这并不是在浪费资源,而是出于对设备运行稳定性和安全性的考虑。

显卡在运行中会出现峰值功耗,即在某些瞬间其实际功耗可能达到额定功耗的 1.5 倍甚至更多,随后再回落到正常水平。如果电源功率不足以应对这种峰值,可能触发电源的强制停机机制,甚至导致显卡损坏。这对矿机的正常运行是致命的威胁。

4070s 运行功耗表现

以 4070S 为例,虽然其额定功耗为 220W,但峰值功耗可能超过 400W。7 张显卡的峰值功耗合计可能达到 3000W 以上,因此配置双 2000W 电源是为了保证机器的稳定运行。对于配置多张 4090 的用户尤其需要注意,单张 4090 的额定功耗为 450W,而峰值功耗可能高达 770W。多卡情况下,仅靠两个电源可能无法满足需求,此时通常需要三台电源来确保系统稳定。

4090 运行功耗表现

补充

至于 BIOS 设置、硬件兼容性以及远程管理等问题,笔者在此不作过多展开。这些内容在网上已有大量免费教程供参考,按照教程操作即可解决大多数问题。建议根据自己的硬件配置和需求进行针对性查阅和处理,简单高效。

风险与收益

回答大家最关心的问题:每天能挖多少钱?坦率地说,这个问题没有明确的答案,因为风险与收益始终是并存的。我可以分享一个明确的观点:无论是币圈还是传统行业,任何一个项目如果能够精确计算出每天的收益,那么你进去很可能已经赚不到大钱了。除非你拥有某些垄断性资源,例如极低的电费成本或非常便宜的矿机设备,这样才能在收益上占据优势。然而,这样的资源并非每个人都具备。

笔者选择流动性好的设备,正是为了降低投资风险和成本压力。以 Kuzco 挖矿为例,成本主要集中在硬件的折旧和电费上,因此你的最大亏损也仅限于这些固定成本。如果不是在低成本的前提下参与,那么任何投资决策都失去了意义。需要强调的是,挖头矿的特性决定了没有明确的收益预期,但这也正是头矿的潜力所在。

从主观判断来看,这个赛道有着巨大的市场前景:一方面,Kuzco 获得了 a16z 的投资支持;另一方面,LLM 大型语言模型的需求正在快速扩大。想想看,几乎没有人会不用 LLM 吧?像 OpenAI 的 ChatGPT、Meta 的 Llama、以及马斯克的 XAI,这些平台一轮接一轮的高额融资,清晰地表明了这个行业的增长潜力。

对于普通人来说,直接参与 AI 行业并非易事。一方面,AI 技术门槛高;另一方面,AI 模型的训练需要耗费巨量的资源和经费,绝大多数人难以承受这样的成本。而通过 Kuzco 加入 AI 算力网络,普通人可以在成本可控的前提下,轻松参与这个高增长领域,为 AI 算力贡献一份力,同时获得收益。

另外,比特币价格目前即将突破 10 万美元,从 2022 年的 1.6 万美元涨到如今的高点,其背后存在巨大的回撤风险。如果选择直接购买 AI 项目的代币,也会面临类似的高波动风险。相比之下,参与 AI 算力网络是一种更加稳健的选择:不仅成本明确可控,还能以相对低的风险切入 AI 行业的高速增长轨道。这是当前环境下,普通人进入 AI 领域实际可行的方式之一。