火讯财经讯,Vitalik Buterin发文分享了其截至2026年4月的本地化、私有化大语言模型(LLM)部署方案,核心目标是以隐私、安全与自主可控为前提,尽量减少远程模型及外部服务接触个人数据的机会,并通过本地推理、文件本地存储及沙箱隔离等方式,降低数据泄露、模型越狱及恶意内容利用风险。
硬件方面,他测试了多款设备方案,包括搭载NVIDIA 5090 GPU的笔记本、AMD Ryzen AI Max Pro 128GB统一内存设备及DGX Spark等,并使用Qwen3.5 35B与122B模型开展本地推理测试。
性能数据上,NVIDIA 5090笔记本在35B模型下推理速度约为90 tokens/s,AMD方案约51 tokens/s,DGX Spark约60 tokens/s。Vitalik表示,他更倾向于基于高性能笔记本构建本地AI环境,同时采用llama-server、llama-swap及NixOS等工具搭建整体工作流。
26 分钟前