JanLeike:OpenAI将如何在4年内实现超级对齐?

转载
444 天前
8195
AI之势

文章转载来源:AI之势

作者:Daniel Filan@AXRP

来源:海外独角兽

推荐人:Cage 编译:wenli、彦希 排版:Mengxi,Scout

OpenAI 在上个月初公布了自己的“超级对齐(Superalignment)” 计划,同时宣布将一次性拿出总算力中的 20% 投入到这个新方向中。OpenAI 的联创和首席科学家 Ilya Sutskever 和原对齐团队负责人Jan Leike 将共同领导这个新项目,目标是在 4 年时间内解决超级智能对齐的核心技术挑战,以保证人类对超级智能的可控。

为了实现这一点,OpenAI 需要先训练一个“和人类水平齐平的自动化对齐器”, 再借由这个“自动对齐器”来实现和超级智能的对齐,根据  Introducing Superalignment  这篇文章,“自动对齐器”的设计中还涉及到实现让 AI 评估并监督 AI、基于可解释性对系统进行安全性验证、以及利用未对齐模型对系统进行扰动测试等。

本文为 Jan Leike 的访谈编译,是 Jan Leike 对于 OpenAI 要如何实现“超级对齐”的更为详细的技术思考。

以下为本文目录,建议结合要点进行针对性阅读。