Anthropic创始人:可以给大模型「照X光」,AGI2-3年可实现

转载
455 天前
4267
极客公园

文章转载来源:极客公园

本文编译自 Anthropic CEO Dario Amodei 的一期播客访谈。

Anthropic 是 LLM 赛道排名第二的公司,由 Dario Amodei 创立于 2021 年 1 月,今年 7 月,Anthropic 推出了最新一代模型 Claude 2。Dario Amodei 曾在 OpenAI 担任研究和安全副总裁,之所以创立 Anthropic 是因为他认为大模型中有很多安全问题亟需得到解决,因此 Anthropic 相当重视 AI Safety,愿景是构建可靠的(Reliable)、可解释的(Interpretable)和可操控的(Steerable)AI 系统。Anthropic 和 OpenAI 路线上最大的差异也在于他们对可解释性的关注。

在访谈中,Dario 解释了 Anthropic 在可解释性上的关注和投入。可解释性是保证模型安全的重要途径之一,类似于给模型照 X 光、做 MRI 检查,让研究人员有可能了解模型内部在发生什么、识别风险的可能来源。要真正理解 Scaling Law 为什么会起作用、以及如何实现 alignment 都离不开可解释性。Dario 认为,AI Safety 和 alignment 同等重要,一旦 alignment 出现问题,就应该以同样高度重视滥用带来的 AI 安全问题。

Dario 相信,模型在未来 2-3 年内的能力会有显著提升,甚至可能会「接管人类社会」,但还不能真正参与到商业经济环节中,这并不是模型能力的原因,而是因为各种隐形摩擦人们在现实生活和工作中使用模型的效率并不高,无法发挥模型的真正潜力。

和大部分 AI 公司的 CEO 相比,Dario 几乎不参加公开访谈、也很少在 Twitter 上发表观点,Dario 解释说这是自己的主动选择,通过保持低调来保护自己独立客观思考问题的能力。

以下为本文目录,建议结合要点进行针对性阅读。