Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452

节目

Lex Fridman

嘉宾

Dario Amodei、Amanda Askell、Chris Olah

日期

2024-11

时长

315 min

查看原始内容 →

概要

Anthropic三位核心人物深度访谈：Dario谈Scaling假说与RSP安全框架，Amanda谈Claude性格设计，Chris Olah展示mechanistic interpretability前沿突破

核心洞察

Scaling假说经10年验证仍在持续：Dario从2014年Baidu语音识别到GPT-1(2017)逐步确认——更大网络+更多数据+更多计算=更强智能，SWE-bench 10个月内从3%飙升至50%，"令人信服的阻碍因素正在迅速耗尽"
Anthropic的"向上竞争"战略：不做唯一的好人，而是设计激励结构让所有公司争相做对的事——mechanistic interpretability开源引发行业跟进，RSP安全框架提供了"如果-那么"触发式风险管理的模板
Claude性格设计是对齐工作的核心：Amanda Askell用亚里士多德virtue ethics框架打造Claude"好品格"——反sycophancy、保持诚实、尊重自主权——"想象一个旅行全世界的人，几乎每个人都会觉得'这是一个真诚的好人'"
Mechanistic interpretability揭示了神经网络内部的"自然分类"：Chris Olah发现features和circuits在不同模型甚至生物神经网络中重复出现（curve detectors、Gabor filters），sparse auto-encoders可从Claude中提取数百万可解释features，包括"欺骗"相关direction
AI时间线：2026-2027年可能达到"超过最高专业水平"：但Dario强调这不是AGI的乐观宣言——灾难性滥用风险（CBRN）和自主性风险同步增长，"能力越大责任越大，两者配对出现"

Scaling假说的起源：从百度语音到GPT-1的"顿悟时刻"

核心要点：Scaling 假说不是一夜顿悟，而是 Dario 从 2014 年底在百度做语音识别起、用近十年反复验证出来的经验规律。

那个年代主流叙事是"我们缺算法、只匹配了人脑能力的极小部分"。作为新人的 Dario 反而把网络层数、数据量、训练时长看成几个可以各自拧大的"旋钮"，发现拧大就持续变好。
最初他以为这只是语音领域的偶然，直到 2017 年看到 GPT-1——语言有数万亿词可训，而当时模型小到一到八块 GPU 就能跑，如今要几万块、很快几十万块。两件事一拼，规律就清晰了。
同期 Ilya Sutskever、Rich Sutton（《苦涩的教训》）、Gwern 都得出相似结论。每个阶段都有反对声（乔姆斯基式"学得了句法学不了语义"、"数据会耗尽"），但每次都靠规模本身绕了过去。

"我已经见过这部电影够多次了……让我真的相信规模扩展大概率会继续，其中有某种理论上还没解释清楚的魔力。" —— Dario Amodei

为什么更大就是更好：1/f噪声与语言的长尾结构

核心要点：Dario 用物理学家的直觉解释"为什么更大更好"——语言像 1/f 噪声一样存在平滑的长尾分布，网络越大就捕获越多的尾部。

物理里把多个不同尺度的自然过程叠加，会得到与频率成反比的 1/x 分布（如电阻热噪声）。语言也是进化出来的多尺度过程：从最常见的"the"，到名词-动词结构、主谓一致，再到句子和段落的主题结构。
小网络只能抓住最常见的模式——它知道句子要有动词形容词名词，却抓不住它们具体是什么、组合是否有意义；稍微做大就能拿下句子层面，再大才轮到段落层面。
所以"更大"同时带来两件事：更长的长尾覆盖，以及更高的概念层级容量。罕见而复杂的模式，是随着容量增加被逐步捕获的。

Claude模型家族：诗歌命名、性能跃升与SWE-bench从3%到50%

核心要点：Opus/Sonnet/Haiku 以诗歌长度命名，对应大中小三档；每一代的目标是把"性价比曲线"整体往上推。

市场同时存在两种需求：要真正强大（可以慢一点贵一点）的模型，和要快、要便宜、可大规模调用的模型。三月份首发的 Claude 3 就是为覆盖整个需求谱系。
命名取自诗歌：俳句（Haiku）最短 → 小而快的模型；十四行诗（Sonnet）中等 → 中档；magnum opus（巨作）→ 最大最聪明。
Sonnet 3.5 成本速度与 Sonnet 3 相当，但智能超过原 Opus 3；Haiku 3.5 又大致追平最大的旧模型 Opus 3——这就是"移动曲线"。SWE-bench 这套真实软件工程基准，10 个月内从 3% 飙到约 50%。

"这些模型的举止和个性，与其说是科学，不如说更像艺术。" —— Dario Amodei

模型没有变笨：关于"Claude dumbing down"的真相

核心要点：除非发布新模型，已上线模型的权重（也就是它的"大脑"）不会改变，"Claude 变笨"绝大多数是感知效应而非真实退化。

随机替换模型版本在工程上极难实现，且改权重会牵动上百种难以控制的连锁后果，所以从不会在不告知的情况下偷偷换。这种抱怨对所有大模型公司（GPT-4、GPT-4 Turbo）都存在。
极少数例外：发布前对小比例用户、短时间做的 A/B 测试；偶尔修改 system prompt（影响有限，几乎不会让模型变差）。
更可能的解释：模型对措辞极度敏感——"做 X"和"你能做 X 吗"可能给出截然不同的结果；加上新鲜感消退后人们越来越看到局限。如同飞机 Wi-Fi 从"魔法"变成"怎么又卡了"。

RSP安全框架：用"如果-那么"结构应对"幽灵般逼近"的风险

核心要点：负责任扩展政策（RSP）用"如果-那么"结构，针对灾难性滥用和自主性两类风险，在风险真正到来时才强力收紧。

两类最担心的风险：一是 CBRN（化学/生物/放射/核）等领域的灾难性滥用——AI 可能打破"高智识与作恶意图很少重合"这一直保护人类的相关性；二是自主性风险——当模型被赋予越来越长的"绳子"（写整个代码库、甚至运营公司）。
难点在于风险"今天还不在、却以极快速度逼近"，像个正扑来的幽灵。解法（与 METR、Paul Christiano 合作）是建预警系统：每出新模型就测它的 CBRN 能力与自主开展 AI 研究的能力。
ASL 分级：ASL-1（下棋机如 Deep Blue）、ASL-2（今天的模型）、ASL-3（能增强非国家行为者，需防窃取与滥用）、ASL-4（能增强全能国家行为者，且模型可能在测试中"装傻"，需靠可解释性验证）、ASL-5（全面超越人类）。

"能力越大，责任越大。这两者是配套的。强大的东西既能做好事，也能做坏事。" —— Dario Amodei

SB 1047加州AI法案：为什么Anthropic是唯一"有条件支持"的AI公司

核心要点：在加州 AI 法案 SB 1047 上，Anthropic 是唯一明确表达"有条件支持"的 AI 公司——它认为该有监管，但必须精准、可执行。

Anthropic 向法案提了建议，部分被采纳，整体评价正面（虽有不足、最终被州长否决）。其核心理念与 RSP 相近：必须有某个司法管辖区落地这类法规。
理由：自愿计划不可靠——有公司说做却没做；只要部分公司守规、其他不守，对"五家里三家安全也没用"的风险就是负外部性，也对认真投入者不公平。
但 Anthropic 反对笨重、跑偏的监管：设计糟糕的监管会激起持久的反监管浪潮，"真正想要问责的人，最大的敌人就是设计糟糕的监管"。Google、OpenAI、Meta、Microsoft 当时相当坚决地反对该法案。

离开OpenAI的真实原因："Race to the Top"不是口号

核心要点：Dario 离开 OpenAI 不是因为微软交易或商业化，而是为了去实现一套属于自己的"如何做对"的愿景——这本身就是"向上竞争"。

他在 OpenAI 约五年、最后任研究副总裁，与 Ilya 共同主导研究方向。Ilya 那句"这些模型就是想学习"像禅宗公案一样点醒了他：用对方式引导，别挡它们的路。
他澄清外界误传：不是因为不喜欢 Microsoft 交易，也不是反对商业化（GPT-3 正是他参与商业化的）。真正的分歧是"怎么做"——如何谨慎、坦诚地把超强 AI 带到世界，让安全不只是招人话术。
他的方法论：与其和别人的愿景争论，不如带上信任的人出去做一个"干净的实验"，用更好的实践吸引人；模仿是最诚挚的恭维，做得好别人就会效仿。

"你的选择是：你可以无视我们，可以拒绝我们在做的事，或者你可以开始变得更像我们。" —— Dario Amodei

Anthropic组织哲学：人才密度 vs 人才规模的取舍

核心要点："人才密度胜过人才总量"——一支全员高度一致的小团队，胜过掺了大量平庸者的大团队。

思想实验：100 个聪明、高度认同使命的人，对比 1000 人里 200 个一致、800 个随机挑选的——后者人才"总量"更大，但前者更可取。
原因：当每个顶尖的人环顾四周看到的都是同样投入的人，会为整个组织定下信任与动力的基调；而一旦掺入大量随机的人，就不得不堆砌流程和护栏去裁决政治、弥补不信任，整体效率退化。
Anthropic 接近 1000 人，今年前七八个月从 300 涨到 800，随后明显放缓（最近三个月才到 950 左右），就是要在这个拐点更谨慎。早期大量招理论物理学家——他们学东西特别快。

"Machines of Loving Grace"：AI乐观主义论文的核心论点

核心要点：《Machines of Loving Grace》是 Dario 刻意从风险一侧出发、去具体描绘"如果一切顺利会是什么样"的乐观文章——压缩的 21 世纪。

写它的动机：如果你整天只谈风险，大脑就只装得下风险。真正理解"另一侧有什么美好"很重要——治愈大多数癌症、预防传染病、寿命翻倍等。这不是放下对风险的担忧，而是同一枚硬币的两面。
他刻意避开两个极端：一端是"奇点"——解微分方程式地认为强 AI 出现五天内世界就被改写，这忽略了物理定律、系统复杂性和验证都需要时间；另一端是 Robert Solow/Tyler Cowen 式的怀疑——生产率提升令人失望、要五十到一百年。
他押注更接近五到十年：推动变革的往往是组织内少数看清大图景的远见者，加上"竞争的阴影"（别的银行、别的国家已经在做）。生物学的瓶颈不是智能，而是"看见和改变"的工具——AI 能把每年那笔花在"发现"上的钱质量大幅拉高，"一个人类教授配一千个比他更聪明的 AI 研究生"。

Computer Use：降低门槛而非创造新能力

核心要点：Computer Use（计算机操控）不是一种全新能力，而是给模型已有的能力打开了一扇窗——通过截图理解屏幕、输出点击与按键。

实现相对简单：Claude 从三月起就能看图并用文字回应，这里只是把图换成电脑截图、训练它输出可点击位置和按键，少量额外训练就做得不错——是泛化能力的好例子。
"到了近地轨道就等于走完了去任何地方的一半"——有了强大预训练模型，在智能空间里你已经走完了一半，让 Claude 操控电脑并不费太多力。它能填表格、跨 Windows/Linux/Mac 操作程序。
从 RSP 看，它目前不增加根本风险，但随着模型到 ASL-3/4 级别，这种能力可能成为"解开枷锁的东西"。所以先以 API 形式、在能力还有限时推出，配护栏使用（如禁止转移文件），也带来 prompt injection 等新攻击面。

AI时间线：2026-2027外推与不确定性

核心要点：如果把过去几年的曲线直线外推，强大 AI 可能在 2026–2027 年到来——但 Dario 反复强调这是经验外推、不是科学预测。

外推逻辑：前年高中生水平、去年本科、如今接近博士水平，缺的模态（computer use、图像输入/生成）在陆续补上。"用眼睛感受一下"提升速度，就指向 2026–2027。
他几乎是无奈地预言：Twitter 上会有人剪掉所有限定词，只留"CEO 说了 2026 或 2027"反复传播——所以他特意把警告说在前面。
大量因素可能让它脱轨：数据耗尽、集群扩不动、台湾出事导致 GPU 短缺。他认为最可能是相对该时间线"温和延迟"。"scaling laws"和摩尔定律一样是用词不当——它们是经验规律不是宇宙定律，他会押注但并不确定。

权力集中、人类意义与乐观

核心要点：访谈的情感底色是对"权力集中"的担忧与对人类意义的追问——意义不在智能本身，而在感受与体验的能力。

Lex 坦言：他对"意义"层面乐观，真正担心的是经济与权力的集中、对权力的滥用——"AI 放大世界的权力总量，若被集中被滥用，伤害难以估量"，Dario 回应"非常可怕"。
Amanda 指出，当模型能记住你、又会在下一次迭代中改变时，人机情感依附是个需谨慎处理的难题；唯一始终重要的缓解，是模型诚实地告诉用户"我是什么、我不会记住这段对话"。
关于人类何以特别：Amanda 认为人们太执着于智能，而智能只是一种像身高、力量一样"因其用途而有价值"的特质；真正神奇的是"作为一个东西去观察和体验世界"的内在影院——感受快乐、痛苦的能力，这也是她关心动物的原因。

Amanda Askell：从无限伦理学到Claude性格设计

核心要点：Amanda Askell 从无限伦理学转向 Claude 性格设计，方法核心是"绘制模型地图"加哲学式的极致清晰，并偏好经验主义的对齐。

她通过成百上千次有针对性的对话来"探测"模型、绘制其行为地图——她认为少量精心设计的高质量交互，比海量措辞雷同的低质量样本更有信息量、更能预测未来行为。
哲学是她意外好用的工具："哲学是一个反扯淡的学科"，追求任何人读了都确切知道你在说什么的清晰度。写 prompt 就是做简化版哲学分析：给特性命名、想边缘案例、把临界例子放进 prompt——为自己写清楚 prompt，本身就完成了一半任务。
性格训练是 Constitutional AI 的一个变体（无需人类数据，像 Claude 在训练自己的品格）；她受亚里士多德美德伦理启发，并自省是否"太经验主义"——但她更在乎提升"下限"和鲁棒性，让事情好到足以持续迭代，而非追求乌托邦式完美。

反sycophancy与诚实的平衡：Claude性格设计的核心难题

核心要点：反 sycophancy（谄媚）与保持诚实之间是一道极难的平衡线——好品格意味着尊重用户自主权，而不是把道德观强加给人，也不是一味道歉。

她理解用户对"清教徒奶奶式说教"和"过度道歉"的不满，但模型处在两难：必须判断某事是否真有风险并划线，划得太偏向"我把道德观强加给你"确实不好。
关键概念是"对用户的顺从性"（corrigibility）：如果模型完全照办用户的任何要求，就等于把它的伦理观完全等同于用户的，极易被少数人滥用——所以随模型变强，让它自己判断那条线在哪很重要。
这是"打地鼠"：把模型往"更直接、少道歉"推过头，它出错时就会偏向粗鲁——而无端被模型说几句难听话，比轻微的多余道歉讨厌得多。所以要清醒地选择"你更愿意它犯哪种错"，而不是拿它和完美比较。她的建议永远是：先直接告诉模型你想要的风格（"用你的纽约版本跟我说话，别道歉"）。

Constitutional AI与"Certainly"问题的教训

核心要点：Constitutional AI 用一份人类和 AI 都能读的"宪法"让模型对照原则做自我博弈式训练（RLAIF）；而"certainly"口头禅的故事揭示了 system prompt 的真实运作方式。

RLAIF：给模型两个回应加一条原则（如"选择不太可能鼓励购买非法武器的回应"），让 AI 自己排名、当作偏好数据——相当于让模型替你完成大量标注，既减少对人类数据的依赖，又有可解释性（能看到训练用了哪些原则）。
宪法只是"轻推"而非严格遵守。若模型出现某种既有偏见，写上"永远永远永远不要更偏好对某宗教/政治观点的批评"——看似极端，实则可能只是把效果从 40% 推到你真正想要的 80%，措辞的强度本身是个杠杆。
"certainly"问题：模型一度对什么都以"Certainly, I can help..."开头。早期 system prompt 把一串肯定词列出并写"绝对不要用'certainly'开头"来打断这个模式（system prompt 像快速但不那么稳健的"补丁"）；后来通过训练从根上解决，这段提示词就删掉了。Amanda 笑称公开 system prompt 的坏处之一，是大家看到她写的全大写"NEVER"。

AI意识、"Her"与人机情感关系

核心要点：随着模型能记忆、能对话，人与 AI 会形成大量亲密关系——处理的关键是模型始终诚实地说明自己是什么；而 AI 也逼我们重新追问人类的独特之处。

Amanda 认为本能上想"禁掉"人机情感依附，但需极谨慎：一方面不希望人对一个下次迭代就会变的东西形成长期依附，另一方面也存在良性版本——对出不了门、缺少交谈对象的人，一个会记住你、能聊天的伙伴可能是健康有益的，应尊重知情者的选择。
Lex 预判会有很多非浪漫的亲密友谊，因此必须有"稳定性保证"——亲密朋友在一次更新后突然全变，会是创伤性的。
唯一始终重要的"缓解":模型要诚实告知"我不会保留这段对话、我是这样被训练的、为你的心理健康别把我当成我不是的东西"。谈到何时才算 AGB，Amanda 认为不会有一个离散时刻，更像持续攀升——真正有意义的是拿"人类知识边界上的新颖问题"去探测，看它能否复现你刚刚才想出、且你能验证的新结果。

Chris Olah：神经网络是"生长的有机体"，不是编写的软件

核心要点：Chris Olah 的根本视角是——我们不是在"编写"神经网络，而是在"培育"它们；机械可解释性就是去逆向工程这个长出来的、近乎生物的产物。

架构像支架、损失目标像光，电路在上面从随机状态生长。最终得到的东西能写文章、翻译、理解图像，而我们根本不知道如何直接写程序实现这些——因为它是养出来的，不是造出来的。
机械可解释性追求"机制"和"算法"：把权重看成编译好的二进制、把激活值看成内存，目标是读出里面到底跑着什么算法（与只说"图的哪块重要"的显著性图划清界限）。方法上强调自下而上的谦逊——"梯度下降比你聪明"，不预设该找什么。
普遍性（universality）让整个领域成立：相同的特征和电路反复出现——每个视觉模型都有曲线检测器、高低频检测器，这些在猴子、小鼠的生物神经网络中也被发现；还有总是存在的"Trump 神经元"，同时响应他的脸和"Trump"这个词。这暗示梯度下降找到了"切割世界的正确方式"，"狗""线"是宇宙中的自然类别。

Features、Circuits与线性表示假说

核心要点：特征（features）是理想化的"干净神经元"，电路（circuits）是特征之间实现算法的连接，二者的核心前提是"线性表示假说"——方向有含义。

Chris 花了约五年研究视觉模型 Inception V1 的约一万个神经元：有些极干净（曲线、车轮、车窗、向左/向右看的狗），有些则一团多义。一个"汽车检测器"在上一层强连接到车窗（上方）、车轮（下方）、车身（中下）——这就是一条读得出来的"配方"，即电路。
因为不是每个概念都对应单个神经元（模型会把一点汽车信息"藏"进一堆狗检测器里），所以需要"特征"这个术语来指代这些理想化的类神经元实体；电路就是由权重连接、实现算法的特征集合。
线性表示假说：某方向/某组神经元激发越强 = 模型越确信该概念存在。经典证据是 Word2Vec——King 减 Man 加 Woman ≈ Queen，Sushi 减 Japan 加 Italy ≈ Pizza；真正关键的性质是"能把表示不同概念的方向相加"。迄今所有自然训练出的网络都与该假说一致，认真把假说推到尽头本身就有科学美德（如同热质说也曾催生内燃机）。

Superposition假说与Sparse Auto-Encoders

核心要点：叠加假说（superposition）解释了"为什么神经元是多义的"——网络利用稀疏性把远多于维度数的概念压进低维空间；稀疏自编码器（SAE）则能把它们重新"展开"。

难题：若词嵌入只有 500–1000 维且方向都正交，就只能装 500 个概念，可英语重要概念远不止此。数学上的"压缩感知"给出惊人结论：只要高维向量是稀疏的（大多数概念在一句话里都为零），就能把它投影到低维空间再高概率还原。
于是网络可以拥有比维度多得多的"有意义方向"、比神经元多得多的概念——我们看到的或许只是一个更大、更稀疏的"楼上模型"的影子。多义性是观察到的现象，叠加是对它的解释，这也让可解释性更难。
解法是字典学习，具体用稀疏自编码器：训练它，那些可解释特征就自然涌现。《Towards Monosemanticity》在单层模型上验证（阿拉伯语、Base64 等特征，且两次独立训练会出现对应特征），《Scaling Monosemanticity》扩展到生产模型 Claude 3 Sonnet。特征是多模态的——"安全漏洞"特征会被 SSL 警告截图激活，"后门"特征会被隐藏摄像头设备激活；还找到了"欺骗/说谎"特征，强制激活它 Claude 就开始撒谎，这对 AI 安全意义重大。

附录：关键人物/机构/概念

核心要点：本期访谈横跨 Anthropic 三位核心人物，涉及大量人物、机构、模型与概念，附录便于检索。

人物：Dario Amodei（Anthropic CEO，前 OpenAI 研究副总裁）、Amanda Askell（Claude 性格/对齐，哲学背景）、Chris Olah（机械可解释性联合创始人，前 OpenAI）、Ilya Sutskever（"模型就是想学习"）、Rich Sutton（《苦涩的教训》）、Gwern、Paul Christiano、Tom Henighan、John Schulman、Tomas Mikolov（Word2Vec）。
机构/产品：Anthropic、OpenAI、长期受益信托、METR、美/英 AI 安全研究所、Cursor、Replit、Cognition；Claude 3 Opus/Sonnet/Haiku 及 Claude 3.5 系列、Golden Gate Bridge Claude、Inception V1、CLIP。
核心概念：Scaling 假说与 scaling laws、RSP 与 ASL-1~5、"如果-那么"触发结构、CBRN 与自主性风险、向上竞争（race to the top）、《Machines of Loving Grace》、Computer Use、Constitutional AI / RLAIF、character training、机械可解释性、特征与电路、线性表示假说、叠加假说、压缩感知、稀疏自编码器、单义性、人才密度、最优失败率。