Dario Amodei: Anthropic CEO on Claude, AGI & the Future of AI & Humanity | Lex Fridman Podcast #452
概要
Anthropic三位核心人物深度访谈:Dario谈Scaling假说与RSP安全框架,Amanda谈Claude性格设计,Chris Olah展示mechanistic interpretability前沿突破
核心洞察
- Scaling假说经10年验证仍在持续:Dario从2014年Baidu语音识别到GPT-1(2017)逐步确认——更大网络+更多数据+更多计算=更强智能,SWE-bench 10个月内从3%飙升至50%,"令人信服的阻碍因素正在迅速耗尽"
- Anthropic的"向上竞争"战略:不做唯一的好人,而是设计激励结构让所有公司争相做对的事——mechanistic interpretability开源引发行业跟进,RSP安全框架提供了"如果-那么"触发式风险管理的模板
- Claude性格设计是对齐工作的核心:Amanda Askell用亚里士多德virtue ethics框架打造Claude"好品格"——反sycophancy、保持诚实、尊重自主权——"想象一个旅行全世界的人,几乎每个人都会觉得'这是一个真诚的好人'"
- Mechanistic interpretability揭示了神经网络内部的"自然分类":Chris Olah发现features和circuits在不同模型甚至生物神经网络中重复出现(curve detectors、Gabor filters),sparse auto-encoders可从Claude中提取数百万可解释features,包括"欺骗"相关direction
- AI时间线:2026-2027年可能达到"超过最高专业水平":但Dario强调这不是AGI的乐观宣言——灾难性滥用风险(CBRN)和自主性风险同步增长,"能力越大责任越大,两者配对出现"