小扎在这头疯狂挖人,结果家里的老员工纷纷跑路了??
最新消息,Meta 万引强化学习大佬 Rishabh Agarwal 即将离职,还留下了一篇让人浮想联翩的小作文:
这是我在 Meta 的最后一周。
决定不加入新的超级智能实验室并不容易,毕竟那里人才济济、算力爆棚。但在 Google Brain、DeepMind 和 Meta 度过了 7 年半之后,我更想冒险去尝试一条完全不同的路。
Meta 组建超级智能团队的想法非常引人注目,但我最终选择听从扎克伯格的建议:" 在这个瞬息万变的世界里,最大的风险就是不去冒险。"
把小扎的原话甩回他自己脸上,这操作绝了,瑞思拜!
据了解,他参与了谷歌 Gemini 1.5、Gemma 2 以及 Meta 推理模型后训练方面的重要工作,2021 年还以一篇 RL 算法评估论文拿下了 NeurIPS 杰出论文奖。
曾被 Hinton 劝退 " 不要做强化学习 ",下一站未定
Rishabh Agarwals,一直以来从事强化学习和推理研究,谷歌学术论文被上万次引用,h-index 也有 34。
2018 年,他以 AI Resident 的身份加入 Google Brain 多伦多团队,在 Geoffrey Hinton 团队里工作了一年。
颇具戏剧性的是,Hinton 还曾建议他 " 不要做强化学习(RL)",不过话锋一转,老爷子也留有余地——应该做自己认为最好的事情(毕竟他本人当年做的事也不被所有人看好)。
于是,Rishabh Agarwals 义无反顾地投身强化学习,并决定继续攻读博士学位。
第二年,他就前往蒙特利尔的 Mila 研究所申请 PhD,由于和面试官之一 Aaron Courville(和 Bengio 等人合著了《深度学习》这本经典教材)在强化学习领域的研究方向 " 完全相同 ",当场就被邀请并加入其团队。
接下来的四年时间,他在 Aaron Courvilleh 和 Marc Bellemare 两位顶尖导师的指导下继续深耕强化学习,同时还保留着在 Google Brain 的全职工作。
直到 2023 年,Marc Bellemare 发了一条提前庆祝他通过博士毕业答辩的推文,连谷歌首席科学家 Jeff Dean 这样的大佬也赶来祝贺。
而在谷歌工作期间,他参与了 Gemini 1.5(当时号称最强多模态、上下文突破 100 万)、Gemma 2 (新一代轻量级开源模型)、Gemma 3 等重要模型的发布工作。
2021 年,他还发表了论文《Deep Reinforcement Learning at the Edge of the Statistical Precipice》,一举斩获 NeurIPS 杰出论文奖。
简单来说,这篇论文分析了深度强化学习中的统计不稳定性问题,指出在有限实验下评估算法可能产生误导性结果。由于系统性揭示了 RL 中的方差问题与过拟合风险,被认为是评价 RL 算法的里程碑工作。
用 RL 规模化训练,把 8B 稠密模型推到接近 DeepSeek-R1 的水平;
在训练中途引入合成数据,为 RL 提供热启动;
提出更高效的 on-policy 蒸馏方法。
如今随着 Rishabh Agarwals 的离开,网友们也纷纷替 Meta 惋惜又损失了一员大将。
Meta 老员工开始出逃了?
其实不止 Rishabh Agarwals,几乎同一时间,一位在 Meta 工作了12 年的老员工也宣布离职了。
而且下一站还是 Anthropic 的推理团队(属于直接拥抱曾经的竞争对手了)。
此前就有消息称,Meta 新老员工之间因薪酬待遇悬殊而产生摩擦,其中一些研究人员甚至威胁要辞职。
合理推测,招聘热潮带来的内部矛盾,可能是导致这些资深员工选择离开的重要原因之一。
嗯,小扎这波也属于一边蓄水,一边开闸了(doge)。
参考链接:
[ 1 ] https://x.com/agarwl_/status/1960034048698388795
[ 2 ] https://scholar.google.com/citations?user=aH8AJu4AAAAJ&hl=en
[ 3 ] https://x.com/Yuchenj_UW/status/1960038533290450972
[ 4 ] https://agarwl.github.io/
一键三连「点赞」「转发」「小心心」
欢迎在评论区留下你的想法!
— 完 —
专属 AI 产品从业者的实名社群,只聊 AI 产品最落地的真问题 扫码添加小助手,发送「姓名 + 公司 + 职位」申请入群~
进群后,你将直接获得:
最新最专业的 AI 产品信息及分析
不定期发放的热门产品内测码
内部专属内容与专业讨论
点亮星标
科技前沿进展每日见