开云世界杯官网 “纳秒级”极速,给“万物订价”——华尔街最顶尖量化机构Jane Street的“算力战局”

当通盘硅谷都在为通用东说念主工智能(AGI)和万亿参数的通用大模子放荡时,华尔街最精巧、最成绩的量化巨头 Jane Street(简街本钱)却在暗暗开辟另一条极其蹧跶的算力阵线。
近日,盛名科技播客支配东说念主 Dwarkesh Patel 凄凉获准实地探访了 Jane Street 位于德克萨斯州的中枢数据中心。在这场与 Jane Street 手艺团队共同负责东说念主 Yaron Minsky 以及物理工程团队负责东说念主 Dan Pavatova 的深度对话中,这家刚刚砸下60亿好意思元算力多量订单的华尔街"造王商",初次解密了他们如安在高频往复的"纳秒天下"与大模子的"重算力时间"之间构筑起无法复制的全都壁垒。
中枢不雅点:
突破延长迷想: 量化往复并非全盘追求纳秒。最优计策是"集成设施"——100纳秒内靠 FPGA 进行极简决策;而更大、更灵巧的 AI 模子则运行在微秒、毫秒致使小时级别的时限上。
60亿好意思元的算力贪心: 金融数据的"字节与浮点运算比率(Bytes to Flop Ratio)"极高,且噪声极大。Jane Street 不追求硅谷那种"一个模子作念通盘事"的通用 Scaling Law,而是通过海量定制化架构和极速迭代来榨取逾额收益。
基础门径成新圣杯: 算力的真实瓶颈早已不是芯片自己,而是发电机、变压器和液冷开导。为了让 GPU 提前 6 个月上线,公司致使不错作念出"烧毁全面发电机备份"的激进买卖决策。
往复是"AGI完全"问题: 往复的骨子是预测畴昔。在商场发生"相变(顶点特地)"时,东说念主类的元判断远比模子可靠。AI 时间,顶尖工程师和往复员的身价不降反升。
纳秒极速与大模子的"时辰谱系"
外界对高频量化往复一直存在一种刻板印象:机器必须紧挨着往复所(干事器托管 Colo),每一笔往复都必须在纳秒级内完成,而动辄需要庞大筹备延长的 AI 大模子似乎与之消极逊色。
对此,Yaron Minsky 明确指出:"量化往复不存在单一的时辰跨度,而是存在一个完整的谱系。"
100纳秒内的"极限硬件生涯"
在百纳秒级别的极限速率下,决定输赢的致使不是编程谈话(无论是 OCaml、Rust 照旧 C++),而是地说念的硬件逻辑:
中枢开导: 顺利挂载在相聚导线上的 FPGA(现场可编程门阵列)。
极限速率: "如若你在输入和输出的导线上蚁合一个示波器,你会看到数据包在被完全接管完之前,就也曾启动从输出端发出去了。"
代价: 这种极致速率掳掠了复杂的筹备空间,此时的决策逻辑极其浅显。
微秒到小时级的"AI主战场"
跟着决策时辰窗口放宽到几微秒、几百微秒、毫秒致使数小时,更大、更灵巧的 AI 模子便有了用武之地。
预测中枢: 预测金钱的"公允价值(Fair Value)",并将其当作模块高度可组合地镶嵌到种种往复经由中。
空间活泼性: 模子越大、越慢,物理摈弃的位置就不错离往复所越远。这使得巨型 GPU 集群不必拥堵在高尚且受限的往复所托管机房中,开释了算力规模。
砸下60亿好意思元算力:为何不走硅谷的 Scaling Law?
不久前,Jane Street 与算力云巨头 CoreWeave 签署了一项高达 60亿好意思元 的筹备条约。针对这笔惊东说念主的进入,Yaron 进展了华尔街与硅谷 AI 实验室(如 OpenAI 等)在 Scaling Law(规模定律)上的骨子永诀。
拒却"大一统",拥抱"定制化"
银河游戏在线娱乐中国官网传统 AI 实验室追求稽查一个完全通用的、能作念通盘事情的单一模子。而 Jane Street 的价值则来自于模子架构的极大种种性与放荡的实验数目。研究东说念主员需要极快的迭代时辰,去针对千奇百怪的数据源尝试天渊之别的全新模子假想。
稀奇的"字节与浮点运算比率(Bytes to Flop Ratio)"
金融边界的 AI 稽查有着稀奇的底层能源学:
高数据量,低信息密度: 金融数据包含海量的噪声,单字节的信息量远低于天然谈话。
模子特征: 比拟大谈话模子(LLM),Jane Street 的模子通常更小,但浑沌的数据量却大得多,对数据加载和存储性能的要求达到了变态的级别。为此,他们正在大举构建我方里面的大规模对象存储系统。
算力战局的隐形瓶颈:从芯片到发电机与变压器
当硅谷还在为英伟达最新的 GPU 芯片大打起首时,负责物理工程的 Dan Pavatova 清醒,真实的战场也曾升沉到了物理基础门径上。
买卖决策打败纯工程无缺目标
"发电机是咫尺你能买到的交货周期(Lead Time)最长的开导之一," Dan 默示。为了突破这个瓶颈,Jane Street 展现出了极其狼性的华尔街想维:
"咱们不错挑战以前的不雅念。通盘数据中心真实都需要发电机备份吗?如若咱们拿掉部分备份,只留给最中枢的系统,就能让咱们的 GPU 提前 6 个月上线。从工程上看这好像不是最无缺的,但这全都是最好的买卖决定。"
物理极限的靠近:1兆瓦机架与800V直流电
跟着算力密度的放荡飙升,畴昔的手艺有操办正在发生巨变:
开导瓶颈: 咫尺变压器、发电机以及用于液冷的冷却开导处于相称枯竭状况。
手艺演进: 数据中心正在向单机架 1兆瓦(MW) 的恐怖密度迈进,冷却管说念越来越粗。供电架构也正在从传统的交流电向 800伏直流电(DC) 演进。
两阶段锁定计策: 鉴于芯片迭代太快而基础门径成立太慢,Jane Street 倾向于"作念多(Long)"电力和数据中心容量,先锁定能源,再推迟对高尚芯片的采购决策,致使在必要时将电力容量分流给他东说念主。
被动烧毁的"x86捷径"
多年来,Jane Street 运营手艺组织的一个决窍是"走捷径":假装天下上只须 x86_64 一种 CPU 架构,况兼只爱戴一个大型研究数据中心和一个存储集群。但当今,跟着算力需求全球化散布(无法在单一地点引入足够恐怖的电力),以及英伟达全新 ARM 架构居品的推出,这一捷径已被透澈突破。筹备和存储调遣的交汇、以及对 ARM 架构的维持,让系统复杂度变高了几个数目级。
四、 AGI时间,东说念主类分解为何依然是"终极护城河"?
当被问及"一朝 AGI(通用东说念主工智能)兑现,是否会坐窝让 Jane Street 自在"这一激进问题时,Yaron 给出了一个尽头清醒且长远的修起。
往复是"AGI完全(AGI-complete)"问题
Yaron 认为,往复骨子上和"NP完全"问题一样,是一个"AGI完全"问题。这意味着天下上发生的任何风吹草动(政事、天灾、科技变革)最终都会汇入并影响往复布景。
"在浅显的部分被自动化后,那些模子无法自动化的硬核部分,反而成为了竞争上风的终极所在。我从来莫得像今天这样热切地想要招聘更多的工程师和往复员。"
无法被电子化取代的"东说念主际修辞"与相变
非电子化往复依然遒劲: 即使在今天,巨额大额往复(如债券业务)依然依赖于东说念主与东说念主之间通过聊天器具的顺利疏导。往复员需要肉眼和直观去评估电话那头的东说念主代表了多猛进度的"逆向选拔(Adverse Selection)"(即对方是否掌捏了你不知说念的内幕)。
相变中的"元判断(Meta Judgment)":"简街最成绩的日子,通常是天下堕入放荡、没东说念主知说念发生了什么、商场发生‘相变’的时刻。咱们但愿模子能证据好,但咱们深知,东说念主类在应付相变时比模子靠谱得多。此时需要一种东说念主类独到的‘元判断’来决定系统该作念什么。"
全面扩招:简街正在寻找哪些东说念主?
跟着 GPU 规模在短期内辩论从几万张放荡飙升至几十万张,Jane Street 正在全球范围内伸开前所未有的东说念主才搜猎,机器学习和往复如今是一项"全场地的团队分解":
物理工程类: 机械工程师、电气工程师、结构工程师、表情司理、建筑师(负责数据中心全生命周期的寻找、假想、建造与运营)。
通用/专科软件工程: 除了高表率筹备机科学布景的通用工程师,简街当今放荡渴慕"全舰队/全集群范围优化(Fleet-wide Optimization)"的东说念主才(肖似于超大规模云干事商的架构师),因为当算力投资达到数十亿好意思元时,通用的微弱优化将产生多量的财务报恩。
前沿硬件与数理研究: 假想定制芯片(ASIC)的硬件工程师;专揽数学讲明注解让软件更高效的"时势化设施(Formal Methods)"团队(AI 鼎新让这一冷门边界整宿回春);以及领少见学、物理、筹备机布景的往复员。
高阶前端工程师: 以前简街相称顾惜敕令行结尾,假装 Web 网页手艺从未发生过。但当今为了给研究东说念主员提供更直不雅的 AI 器具、画出精确的直线和器具教导,他们正在大举投资成立顶尖的前端开发团队。
以下为对谈全文,由AI缓助翻译:
Dwarkesh:
Jane Street 是我播客的合营伙伴,咱们意想的一个道理点子是:为什么我不外来躬行参不雅一下你们运行的用于稽查(AI模子)的数据中心呢?是以我刚刚在手艺团队共同负责东说念主 Yaron Minsky(译注:视频中口误及速记为 Ron Minsky)和物理工程团队负责东说念主 Dan Pavatova(译注:速记为 Dan Ponttovo)的指挥下,参不雅了这个位于德克萨斯州的数据中心。尽头感谢两位带我参不雅。值得一提的是,我以前从未去过这种地方,是以我亦然第一次参不雅,这太棒了。
以前我一直很困惑:既然你们需要在纳秒(nanosecond)级别进行往复,那你们如何能作念 GPU 关系的事情呢?也许你们不错注视讲讲,你们往复的践诺时辰跨度(时限)是如何的?在作念出往复决策的过程中,你们能职守得起运行大型模子的成本(或时辰延长)吗?
Yaron:
我认为这里需要领路的中枢少许是,并莫得单一的时辰跨度,而是存在着许多不同的时辰跨度。咱们构建的一些往复系统和进行的某些往复,为了保持竞争力,你践诺上必须在 100 纳秒以内处理并复返一个数据包。这是一个完全不同的手艺范围,对吧?
东说念主们或然会磋议,比如:"哦,你们能用 OCaml 编写高性能的东西吗?"咱们的修起是:"咱们不错。但对于这种级别的速率,不管你是用 OCaml、Rust 照旧 C++ 编写都不重要,因为你根蒂无法使用 CPU。你必须使用 FPGA,它顺利通过导线蚁合到相聚上。你复返数据包的速率尽头快,如若你在输入和输出的导线上蚁合一个示波器,你会看到数据包在被完全接管完之前,就也曾启动从输出端发出去了。"
是以这是一个尽头不同、尽头特殊的边界。但是,当你处于这个时辰边界时,你践诺上无法进行太多的筹备,你所作念的决策将会尽头浅显。事实上,在决策的"灵巧进度"(无论是模子照旧其他某种致使是手写的决策过程)与"复返速率"之间,存在着一条完整的量度弧线。
而构建最好往复计策的正确设施,践诺上是接纳一种集成(ensemble)设施。对于某些类型的决策,你会尽头赶紧地作念出尽头浅显的决策;对于某些类型的决策,你的运作规模可能是——不再是辩论 100 纳秒,也许是几微秒、几十微秒、几百微秒或毫秒;而在某些情况下,有些经由如若能在半小时或本日内完成决策复返,那也完全没问题,在这些时辰跨度上,你在时辰基础上不异具有竞争力。但在通盘这些不同的时辰跨度上,你所作念的决策类型是完全不同的。
也许你未便清醒,但这些模子究竟在预测什么?详情不单是订单簿(order book)中的下一个变动吧,或者也许即是?
咱们当今显明是在触及一些很难公开批驳的话题。但我认为最浅显也最重要的一个,亦然咱们一直在想考的——不仅是当今在想,25 年前我刚加入 Jane Street、用线性记忆等器具构建模子时就在想——一个尽头有用、尽头经典的事情即是预测某样东西的公允价值(fair value)。比如,咱们认为这个东西真实巧若干钱?这能够以一种尽头可组合的方式融入到许多不同的往复经由中。这并不是咱们当作预测磋商的唯独一类事物,但它是一个很重要的磋商。
有一阵子,我嗅觉有一种对于往复公司在作念什么的梗(meme),那即是:你必须管理干事器托管(colo),搬到纳斯达克往复所所在的地方,你的机器必须紧挨着那儿,这尽头重要。
在不深入磋议咱们把什么东西放在何处的具体细节的前提下,你的推理(inference)过程可能在 CPU 上,可能在 FPGA 上,也可能在 GPU 上,这取决于你需要若干筹备量、模子有多大、需要如何的延长复返等敛迹条目。
是的,更大、更慢的东西,你不错把它放得更远一些。把通盘的筹备开导都紧挨着往复所摈弃是很令东说念主头疼的。而对于那些真实极其快速的事物,只是待在托管机房里是不够的,你致使会感情通往那里的线缆线圈有多长——在那种极低的纳秒级别下,你真实需要去测量光纤布线的长度。但总的来说,更大的模子在它们物理摈弃的位置上给你带来了大得多的活泼性。
Dan:
如若咱们把 GPU 放在往复所傍边的这些托管门径中,当今你必须遵照他们的法例,你懂吧,是谁当作干事商为你提供阿谁空间。此外,你的电力、冷却,通盘这些敛迹条目当今可能都比你我方假想和运营的门径要略微更紧俏一些。是以,你当今必须想出一些办法,比如:"嘿,可能一个机架里我只可放一个 GPU,因为它破费太多电了,是以我必须把它分散开来,而不是能够在一个机架里兑现高效的液冷。"是以跟着咱们的筹备需求不休增长,这些都是咱们需要辩论的事情。
你们最近与 CoreWeave(译注:速记错录为 core reef)签署了一项价值 60 亿好意思元的筹备条约。嗯,你们预备用它来作念什么?
AI 天下的其他边界有规模定律(scaling laws),咱们也有咱们的规模定律,有许多模子咱们都想稽查。我认为咱们与那些更传统的 AI 实验室之间道理且可能不同的少许在于,咱们模子架构的种种性以及咱们正在进行的实验数目。因此,你从中获取的大部分价值就在于,全球在模子假想中尝试了巨额尽头不同的新事物,给研究东说念主员提供了更快的迭代时辰,让他们能够发现更多的想法并鞭策更多的创新,这被讲明注解是极其重要的。
在那些基础模子实验室的情况下,稽查一个能够作念通盘事情的、完全通用的单一模子是有平正的,而不是构建一堆定制的不同模子。你能让我了解一下,为什么在 Jane Street 会有不同的量度采选吗?
对咱们来说,某些专门化是为了能够适合和破费正确的数据类型,对吧?咱们不错喂进去的潜在数据源绝裁夺。比如咱们在需要达到的数据速率上存在许多互异。
另一个让咱们需要对所作念的职责进行某些专门化的成分是,举座的推理和往复动态都因"字节与浮点运算比率"(bytes to flop ratio)的不同而变得天渊之别。咱们用来稽查模子的数据量要大得多,但就单字节而言,这些信息量却比较少,因为金融数据噪声(noise)尽头大。是的。因此,模子通常更小,而数据通常噪声更大、噪声更多,且数据量要大得多。
另外,咱们针对不同应用构建的不同模子之间亦然不一样的,对吧?当咱们试图找出"咱们该如何专揽咱们获取的更多信息"时,就会波及到种种决策,从"咱们如何高效地存储和加载数据",到"咱们如何塑造模子",再到"咱们如何让推理过程具备它所需的浑沌量和延长"。这其中会有一整套天渊之别的量度。因此,去理清这些并为不同的应用挑选出最好有操办,曲直常有价值的。
那你们的推理(inference)职责负载践诺上是如何的,或者说,K8凯发中国官方网站它与传统的那些作念大谈话模子聊天机器东说念主的大公司比拟如何?
大体上说,正如你所意料的,延长更为关键。批处理(batching)仍然是一个问题,取决于你所作念的模子,你可能会有针对你所不雅察的不同往复代码(symbols)进行解耦/分散(disaggregated)的模子或模子的一部分。因此,从多个数据源拉取数据并将其打包批处理在一王人不异会产生影响。
我认为另一个道理的点是,数据速率真实尽头高。在大型大谈话模子实验室里,你从通盘不同用户那里获取的总体(团聚)数据速率也很高,但你从任何单一用户那里获取的序列数据量(sequential data)并不大;而当你拉取的数据是来自纳斯达克行情送礼(NASDAQ feed)的字节时,天哪,在单一边界内需要以因果前后接踵的方式进行序列化破费的数据速率极高。是以再次强调,这里的动态发生了改革。不外我认为,许多肖似的基础工程问题其实大同小异,只是通盘的常量都被微调到了不同的位置,因此你最终作念出了不同的选拔。
这意味着在你们必须如何假想这些系统方面,无论是从存储照旧其他方面来看,有什么具体体现?
是的,我认为与你凡俗看到的比拟,咱们对数据加载性能的关注度更高。我想咱们正在作念巨额职责来构建咱们我方的大规模数据存储系统,咱们我方的里面对象存储(object store)。咱们之前使用过种种供应商的居品,但跟着时辰的推移,我认为对于其中一些以研究为导向的用例,咱们需要在更大的规模下运行,还需要应付数据中心的种种性。
对吧?这不太是一个推理时的问题,而更多是一个稽查时的问题——也即是说,咱们即是无法在归并个地方获取咱们想要的通盘筹备资源。我不知说念,我认为总的来说,灵验运营一个手艺组织的一个重要决窍即是去弄清醒你不错走哪些捷径。
咱们多年来很行运能够走的一个捷径是,咱们不错假装这个星球上只须一种 CPU 架构,比如通盘东西都是针对 x86_64 的,咱们假装其他任何东西都不存在,这简化了许多事情。咱们还曾领有一个大型的研究数据中心和一个大型的存储集群,这也极地面简化了许多事情。
而践诺上,这两点当今都已被突破了。比如,你即是无法获取那么大的电力,你无法在归并个数据中心里接入足够多的电力引入(译注:此处 Yaron 幽默地用了"thunderbolts/雷电"一词指代极高电力)来为你所需的通盘事物供电,你需要把数据中心建辞天下各地。是以这里存在一个庞大的去中心化/分散(disaggregation)问题,这也给你带来了一个难题,比如:哦,当今你必须辩论让你的筹备调遣和存储调遣精致交汇在一王人。而且有海量的数据,因此在它们之间转移这些数据绝非易事。
另外,咱们也不得不烧毁"仅限 x86"的作念法,因为英伟达推出了一系列酷炫的新址品,这意味着你当今必须维持 ARM 架构了。
放大视角,我想问一个尽头天真实问题。可能会有一种天真实看法,认为如若你领有了通用东说念主工智能(AGI),它就能坐窝作念 Jane Street 所作念的事情。请让我了解一下,为什么这种天真实看法是天真实?
是的,我不想完全辩说它。确乎有这样一种天下怡然是咱们需要负责对待的:也即是咱们将构建出大谈话模子或其他东说念主工智能系统,它们在严格意旨上比地球上的通盘东说念主类都更灵巧,在通盘分解任务上都更有智力。是的,那将会很不可想议,那将是一种完全不同的状况。在那种情况下,确乎,Jane Street 所作念的很大一部分事情可能会被自动化取代,也许咱们全球都会坐享其功,多喝点玛格丽特鸡尾酒之类的,我不知说念阿谁天下会是什么式样。但嗅觉咱们当今距离阿谁阶段还不是特别近。
我认为总的来说,东说念主们很容易低估这项职责的丰富性和复杂性,不仅是像 Jane Street 这样的公司所作念的职责,践诺上在职何真实有贪心、高难度的公司级任务中都是如斯。我尤其认为,往复对我来说有点像"AGI 完全"(AGI-complete)问题,肖似于"NP 完全"(NP-complete)问题。
这意味着天下上通盘不同的问题最终都会在往复布景下影响你正在作念的事情,因为归根结底,往复波及弄清醒事物的价值,这意味着对畴昔作念出预测,而许多不同的事情都会汇入其中。跟着其中的各个部分被悠闲自动化,你就会遭受常见的情况:那些咱们还不知说念如何很好地自动化的其他用功部分,最终成为了竞争上风之所在。
我认为东说念主类和东说念主类的分解比以往任何时候都更有价值。我从来莫得像今天这样热切地想要招聘更多的工程师和往复员,因为东说念主们所作念的每一件事都比以前更有价值。我的道理是,这在一定进度上是因为我持有一些怀疑作风,不认为咱们距离在通盘事情上都比东说念主类灵巧的模子像某些东说念主想象的那么近。
也许这波及到物理基础门径,比如践诺管理托管机房;也许践诺上是你们构建的软件基础门径。能让我了解一下到底是什么东西会……
是的,咱们构建了种种各样极其复杂的软件,让东说念主们去想考许多不同的往复问题,其中一些问题根蒂不如何电子化。这个业务的种种性远比东说念主们以为的要丰富得多。有一种想法是:"哦,对,那详情是一件很浅显的事,你只须有一群灵巧的东说念主,他们作念出灵巧的决策,写出优质的软件就行了。如若咱们能把灵巧这部分自动化,那就万事大吉了。"但我认为事情要比这复杂得多。
你所说的往复中"非电子化"的部分是指什么?
我的道理是,当今仍然有通过聊天器具在东说念主与东说念主之间进行疏导、共同决策并完成的往复。比如有东说念主会去评估电话那头的东说念主代表了多猛进度的逆向选拔(adverse selection),这依然是业务中尽头真实的一部分。
你知说念,开云世界杯官网即是有不同种类的证券需要更长的时辰才能兑现更高进度的自动化。举例,债券业务的自动化进度就远不足你在股票业务中看到的水平。践诺上,咱们对此也有点困惑。我认为咱们这些在行业里待了一段时辰的东说念主,天然我启动得有点晚,没能真实见证股票走向电子化的转型过程,但那些比我关注得早少许的东说念主会认为:"行吧,我猜其他通盘边界接下来也会这样。"
关联词,你懂的,也曾以前了 25 到 30 年,并不是通盘事情都走向了阿谁标的。天然咱们当今也曾不如何看到有许多东说念主站在往复所大厅里了,但依然有巨额的往复深度依赖于东说念主类以及东说念主类的判断当作中介。
说到这个,在模子和往复决策之间,东说念主类参与(humans-in-the-loop)的进度有多高?
你们许多最成绩的日子通常发生在一些奇怪的事情发生、出现紧要事件、天下变得放荡、没东说念主知说念发生了什么的时候。在那些情况下提供流动性通常极其用功,是以你为此获取的酬谢也更高,而且在那些日子里凡俗会有庞大的往复量。要把这些作念好,通常需要东说念主类的判断力,去想考"今天与以往通盘日子有什么不同?"
天然在可能的范围内,咱们但愿构建能够很好应付相变(phase transitions)的模子,但咱们也认为,东说念主类在应付相变时比模子证据得更好,或然你需要这种元判断(meta judgment)来决定该如何作念。因此,即使对于高度自动化的系统,也需要负责监控的东说念主员作念出决策,而咱们历久都有东说念主在进行监控,对吧?我认为往复中一个重要的部分是在往复日内去关注和想考正在发生的事情,即使个别往复的发生速率远远快到东说念主类无法在单笔往复的基础上进行纷扰。
Dan,在你从事这类建筑(数据中心)职责的以前 20 年里,最显耀的变化是什么?
是啊,东说念主们当今竟然真实启动感情数据中心了,况兼想要聊聊它。你知说念,我作念冷却系统也曾有一段时辰了,当今倏得之间全球都启动磋议它,认为它很道理。是以这挺好玩的,很让东说念主振作,我想我团队里的东说念主也有同感。
有些在数据中心行业干了 20 年的东说念主,仍然想用以前的方式去作念事,但我认为这种老设施当今正在被淘汰。你会发现全球正在挑战以前的不雅念,比如:"嘿,我的通盘数据中心都有发电机当作后备电源,但发电机是你能买到的交货周期(lead time)最长的开导之一。是以也许咱们把它们拿掉,只把发电机用于需要这种弹性的系统中枢部分。这能让咱们的 GPU 提早六个月上线,那就干吧!"是以,你知说念,有些事情也许从纯工程角度看不是最好的决定,但它全都是最好的业务决定。我认为肖似这样的事情正在越来越多地出现。
嗅觉每年东说念主们在扩大 AI 筹备规模时遭受的瓶颈都在发生变化。在你们进行更多谈判并试图获取更多筹备资源的过程中,抛开筹备、内存和通盘那些好玩的东西不谈,咫尺的瓶颈是什么?你瞻望畴昔的瓶颈会是什么?
发电机、变压器,还有一些咫尺用于液冷的冷却开导,需求量都尽头大。而且它变化得很快,我今天告诉你的情况,两周后详情就不一样了。
咱们作念的一件事是,与里面的采购团队尽头精致地合营,去囤积其中的一些物质。对于那些咱们知说念在所少见据中心之间都不错通用的物质,咱们会进行仓储并随时准备使用。但像发电机这样的部件,你不可能把一个庞大的发电机放进泛泛的仓库里;或者,举例如若你在作念像涡轮机(turbine)这样"表后"(behind-the-meter)的表情,你就必须对这些商场多作念一些想考——你从何处获取它们,在何处进行安置,你不成随粗率便把它们搁在一边。
是以,我认为紧缺的部件详情是会变化的,刚才提到的即是其中一些大件。而且,跟着咱们的密度越来越高,一个但愿是建筑不错变得略微弱少许,也许咱们能够更快地把建筑盖好,把通盘的筹备资源紧凑地紧缚在一王人,然后周围的通盘基础门径可能都是预制好并运载到现场的。没错,模块化数据中心或模块化基础门径正在变得越来越宽绰,这些组件(尤其是那些长交货周期的组件)在场外进行假想和建造,然后运到现场,尽可能地接近"即插即用"(plug-and-play)。
你之前提到的一个不雅点是,跟着机架自己的密度越来越高,数据中心里越来越多的部分其实是围绕践诺机架周围的基础门径。这践诺上有点肖似于芯片上的封装(package),对吧?或者说封装上的芯片。筹备中枢只占通盘封装总面积的极小一部分。
是的,这很故道理。我的道理是,这自己并不成解决任何问题,反而可能会带来其他问题,天然。比如,当你达到单机架 1 兆瓦(megawatt)的水平时,全球会问:"单机架 1 兆瓦到底是什么主张?"你接入那里的冷却管说念只会变得越来越粗。而且,无论咱们当今使用的是交流电(AC),照旧畴昔的趋势——800 伏直流电(DC),你仍然必须把通盘这些组件带到归并个地方。
从咱们的角度来看,道理的少许是,天然咱们不错假想这些工程上的东西,但归根结底,无论是英伟达、定制芯片(ASIC)公司照旧其他任何东说念主,他们都必须销售能够在数据中心运行的组件,而且他们也在尽头负责地想考他们要卖什么,因为你需要东说念主们能够用得上它,对吧?如若你建造了一个 1 兆瓦的数据中心或 1 兆瓦的机架,但却莫得办法为其供电和冷却,那就毫无谓处。是以咱们正在与该边界的险些通盘东说念主开展尽头精致的合营,去想考你需要哪些组件才能维持这些下一代居品。因为你所说的交货周期或然会进取一年,而你通常是在为芯片下订单之前就得对基础门径作念出决定。
是以,比如你得尝试……你知说念谷歌的 TPU,它们使用温度更低的水,而且它们的密度只须英伟达 NVL72(译注:此处速记错录为 NBL72 GP300,践诺团结高下文应为英伟达的 NVL72 架构配 GB200 芯片)的一半。对吧?是以这需要不同的计策,而你必须确保畴昔能够兼容处理这些开导。
超大规模云干事商(hyperscalers)之是以能够开心进入海量的筹备资源,原因之一是他们对闲置筹备资源有一些"备用用途"(reserve use),不错在特定时辰不消于大谈话模子稽查或推理时派上用场。举例,像 Meta 这样的公司,如若他们买的某些 GPU 没在用,他们不错顺利说:"咱们今天就把 Instagram 的告白投放模子作念得略微好少许。"那么对于 Jane Street 来说,有什么平等的筹备资源备用用途吗?这不错说是这些筹备资源对你们价值的底线。
部分原因在于,咱们在许多方面其实濒临着尽头严重的筹备资源受限。东说念主们领有的巨额创新、实验和新想法都受限于咱们所领有的筹备量。是以从某种意旨上说,如若咱们略微严格地去评估一下咱们能够运行的那些不同新任务的价值,会发现那些咱们不得不拒却的任务的价值践诺上曲直常高的。对吧?是以咱们正在作念咱们认为最有价值的事情,但如若事实讲明注解咱们领有的筹备资源超出了这些任务所需,那么在阿谁边界还有海量的其他研究和实验不错作念。是以咱们还远远莫得到说"噢,筹备资源太多了"的地步,咱们反而是遭受了相悖的问题。
我认为在这个方朝上也有许多"低落的果实"(low-hanging fruit,容易兑现的落幕),比如更常常地再行稽查模子即是很有价值的。跟着时辰的推移,模子的质料会有所阑珊,而能够再行运行它们——这对公司具有顺利且明确的价值。此外,咱们还不错履行一定数目的巨额(bulk)推理任务,当系统中莫得其他可调遣的任务时,不错用它们来填补空缺。因此,咱们并莫得完全肖似于 Instagram 告白投放那样的应用,但确乎存在一大片"盲区/未知空间(dark space)",即那些咱们没在作念、但如若有了更多筹备资源就会去作念的事情。是以咱们尽头不惦记无法从这些开导中榨取价值。
这里面确乎有一系列的隐性下注(embedded bets),比如咱们正在这些东西上进入巨资,你不错想象,有些事情的发展速率可能不会像咱们预期的那么快,比如咱们正在运行的各个模子和往复所产生的价值;而且这是一个竞争强烈的环境,也许其他东说念主会打败咱们。我认为保持优秀的要素之一,即是历久对竞争敌手可能摸索出与你肖似的作念法并缩短你的业务价值而感到弥留。是以,确乎有可能出现一些并不告成的情况。但显明,以咱们咫尺现存的筹备任务组合来看,咱们距离遭受"算力弥散"这个问题还尽头远处。
这很故道理,天然这莫得完全修起问题,但你不错把"为数据中心供电"与"购买芯片"剥离开来,然后说:"好吧,我以后可能会需要使用这些筹备资源,让我当今先锁定数据中心和电力资源,但推迟对尽头高尚的芯片作念出采购决策。"对吧?在阿谁你可能需要筹备资源的时辰节点上,先让我方处于电力和数据中心容量略微"作念多"(long,充裕)的状况。然后咱们不错假想一些机制,比如:嘿,也许咱们不错把其中一部分容量分流(offload)给其他东说念主。出于无庸赘述的原因,对咱们来说,分流电力和数据中心容量要比分流芯片自己容易得多,但你确乎不错将这两者清醒地一分为二。
这也改革了对于招聘的考量。我是说,你们招聘的门槛也曾高到极致了,但这会让它进一步擢升。如若你多招一个东说念主,那这个东说念主就需要筹备资源来作念实验,而这部分筹备资源将不得不与你团队中其他不异优秀、本不错我方作念实验的东说念主进行量度和采选。
我明白你的道理,但咱们不会去想:"噢,再招更多研究东说念主员会很奇怪,因为那样咱们就必须给他们更多的筹备资源。"相悖,咱们的逻辑是:研究自己极其有价值,研究东说念主员也极其有价值,这反而是购买更多筹备资源的一个绝佳根由。
因此,咱们尽头有能源去扩大筹备规模。比如咫尺,咱们的 GPU 数目大致在几万张的范围内,而在不久的将来,咱们将达到几十万张 GPU 的规模。咱们认为这完全不错由业务效益来讲明注解其合感性。你知说念,这并不是说咱们会在那里惦记:"哦,咱们能不成凭据往复计策的损益(P&L)来讲明注解它的合感性呢?"不,不,不,这显明是很好的投资。是以在招聘方面,这并不会让咱们减速脚步。
在某些方面,增长的最大侵略在于需要时辰去真实培训新东说念主、让他们融入咱们的文化、陪伴他们成长并共同成立这个地方。咱们但愿 Jane Street 络续成为一个伟大的职责阵势。我完全不认为硬件问题是侵略咱们发展的成分,我认为真实的适度成分是寻找优秀的东说念主才,以及咱们对他们的导师迷惑智力(mentorship capacity)。
我猜这可能是一个很好的契机,让你们提一下你们咫尺正在招聘哪些类型的职位?
天哪,那 Dan,你要不要先从工程边界启动聊聊?
好的,我先来。我的道理是,总的来说,咱们即是在寻找尽头灵巧、对作念这些事情谊兴味的东说念主。这包括机械工程师、电气工程师、表情司理、建筑师——也即是匡助假想和建造其中一些空间的东说念主。你知说念,我团队的职责践诺上是寻找这些空间、进行假想、建造,然后去运营它们,这是一个全生命周期(full life cycle)。是以在每个阶段你都需要东说念主才。你需要许多工程师,许多咱们称之为"物理工程"(physical engineering)边界的东说念主,这是咱们我方发明的一个词。但具体来说即是机械工程师、结构工程师,可能还有电气工程师这类东说念主才。
而且机器学习和通盘往复行业其实尽头像一项团队分解,是以咱们但愿招聘来自许多不同布景、领有许多不同智力的东说念主才。咱们天然尽头振作能招到一些领有特定机器学习布景的东说念主,比如从事架构假想和在种种情况下构建模子的东说念主。就像我提到的,咱们针对我方特有的、商场特征所需的数据,领有一大堆定制的架构等。此外,咱们也构建大谈话模子(LLM),咱们对在 LLM 稽查生命周期的各个阶段有告诫的东说念主都尽头感兴味,况兼一直在扩大这个边界的规模。
你知说念,咱们招募了巨额领有邃密科学和手艺布景的东说念主——比如数学、筹备机科学(CS)、物理、工程等专科——来作念往复员。这需要一种详尽性的手段。但这是咱们不绝尽头振作去招东说念主的一个边界。
在软件工程方面,有一个通用的软件工程师职位,咱们老是渴慕招到优秀的东说念主才。我认为这能带来很好的报恩。天然提及来有点傻,但正如 Dan 所说,灵巧、充满赞佩心且领有极佳筹备机科学布景的东说念主,尽头符合这个通用职位的变装,他们最终不错作念许多不同类型的事情。
还有许多道理的专科边界也让咱们尽头振作,举例有件相称新的事情:跟着如今算力规模的发展,咱们对全集群/全舰队范围的优化(fleet-wide optimization)比以前感兴味得多。咱们以前对性能优化的看法是,它更多是对于让那些对速率最关键(speed-critical)的部分尽可能地快,而更宽绰的情况是,算力挺低廉的,而东说念主力很贵,是以咱们并不会花太多时辰去优化咱们的通用筹备。但是,天哪,咱们当今正在进行海量的通用筹备,当你启动在这个边界投资数十亿好意思元时,优化就变得更有价值了。有些东说念主曾在某些超大规模云干事商(hyperscalers)那里有过这方面的告诫,咱们尽头但愿招到更多具有这种布景的东说念主,来想考咱们正在遭受的优化问题。这些问题有重叠之处,但在重要方面又有所不同,是以这既是一个关系的挑战,亦然一个新的挑战。
另外,咱们还作念许多道理的硬件工程职责,比如假想咱们我方的定制芯片(ASICs),领有这种告诫的东说念主不异让咱们感到超等振作。
还有一件事,咱们刚才吃午饭时提到过,咱们启动辩论设立一个时势化设施(formal methods)团队,基本上是专揽数学讲明注解来让软件工程变得更灵验率。这是一个尽头新、极具探索性(speculative)的边界,咱们尽头振作能在那里找到东说念主才。我认为这是一通盘群体的东说念主,在以前我总不得不让他们失望,对他们说:"是的,咱们对时势化设施不感兴味。"但由于通盘东说念主工智能鼎新,时势化设施倏得造成了一个道理得多的边界,是以这是咱们很振作去投资的地方。
另外,我也不知说念,比如表情司理、作念前端开发(front-end dev)的东说念主。事实上,在 Jane Street 的大部分发展历程中,咱们都假装这整套 Web 网页手艺从未发生过,咱们险些通盘的器具都只是在结尾(terminal)里运行。但事实讲明注解,如若能画一条直线,或者有一个器具教导(tool tip)之类的内容,曲直常有用的。是以咱们践诺上进入了巨额资源来构建尽头出色的前端开发器具,并为东说念主们打造器具。领有了得的前端工程师——他们既是优秀的软件工程师,又对"如何制作一款对用户友好的应用"有很好的领路——这曲直常重要的。
对于通盘这些,我想说一个总体的、更高维度的不雅点(meta point):我认为,在现时围绕 AI 器具的通盘合理且真实的振作中,东说念主们或然会冷漠这一切当中"东说念主的成分"(human element)的重要性。咱们真实尽头敬重构建对东说念主类有意的器具,这也包括 AI 器具自己,对吧?我认为,以一种能够提妙手类领路力、能动性(agency)和效力的方式去鞭策器具的发展,才是最中枢的事情。适度咱们发展的最主要成分,莫过于在这里职责的了得东说念主才,以及能否找到更多合适的东说念主并扩大组织规模,从而让咱们能作念更多的事情。因此,在想考咱们所构建的系统时,咱们接纳了一种尽头以东说念主为本(human-oriented)的方式。
看你们制作这些道理的谜题和挑战真实很酷。我认为你们平时就在这样作念,而且你们还专门为咱们播客的听众制作了几个。我认为在听这期内容的听众可能会对去望望这些谜题很感兴味。趁机说一句,其中有一个谜题,不仅提交参加竞赛的东说念主里莫得一个能解出来,连 Jane Street 我方也解不出来。阿谁谜题波及寻找种种内置了触发词(trigger phrase)的大谈话模子的后门。不管如何说,我提到这少许是因为,如若全球有兴味深入了解,我认为这些道理的谜题可能会在一定进度上展现出在这里职责是什么式样的,以及为什么这里是一个道理的地方。
是的,谜题是咱们文化中树大根深的一部分,是以用它们当作一种与全球设立计划的方式真实很棒。
太好了,感谢两位参与此次对话。
Yaron & Dan: 尽头感谢开云世界杯官网,咱们的幸运。