当前位置:首页 > 基金分析 > 正文

硅基世界的“缘分”——系统与人工智能携手进化

在NeurIPS 2024大会上,微软亚洲研究院院长周礼栋发表了题为“硅基世界的‘缘分’——系统与人工智能携手进化”的主题演讲。他提出了一个前瞻性的观点:未来人工智能的突破,不仅依赖于模型和算法本身,更有赖于与计算机系统的深度融合。围绕“效率(Efficiency)、可信(Trust)、融合(Infusion)”三大关键词,周礼栋阐述了系统与人工智能之间如何实现双向赋能、共同演进,从而打破现有技术瓶颈,推动计算机科学迈入以智能驱动的新纪元。本文基于该演讲撰写。

从指数增长的算力到智能的转化

在全球掀起人工智能(AI)热潮的今天,我们不妨回到一个根本问题——究竟是什么驱动了人工智能的崛起?

Ray Kurzweil在其2005年的著作《奇点临近》(The Singularity is Near)中给出了一个广为流传的答案。他观察到,计算能力——尤其是每秒每美元所能获得的计算量——长期以来呈现出指数级增长。他据此大胆预测,到2023年前后,人工智能将拥有与人类大脑相当的处理能力。这一预测在当时听起来也许过于理想,但今天看来,已经逐渐接近现实。

Kurzweil的核心洞察在于,智能的演进,归根结底受限于底层算力的供给。而随着模型、数据与算法的持续进化,我们越来越清晰地意识到单纯的算力增长并不足以转化为真正的智能。真正的挑战在于,我们如何有效地将计算能力“变现”为智能能力。

这一“转化机制”并非自动发生,它依赖于算法的创新,也离不开系统的支撑。系统不仅负责调度资源、管理复杂性,更决定了算力释放与智能实现之间的效率与可达性。换言之,系统是智能得以生根发芽的土壤。

长期以来,我们往往将人工智能与计算机系统视为两个平行甚至割裂的研究方向。然而,随着AI能力的持续提升和资源需求的指数增长,这种二分的视角已经难以为继。现在,是时候重新审视二者的关系——它们不仅需要协同,更应共同进化。

人工智能与计算机系统的协同进化

回顾过去几十年,人工智能和计算机系统的进化并非步调一致。上世纪90年代,人工智能曾一度陷入长达二十多年的“寒冬”,算法停滞、资金匮乏、研究热度骤降。但就在AI逐渐被边缘化的这段时期,计算机系统却在持续拓展自身边界,孕育出一系列为未来智能应用奠定基础的关键技术。

我们见证了多媒体计算的崛起、面向并行计算的GPU迅猛发展、万维网的诞生、网络搜索的普及,以及大数据和云计算基础设施的广泛部署。每一项系统层面的突破,尽管其初衷未必是直接服务于AI,但最终都成为了后者“苏醒”的温床。尤其是在系统层面构建的大规模分布式计算能力,让人工智能重新焕发出生命力。

AI并不是在真空中崛起的,它的“再度觉醒”离不开系统几十年的厚积薄发。没有高吞吐、低延迟的分布式系统,没有GPU架构与并行编程的进步,就没有实现今天能训练百亿参数大模型的可能。

这也提醒我们,系统与人工智能从来不是单向依赖的关系。两者的历史是交错演化、彼此推动的。系统为AI的腾飞提供了算力和基础设施,AI也在逐步改变我们构建和使用系统的方式。从最初的依赖,到如今的共生,系统与AI之间正在形成一种前所未有的协同关系。

计算机系统的进化历程

随着人工智能的迅猛发展,尤其是“规模法则”(scaling law)的提出,我们见证了AI能力的指数级提升。扩展法则揭示了只要不断扩大模型规模、训练数据与计算资源,AI的性能便会持续跃升。这一趋势推动了人工智能的快速突破,同时也对底层计算机系统提出了前所未有的挑战。

为了支撑指数级增长的智能需求,计算机系统必须随之演化:既能够在硬件层面提供更强的计算力,还要在系统架构上具备更高的伸缩性与灵活性。

但要真正理解“系统”,不能仅将其等同于强大的GPU、云平台或编程工具链。对真正从事系统研究的学者而言,系统更是一种“思维方式”——一种管理复杂性、构建秩序的哲学。正是这种系统思维,使我们能够在众多复杂组件和高度动态的相互作用中构建出可控、可靠且具扩展性的结构。

过去几十年中,系统研究积累了丰富的原则与机制,如抽象分层、关注点分离、容错设计与资源隔离等。这些原则帮助我们构建了从操作系统到云服务的一系列关键基础设施。但随着AI带来的计算复杂度与动态性不断上升,传统的系统设计方法正逼近边界。我们越来越难以依赖经验法则预见系统行为,也很难再以线性的方式将系统扩展到下一个数量级。正如攀登高峰一般,系统的扩展不是线性爬坡,而是一次次“回到山脚”,重新建立假设与架构、重新规划路径与工具。每一次跨越数量级的系统升级,本质上都是一次系统的重新再造。

在这个过程中,我们也逐渐意识到,人工智能不仅是系统的负载和挑战,更可能成为新的“系统伙伴”。面对系统扩展过程中的复杂性、不确定性与非线性,人工智能有望辅助规划、优化决策、自动调参、系统实现和维护,甚至参与设计。

系统为AI提供运行的土壤,AI也将在反哺系统设计中发挥越来越大的价值。这是一个深层次的共生过程,也是计算机科学走向新纪元的前奏。

围绕三个核心目标实现协同进化

人工智能与计算机系统如何从“相互依赖”走向“协同进化”?这一问题的答案正逐渐清晰:我们必须跳出以往单点突破的思维方式,转向系统性、结构化的协同创新路径。

围绕“效率(Efficiency)、可信(Trust)、融合(Infusion)”三个核心目标,我们看到了一条可行的进化路线。这三个维度并非孤立存在,而是共同构成了人工智能与系统之间相互增强、螺旋上升的基础结构。它们代表着我们从算法与模型出发,逐层深入软件、系统与硬件,最终实现从设计理念到工程实践的整体跃升。

这不仅是一场技术的整合,更是一次范式的重塑:系统不再只是AI的“承载平台”,而是AI自身演进机制的一部分;AI也不再只是运行于系统之上的应用,而是成为推动系统持续演化的内在引擎。以下将从效率、可信和融合三个角度展开,具体探讨人工智能与计算机系统如何在技术路径上迈出协同进化的实质性步伐。

一、效率

尽管人工智能近年来取得了飞跃式进展,但其能效与灵活性仍远不及人类大脑。我们希望缩小两者之间的数量级差距,让人工智能既可以在云端高效运行,也能广泛部署在终端设备中,实现“随处可用”的智能体验。要实现这一目标,离不开模型架构、系统软件与硬件设计的协同突破。对于系统研究者而言,这意味着我们必须打破传统分层设计的局限,推动更深入的跨层协作。这种跨层的系统性思维,为人工智能效率的持续跃升奠定了坚实的基础。

在模型架构方面,微软亚洲研究院近年来聚焦于极低精度表示的探索,并创新性地提出了基于三元表示(-1,0,1)的BitNet架构。该架构支持1-bit大语言模型(LLMs)的训练与推理,且随着模型规模的扩大,其效率优势愈加显著,性能可与同规模的全精度模型媲美。

但只有模型上的创新远远不够。如果新架构仍运行在传统的软硬件堆栈上,那么其效率优势将大打折扣。为此,我们的系统团队引入了基于查找表(Lookup Tables, LUT)的执行机制,在不更改现有硬件的前提下实现了计算效率的大幅提升,并显著降低了能耗,使得诸如BitNet这样的超高效模型能够在普通的个人电脑乃至边缘设备上运行。

这些工作背后,离不开系统研究团队与AI团队的密切协作——从架构设计初期就引入系统反馈,促使模型设计与系统实现协同演进,构建起一个贯穿算法、软件与硬件的高效路径。更进一步,当前主流的AI模型多为GPU架构优化而设计,但要实现效率极限,还需打破模型架构与硬件平台间的强绑定。这就需要新的抽象与中间表示形式,以实现模型与硬件的解耦,从而为模型设计和硬件开发提供更大的自由度。这同样离不开系统研究者与AI研究者之间长期、深入的协同合作。

二、可信(Trust)

对于计算机系统,“可信”一直是一个关键的要素,意味着系统必须可靠、准确、符合预期。我们总在尽可能地确保所使用的系统足够可信,即使某些部件可能存在缺陷,或者系统受到恶意攻击。但在人工智能介入后,情况变得更加复杂,同时也带来了新的创新机遇。

既然系统具备强大的“可信”特质,那么是否能将其借鉴到人工智能中?

我们不妨从系统实现可信性的基础入手。在系统领域,我们总是努力创建一个尽可能小的可信计算基(Trusted Computing Base, TCB),并通过引入验证器(verifier)来检查系统的关键属性是否符合预期,从而验证其可信性。这种“信任但验证”(trust but verify)原则同样可用于人工智能,以应对其固有的随机性和创造性(即“幻觉”)所带来的挑战。我们可以构建一个独立于人工智能系统之外的可信计算基,并在其中部署验证器,然后对人工智能生成的内容进行验证,确保只有可验证的正确输出才能被接受。

系统的另一大优势在于能够提供即时、直接、准确且可复现的反馈。这种反馈不仅完全符合预期,而且在相同输入条件下始终能够产生相同的结果。相比之下,人工智能的应用往往难以提供这种确定性反馈。人工智能的许多任务仍依赖人类监督(如强化学习中的人类反馈,RLHF),或者需要等待模拟结果,而这些结果可能不够准确;在某些情况下,还需要建模物理世界,甚至依赖于系统外的生物或化学变化过程。

近年来,基于形式方法(formal methods)和形式验证(formal verification)的研究得到了广泛关注,并在可信系统的构建上取得了显著进展。例如,在微软雷德蒙研究院的最新研究中,研究员们提出了在Rust代码中添加基于逻辑的注释,以确保代码能够满足特定的规范。这些注释包括前置条件、后置条件和不变量。研究员们还开发了一个名为“Verus”的验证器,用于自动检查代码的正确性。这种方法只需在代码中添加形式验证组件,看起来就像是对编程语言的一种扩展。

这些研究让我们看到人工智能不仅能够生成代码,还能进一步生成可以被验证为正确的代码的可能性。这成为我们一个重要的研究方向。然而,这是一个极具挑战性的任务。研究员们手动创建了150个任务作为基准测试,最初基于GPT-4的实验结果显示,即便在各种优化的提示下,GPT-4 也只能成功处理不到30%的任务。但从积极的角度来看,我们已经迈出了第一步。我们的目标是利用验证系统的反馈机制,使人工智能能够学习如何生成可证明其正确性的代码。大语言模型在尝试不同策略方面具有天然的优势,通过不断地接受正确或错误案例的反馈,人工智能可以逐步掌握如何编写符合形式验证要求的代码。经过持续的迭代和反馈循环,在同一个基准测试中人工智能的成功率不断提升,已达到90%以上。但这只是一个阶段性的里程碑,不表示人工智能已经拥有产生可验证代码的能力。

最终,我们希望人工智能能够掌握形式方法的严谨思维模式,并提高其整体推理能力。我们相信,这一研究方向在提升人工智能可信性的同时,也为人工智能与计算机系统的进一步融合奠定了坚实的基础。

三、融合(Infusion)

通过与人工智能的深度融入,打造更强大、高效且可靠的新一代系统,是我们对未来系统演进的核心愿景之一。人工智能与系统的融合将催生出一种全新的系统设计范式:人工智能擅长从复杂数据中发现规律、提出创见性建议;而系统具备将这些建议验证、编译、反馈并最终落地的能力。正是在这种反馈闭环中,系统与人工智能得以实现双向赋能。

事实上,我们已经在多个系统场景中实践了这一融合路径。例如,在分布式人工智能系统基础设施中,“聚合通信”(collective communication)作为关键组件,其调度效率直接影响整体性能。在模型训练和推理过程中,聚合通信通常占据总执行时间的30%至70%。然而,最佳的通信调度方案高度依赖硬件架构与模型负载的组合,手动为每一种组合优化调度不仅耗时巨大,还需具备极高的系统专业知识。

传统的人工智能方法尚不足以独立完成通信调度代码的自动生成,而通过融合人工智能与系统的能力,我们提出了一种新的设计模式。以OptiFlow项目为例,我们定义了一套可学习的通信调度抽象,人工智能根据系统反馈不断提出新的调度方案,系统则负责验证、编译并反馈执行效率,驱动AI迭代优化。该系统已在微软Azure云上成功部署,自动生成的调度策略完全可以达到或优于人工设计,并将工作效率提升了一个数量级。

同样的融合方法也可以被应用于拥塞控制领域。在诸如WebRTC这类对实时性和带宽控制要求极高的场景中,我们让人工智能根据系统反馈生成拥塞控制策略,并由系统进行验证和执行。结果显示,AI设计出的方案在效率和体验上显著优于人类专家的设计。

这些实例揭示了一种新的可能性:通过系统与人工智能的深度融合,我们正迈向一个双向协作的新范式。这种范式既发挥了人工智能在模式识别和生成上的优势,也保留了系统在验证、控制和执行路径上的稳定性。未来,若能进一步将这种协同范式系统化,我们就有望将人工智能嵌入到更多关键计算系统中,从而催生出新一代真正以智能驱动的系统基础设施。

结语

人工智能与计算机系统的结合,是科技演进的趋势,更是一场深刻的范式转变。围绕“效率、可信与融合”这三大核心目标,我们已经在模型设计、系统验证和协同优化等多个维度取得了积极进展。我们看到,系统为人工智能提供了更高效、更可信的执行土壤,而人工智能也在重塑系统的设计理念与实现方式。

但这只是协同进化的起点。更大的挑战仍在前方:我们如何构建具有学习能力的系统,使其能够不断自我演化?我们如何让人工智能具备工程理性与逻辑约束,使其成为真正可控、可验证的智能体?我们又该如何将这一协同机制系统化,使其能够适应千变万化的现实场景?

我坚信,人工智能与系统的融合,不是一个取代与被取代的过程,而是一种双向赋能、互为镜像的关系。只有通过协同设计、共同进化,我们才能真正突破当下的技术瓶颈,迈向一个由智能与系统共塑的未来。那将是一个以智能为驱动、以系统为保障的计算新时代!

(本文作者周礼栋现任微软公司全球资深副总裁、微软亚太研发集团首席科学家、微软亚洲研究院院长。原标题:硅基世界的“缘分”——系统与人工智能携手进化。)

有话要说...