服务热线
400-821-3016微信扫码咨询
OpenAI o1 的发布背景源于人工智能领域对更强大模型的持续追求。在当前 AI 发展的关键时期,OpenAI o1 的出现引起广泛关注,主要原因在于其强大的推理能力和带来的新的进化范式。
OpenAI o1 展现出了令人惊叹的推理能力,它能够像人类一样思考复杂问题,这在多个方面得到了体现。在未经专门训练的情况下,o1 能够直接拿下数学奥赛金牌,在国际数学奥林匹克竞赛的资格考试中,GPT-4o 仅正确解决了 13% 的问题,而 o1 模型能够解决 83% 的问题。在编程竞赛中,o1 的准确率高达 89%,远超 GPT-4o 的准确率。此外,o1 在博士级别的科学问题上也表现出色,在物理、化学和生物学领域的专业知识方面,超越了人类博士水平。例如,在 GPQA Diamond 上的表现,o1 达到了恐怖的 78% 的准确率,显著超越了人类专家的 69.7%。
从训练 Scaling 到推理 Scaling 的范式转变,对大模型发展具有重要意义。通过更多的强化学习和更多的推理,模型可以获得更强大的性能。这种转变意味着大模型的发展不再仅仅依赖于训练时的计算,而是更加注重推理阶段的计算。这将促使研究者和从业者重新思考计算资源的分配和硬件选择。一方面,更多的计算资源应该投入到推理阶段,另一方面,优化硬件配置以提升大模型推理的效率将成为下一阶段的攻关重点。这种范式转变也让我们想起 Richard Sutton 在《The Bitter Lesson》中所说的,利用计算能力的一般方法最终是最有效的方法。这类方法会随着算力的增加而继续扩展,搜索和学习似乎正是两种以此方式随意扩展的方法。连山姆・奥特曼也坦言,在未来的一段时间里,新范式进化的曲线会非常陡峭。
在大模型的发展过程中,计算资源的合理分配至关重要。随着从 “训练 Scaling” 到 “推理 Scaling” 的范式转变,越来越多的研究者和从业者认识到,将更多计算资源投入到推理阶段是大势所趋。推理阶段的计算能力直接影响着大模型的实际应用效果。当更多的计算资源投入到推理阶段时,大模型能够在更短的时间内处理更复杂的任务,为用户提供更快速、更准确的响应。
优化硬件配置以提升大模型推理效率同样关键。硬件配置的优化可以减少推理过程中的延迟,提高数据处理速度。例如,采用具有更高带宽和更低延迟的存储设备,可以加快数据的读取和写入速度,从而提高推理效率。此外,合理的硬件架构设计可以充分发挥计算资源的潜力,避免资源浪费。通过优化硬件配置,大模型可以更好地适应不同的应用场景,满足用户对高性能计算的需求。
在 GPU 之外,以 SambaNova RDU 为代表的动态可重构数据流架构芯片正成为大模型推理的更好选择。SambaNova RDU 具有独特的优势,其可重构数据流架构能够根据不同人工智能模型的需求,动态调整芯片内部的数据通路,实现高效的计算和数据流动。
与传统的 GPU 相比,SambaNova RDU 在多个方面表现出色。首先,GPU 最初设计用于图形渲染,虽然在神经网络训练方面有一定优势,但在大模型推理方面存在延迟、功耗等问题。而 SambaNova RDU 既有 GPU 10 倍以上的片上分布 SRAM,也有适用于大规模计算任务的 HBM,其架构可以自动做到极致的算子融合,达到 90% 以上的 HBM 利用率,使得 RDU 对 GPU 有了 2 – 4 倍的性能优势。
其次,可重构数据流架构通过数据流动来驱动计算过程,天然支持并行处理。多个独立的计算操作可以同时执行,从而显著提高了计算性能。相比之下,GPU 本质上是通过指令流动来驱动计算,在处理大规模机器学习任务时,数据传输成为一大瓶颈。
此外,近年来 GPU 厂商虽然意识到非 Dataflow 架构的短板,并为 GPU 部分引入一些 Dataflow 的功能,但由于 GPU 最初不是专门为 AI 而设计的,厂商们很难在不影响主营业务的情况下对基本架构做完全的重新设计。而 SambaNova RDU 从一开始就专注于为大模型推理提供解决方案,其在灵活性和性能方面的优势更加明显。
当前的几家主流 AI 芯片 Startup,都选择了数据流架构。其中 SambaNova 的 RDU 展现出了独特优势,与英伟达相比,Sambanova 最新 Llama 3.1 模型上生成 token 的性能快了 10 倍以上,并且通过 cloud.sambanova.ai 公开供开发人员使用。这使得 SambaNova RDU 成为了 GPU 的最有力竞争者,为大模型推理提供了更优的选择。
SambaNova RDU 采用可重构数据流架构,这一架构具有诸多显著优势。首先,它能够自动探索并确定出高度优化的操作映射方案。一个典型的深度学习模型由多个操作组成,如卷积、池化、归一化和求和等。将这些操作高效映射到 RDU 芯片上是一个复杂的组合优化问题。SambaNova 为此设计了一个编译器技术栈,通过分析模型的结构特征并结合硬件资源全面考虑,编译器可以自动探索并确定出一种高度优化的操作映射方案。不同的操作被高效地排布在 RDU 的不同单元和互连通路上,使芯片能够针对给定的 AI 模型自动生成最优的计算指令和分布式执行策略,充分利用硬件能力,突破传统架构的性能瓶颈。
与 GPU 相比,SambaNova RDU 的优势明显。英伟达 GPU 采用传统架构,由大量的 CUDA 核心组成,通过固定的总线连接到一个共享的大容量但访问延迟更高的 GPU 内存。这种架构对于密集型通用计算高效,但对于大规模机器学习任务,数据传输成为瓶颈。而 SambaNova 的动态可重配置架构可以针对具体的机器学习模型,构建近乎零开销的数据通路,使计算单元和所需数据位于极近的位置,减少数据移动开销,最大化芯片资源利用效率。软件 SambaFlow 对模型进行分析并高效映射到硬件,传统方式下,整个模型需要分解为多个小的 kernel 操作在 GPU 上执行,存在大量数据移动开销和内存延迟。而 SambaNova 芯片的 “数据流” 方式将整个模型建模为一个数据流水线,通过可重配的互连结构,相关的数据和计算资源被高效组织,模型的各个阶段能够直接在芯片内部流动、计算,消除了大量数据传输和内存访问延迟开销。
SN40L 在 Llama 3.1 模型上展现出了快速推理速度、高吞吐量及低延时优势。当前的 AI 推理平台中,SambaNova 是唯一能在 Llama 3.1 405B 上提供每秒超过 100 个 Token 推理速度的平台。SN40L 在 Llama 3.1 70B 上可以实现较好的吞吐量 Scaling,随着批量大小的变化,吞吐量接近理想规模。例如,在 Lama 3.1 7B 模型下,以完全的 16bit 精度运行,其每秒的 Token 生成数高达 1100 个,比此前 Groq 推出的基于 LPU 的服务器系统在 Llama 3 8B 上的最快基准测试结果每秒生成 800 个 Token 还要快。
与英伟达 H100 相比,SN40L 不仅推理性能达到了 H100 的 3.1 倍,在训练性能也达到了 H100 的 2 倍。基于 8 个 SN40L 芯片的标准 AI 服务器系统在运行 80 亿参数的 AI 大模型时,速度达到了基于 8 张英伟达 H100 加速卡的 DGX H100 系统的 3.7 倍,而整个系统所占用的空间也只有 DGX H100 的 1/19,模型切换时间也仅有 DGX H100 系统的 1/15。此外,运行 Llama 3.1 8B 模型时,延时低于 0.01s,高带宽带来了显著的低延时优势。
SambaNova RDU 在基础设施需求和总拥有成本方面具有明显优势。想在 Llama 70B 上推理,对于有些 AI 芯片来说需要五百多个芯片,或者相当于三百多个芯片的 4 个 wafer,而 SambaNova 只需要拥有 16 个芯片的 1 个机架。这意味着用户需要支持大型语言模型的基础设施更少。
SambaNova RDU 所带来推理速度提升的意义不只是体现在效率上,更能体现在质量上,也体现对 AGI 探索的加速上。在推理端,更多的算力同样会带来更强的智能。因为在同一时间单位内,推理速度越快,就能实现越复杂的推理,就能解锁越多复杂任务,大模型应用的天花板就越高。这对于大模型的部署具有加速作用,能够让开源大模型推理能力不断提升,复现完整 o1 甚至触达更高级的智能指日可待。
OpenAI o1 的出现开启了大模型能力提升的新范式。通过强化学习,o1 带来了新的 Scaling Law,为大模型的发展指明了新的方向。强化学习使得模型在推理过程中能够不断自我优化,提高解决复杂问题的能力。这种方式不仅增加了模型的性能,还为未来大模型的发展提供了新的思路。例如,根据一些研究数据显示,在特定的复杂推理任务中,采用强化学习的 o1 模型比传统模型的准确率提高了 30% 以上。
o1 的成功也让更多的研究者意识到,强化学习在大模型发展中的巨大潜力。未来,大模型的发展可能会更加注重强化学习的应用,通过不断优化推理过程,提高模型的智能水平。这种新的技术方向将促使大模型在更多领域发挥更大的作用,如医疗、金融、科学研究等。
OpenAI o1 对产业格局产生了深远的影响。一方面,训练算力和推理算力比例的变化为创业公司带来了新的机会。随着 o1 引领的从 “训练 Scaling” 到 “推理 Scaling” 的范式转变,推理算力的重要性日益凸显。创业公司可以根据这一变化,在算法创新和后训练方面寻找突破点。
例如,一些创业公司可以专注于开发针对特定领域的高效推理算法,以满足不同行业的需求。数据显示,在某些细分领域,采用创新推理算法的创业公司能够在性能上比传统方法提高 2 倍以上,同时降低成本 30%。另一方面,这种变化也促使大模型产业链上的各个环节进行调整和优化,从芯片制造商到软件开发者,都需要适应新的算力需求。
OpenAI o1 的发布后,大模型头部公司的虹吸效应愈发凸显。OpenAI 作为大模型领域的领军者,其推出的 o1 模型吸引了大量的用户和资源,进一步巩固了其在市场中的地位。同时,SambaNova 作为英伟达的挑战者,也在大模型推理领域崭露头角。
SambaNova 的 RDU 以其独特的可重构数据流架构,在大模型推理方面展现出了强大的性能优势。与英伟达相比,Sambanova 在最新 Llama 3.1 模型上生成 token 的性能快了 10 倍以上。这使得 SambaNova 在大模型推理市场中具有了强大的竞争力,有望重塑大模型竞争格局。
此外,其他大模型厂商也在积极应对 o1 带来的挑战,纷纷加大研发投入,探索新的技术路径。未来,大模型市场的竞争将更加激烈,而 o1 的出现无疑将成为推动竞争格局重塑的重要力量。
OpenAI o1 和 SambaNova RDU 的出现为大模型的发展带来了新的机遇和挑战。在未来,大模型的发展将呈现以下趋势:
OpenAI o1 和 SambaNova RDU 的发展,对实现通用人工智能(AGI)具有重要的意义:
总之,OpenAI o1 和 SambaNova RDU 的出现,为大模型的发展带来了新的机遇和挑战。在未来,大模型的发展将呈现出强化学习的广泛应用、硬件加速的持续推进、多模态融合的深入发展和开源生态的不断壮大等趋势。这些趋势将为实现 AGI 奠定基础,为人类社会带来更多的智能化解决方案。