液冷,AIGC发展路上的一场甘霖

作者:兰洋科技    浏览量:3751    时间:2023年08月04日    标签: AI人工智能 ChatGPT 液冷技术
00简介

2023年被戏称为人工智能的元年,因为它标志着人工智能(AI)的崛起和普及。在这一年里,AI不仅在科技、经济、社会、文化等各个领域取得了突破性的进展,而且在人类的日常生活中扮演了越来越重要的角色。这一年元宇宙、AR/VR、虚拟数字、生成式人工智能等等概念都在逐渐靠近人们的现实生活。

人工智能(Artificial Intelligence),英文缩写为AI。 它是研究、开发用于模拟、延伸和扩展的智能的理论、方法、技术及应用系统的一门新的技术科学。人工智能是新一轮科技革命和产业变革的重要驱动力量。生产式人工智能(AIGC) 是 AI 领域中的一个重要分支, 主要指通过机器学习等技术生成内容的技术范畴。 

AIGC 技术的兴起可以追溯到近年来机器学习和深度学习等技术的发展。AIGC 指人工智能生成技术, 它是一种利用机器学习和神经网络等技术来生成各种形式内容的技术。这些内容包括文本、 图像、 音频等等, 通常是通过输入大量的训练数据来训练模型, 并使用这些模型来生成新的内容。2023 年, ChatGPT 应用的出现展示了 AIGC 的潜力, 掀起了 AIGC 的发展浪潮。

01背景

ChatGPT 是美国人工智能研究实验室 OpenAI 开发的一种全新聊天机器人模型,它能够通过学习和理解人类的语言来进行对话,还能根据聊天的上下文进行互动,并协助人类完成一系列任务。其中 GPT 指代的是一种模型,其是“Generative Pre-trained Transformer” 生成型预训练变换模型的缩写,目的是为了使用深度学习生成人类可以理解的自然语言。2022年该产品在一经发布掀起了全球AI行业的“军备竞赛”。

GPT-3 的神经网络包含 1750 亿个参数与GPT-2相比增量达到117%,为有史以来参数最多的神经网络模型。回顾 GPT 的发展,  GPT-1 只有 12个 Transformer 层,而到了 GPT-3,则增加到 96 层。其中, GPT-1 使用无监督预训练与有监督微调相结合的方式, GPT-2 与 GPT-3 则都是纯无监督预训练的方式, GPT-3 相比 GPT-2的进化主要是数据量、参数量的数量级提升。2021年1月Google推出的SwitchTransformer模型参数量进一步提升到1.6万亿。

来源:数字金融网微信公众号、天风证券研究所

大规模语言模型参数未来会持续增长,而且是极速的增长!

02AIGC的核心

AIGC的快速发展依赖于三个核心要素:数据,算法,算力。这个观点已经得到了业界的高度认可。其中, 数据是算法的基础, 充足、 高质量的数据是训练出准确、 有效模型的前提。算力则是支撑数据和算法的基础, 它可以提供更高效的数据处理和算法训练能力。算法则是决定 AIGC 平台性能和应用效果的关键, 可以从数据中提取有价值的信息, 从而解决各种实际问题。

(1)算法:算法是一系列解决问题、 实现特定功能的有序指令和步骤。在AIGC 行业中, 算法是模型的基础, 用于实现数据分析、 人工智能模型训练等功能。

(2)数据:AIGC 平台依赖于大量的数据来进行训练和优化模型。这些数据可以来自于多种来源,例如云端存储、数据库、物联网设备、传感器等,大数据技术可以对海量数据进行有效处理、分析和存储,而AIGC需要对这些数据进行有效的收集、 存储和管理, 以便训练出更准确、更具代表性的模型。

(3)算力:算力指计算设备执行算法、 处理数据的能力, 包括 CPU、 GPU、GPGPU、 FPGA、 ASIC 等, 其中 GPGPU 是目前全球人工智能相关处理器的主要解决方案。由于需要通过训练去调整AIGC 的各个参数,因此计算量是很大的,需要高性能的计算机去实现。

算力:产业基石造化万物

算力层作为AIGC行业的底层是构筑全产业链的基础支撑整个行业的发展和进步。

全球算力高速发展态势:2021年,全球计算设备算力总规模达到615EFlops(floating-point operations per second),增速44%。2030年,有望增至56ZFlops, CAGR达到65%, 其中智能算力由232EFlops增至52.5ZFlops, CAGR超过80% ;算力翻倍时间明显缩短:大模型出现后,带来了新的算力增长趋势,平均算力翻倍时间为9.9个月。IDC 预测,中国智能算力规模将持续高速增长,预计到 2026 年中国智能算力规模将达到 1271.4EFLOPS, 22-26 年复合增长率达 52.3%,同期通用算力规模的复合增长率为 18.5%。

全球算力高速发展态势: 根据通信世界数据, ChatGPT 的总算力消耗约为3640PF-days (即假如每秒计算一千万亿次,需要计算 3640 天) ,需要 7-8 个投资规模 30亿、算力 500P 的数据中心才能支撑运行。ChatGPT 需要 TB 级的运算训练库,甚至是 P-Flops级的算力。2022年Intel第四代服务器处理器单CPU功耗已突破350瓦,英伟达单GPU芯片功耗突破700瓦, AI集群算力密度普遍达到50kW/柜。算力提升的背后, 芯片必须具备更高计算效率,在更短时间内完成更多运算,因而必然伴随芯片能耗的加大,因此机柜功率或将迎来大幅提升, 散热问题将愈加突出。

[冷知识]:现阶段的 ChatGPT 是在拥有 3000 亿个单词的语料基础上预训练拥有 1750 亿参数的模型,GPT-4 将是一个拥有超过 100 万亿级别参数的大模型。根据学术界的既有研究可知,深度神经网络的学习能力和模型的参数规模呈正相关。人类大脑皮层有 140 多亿个神经细胞,每个神经细胞有 3 万余个突触,因此,大脑皮层的突触总数超过 100 万亿个,神经细胞通过突触相互建立联系。一旦 GPT-4 实现 100 万亿参数规模,就可以堪比人的大脑,意味着它将达到与人类大脑神经触点规模的同等水平。

03服务器冷却发展史

(1)1950年代-1970年代:无空调、自然通风的冷却系统

在计算机还未普及的年代,由于设备数量较少,数据中心的散热问题并不突出,大多采用自然通风或者简单的风扇进行散热。

(2)1980年代:空调出现,开始使用机柜

随着计算机的普及和设备数量的增加,传统的散热方式逐渐失效,数据中心开始采用空调系统来控制温度。此时,机柜的使用成为一种普遍的趋势,空气流通更加合理,散热效率也得到提升。

(3)1990年代:功率密度提高,空气冷却开始失效

随着计算机性能的不断提高,设备的功率密度也越来越高,传统的空气冷却方式已经难以满足需求,寻求新型散热方式成为了数据中心行业的关键课题。服务器散热效率低、能耗高、故障率高也成为数据中心行业面临的痛点。

(4)2000年代初期:液冷技术开始应用

液冷技术因其高效、低能耗的特点逐渐受到关注。早期的液冷技术主要是利用液体传热的优势来提高服务器的散热效率。例如,在2003年,IBM公司推出了一种基于水冷技术的服务器,通过将水导入散热器,从而取代了原本的风扇。

(5) 2010年代:液冷技术不断完善,应用范围逐渐扩大

随着技术的不断进步,液冷技术的应用范围不断扩大。例如,英特尔公司在2012年推出了一种名为“热分区”(Thermal Zone)的技术,通过将散热器与芯片直接连接,提高了散热效率,同时降低了功耗。此外,液冷技术还被应用于超级计算机等高性能计算领域,以提高计算机的性能和稳定性。

2014年,全球最大的数据中心运营商之一谷歌位于芬兰的数据中心,使用了一种名为“完全液冷”(All-liquid cooling)的技术,即将所有服务器都浸入到液体中,从而将热量传递给液体,再通过外部的换热器将液体散热出去。

微软也在其位于爱尔兰都柏林的数据中心中,使用了名为“液体模块”(Liquid Module)的液冷系统,来降低能耗和提高服务器性能。

液冷技术的应用不仅可以提高散热效率,同时也能够降低数据中心的能耗和碳排放。据统计,采用液冷技术的数据中心的能耗和碳排放量可以分别降低40%和90%以上。因此,液冷技术被认为是未来数据中心的重要发展方向之一。

04液冷技术

算力提升的背后是芯片必须具备更高计算效率,因而必然伴随芯片能耗的加大,导致电子器件工作过程中的温度升高。此外数据中心机柜的功率密度持续升高给数据中心的热管理带来了严峻的挑战。制冷系统是数据中心重要基础设施之一,高密度数据中心运行中,传统风冷面临散热不足、能耗严重的问题,液冷技术成为了降低数据中心 PUE 的优解。

液冷是指通过流动的水或者液态制冷剂带走设备产生的热量,而不是让热量直接散发在空气中,通过冷却空气来制冷。液冷技术可分为冷板式液冷浸没式液冷喷淋式液冷三种。

4.1 液冷的发展历程

我国液冷技术起步稍晚于国外,但起步后发展迅速,后期与国外发展进程基本同步,并且在液冷规模试点应用方面积累了丰富经验。

来源:电信运营商液冷技术白皮书

4.2 冷板式液冷

冷板式液冷是服务器芯片等高发热元件的热量通过冷板间接传递给液体进行散热。发热体热量通过冷板金属传递给冷板中的液体, 液体将热量带出与外界冷源进行热交换,使用最多的冷却介质是水。 

芯片设备热量通过热传导传递到液冷板,工质在 CDU 循环泵的驱动下进入冷板,之后在液冷板内通过强化对流换热吸收热量温度升高,高温工质通过 CDU 换热器将热量传递到一次侧冷却液,温度降低;低温的工质再进入循环泵,一次侧冷却液最终通过冷却塔将热量排至大气环境中。

冷板式液冷安装较为简洁,改造成本低,材料的兼容性好,发展速度最快,均价低于浸没式,是目前液冷数据中心采用最广泛的散热冷却方式,在 HPC、 AI 高密计算领域商用超过 8 年时间,技术成熟,生态完善。

4.3 浸没式液冷

单相浸没式液冷将 IT 设备浸没在装有冷却介质的密封槽中,冷却介质经过发热设备后利用升温显热交换热量,过程中不发生形态变化, 升温后的液体在泵的作用下流入冷却器降温并回流至冷却介质槽, 继续散热循环。

两相浸没式液冷的液体在冷却介质槽内与热源接触,在循环散热的过程中不断经历气态至液态的转化。

浸没式液冷对冷却介质的物理性质有较高要求,需要绝缘性强、粘度低、腐蚀性小、热稳定性高的材料, 一般情况下均价高于冷板式方案。浸没液冷的机柜没有密封外壳, 是目前最常见的直接接触型液冷技术。

浸没式液冷优势在于:(1)冷却液与发热设备直接接触,具有较低的对流热阻,传热系数高;(2)冷却液具有较高的热导率和比热容,运行温度变化率较小;(3)冷却液绝缘性能优良,闪点高不易燃,且无毒、无害、无腐蚀。因此浸没式液冷技术适用于对热流密度、绿色节能需求高的大型数据中心、超级计算、工业级其他计算领域和科研机构,特别是应用于地处严寒、高海拔地区,或者地势较为特殊、空间有限的数据中心,以及对环境噪音要求较高,距离人群办公、居住场所较近,需要静音的数据中心具有明显优势。

4.4 喷淋式液冷

喷淋式液冷是将冷却介质直接精准喷淋至发热部件上的散热技术。喷淋式液冷按照冷却介质在发热物体表面是否发生相变可以分为单相、 相变喷淋式。单相喷淋式滴液尺寸较大且不发生相变,在部件表面形成薄边界层换热;相变喷淋式是在单相基础上,将冷却介质雾化成为小液滴,在发热物体表面通过汽化的方式带走热量。 

喷淋式换热属于芯片级别换热,冷却效率高但难度较大,液体喷淋过程中可能会出现液体飘逸现象,对机房环境或其他设备造成影响,尚未大规模应用到数据中心冷却。

05行业分析

5.1 市场规模及格局

液冷技术更适合于AI的快速发展,同时相对于其他液冷方式,浸没式液冷具有明显的优势。根据《中国液冷数据中心发展白皮书》数据,乐观估计2025年中国液冷数据中心市场规模将达到1330.3亿元,其中浸没式液冷市场占545.4亿元;保守估计2025年中国液冷数据中心市场规模1283.2亿元,其中浸没式液冷市场占526.1亿元,占比将超过40%。

来源:中国液冷数据中心发展白皮书

浸没式液冷数据中心凭借其优良的制冷效果,市场份额增长速度较快,浸没式液冷数据中心的占比将从 2019 年的 18%左右提升至 2025 年的 40%左右。据《中国液冷数据中心发展白皮书》,通过对液冷数据中心产品营收、市场占有率、技术专利等维度的综合评价,中科曙光、华为、阿里及联想为液冷数据中心的领导者,广东合一、浪潮位于挑战者位置,戴尔、维谛、英维克等处于跟随者地位。从温控设备供应市场来看, 英维克、佳力图、申菱环境、依米康等为机房温控设备的主要供应商,同飞股份、高澜股份等工业温控领域“玩家” 有望凭借技术同源快速切入数据中心温控市场。从液冷历史来看,海外厂商具有先发优势,中国厂商后来居上实现突围,目前中国厂商对液冷服务器技术的探索已不落后于海外企业,在大规模商业应用的经验上已经处于领先地位。

5.2 政策支持,加速推进

在国家“双碳”政策的背景下,数据中心的PUE指标不断降低。算力的持续增加,意味着硬件部分的能耗也在持续提升;在保证算力运转的前提下,只有通过降低数据中心辅助能源的消耗,才能达成节能目标下的 PUE 要求。

从国家层面来看,随着新一代 IT 技术、产业数字化转型等多样化算力需求场景不断涌现,算力的赋能效应逐渐凸显,政府对于算力基建的投入逐渐加大,尤其在超算中心建设方面,国家给予了大力的支持和指导,目前已有多个政府项目采用液冷作为换热系统,未来搭载液冷系统的超算中心有望成为主流。

06总结

凭借高效制冷、技术成熟、成本优势,液冷尤其是浸没式液冷的发展前景毋庸置疑,但想要实现继续推动技术的突破创新,推进相关解决方案的进步,需要整个行业的共同努力,这包括技术的发展以及与其他节能技术的结合,行业标准制定与完善等,需要行业领军者在技术上进行新的突破。液冷行业标准的制定,将有效推动行业规范化的发展,也为数据中心液冷的发展指出方向,为液冷的研发提供有力的支撑,为液冷接下来的发展奠定基础,从而进一步发挥数据中心液冷在高效制冷、节能减碳方面的作用,实现国家的“双碳”目标。未来行业应加强合作,提高凝聚力促进产业、高校和研究单位的合作,进一步建立协同发展的合作机制,为液冷行业的快速高质量发展提供最坚实有力的保障。

参考资料

[1]Applied Thermal Engineering,Investigation on the two-phase loop cooling system composed of maglev compressor and liquid pump for data centers(2023)。

[2]International Journal of Thermal Sciences, Design and performance research of integrated indirect liquid cooling system for rack serve(2023)。

[3]电信运营商液冷技术白皮书(2023)。

[4]Composites Part A: Applied Science and Manufacturing,Recent advances on graphene: Synthesis, properties and applications(2022)。

[5]信达证劵,运营商力推液冷,中心液冷技术领先,有望核心受益(2023)。

[6]招商证劵,温控液冷,AIGC按下加速键(2023)。

[7]招商证劵,AI推动液冷从0到1,产业链共振迈入新技术周期(2023)。

[8]天风证劵,数字经济下+AI浪潮下IDC或迎投资机遇,重视液冷领先布局厂商(2023)。

[9]百度百科,人工智能。

[10]百度百科,一文读懂服务器冷却系统发展。

[11]亚洲数据集团,AIGC产业应用实践。

[12]清华大学沈阳团队,AIGC发展研究。

本文标题:液冷,AIGC发展路上的一场甘霖

本文链接:https://www.blueocean-china.net/faq3/723.html
[版权声明]除非特别标注,否则均为本站原创文章,转载时请以链接形式注明文章出处。

全国统一服务热线
15336679905
Copyright ©2019-2023 兰洋(宁波)科技有限公司 版权所有
ICP备案:浙ICP备2021021247号