我國一體化算力網建設面臨四大挑戰在數字經濟潮涌與大模型井噴的時代,算力正如水、電一般,逐日成為現代社會賴以生存的稀缺資源??梢哉f,誰擁有了算力的主導權,誰就捏住了面向人工智能的頭等船票。 這樣的時代巨浪下,我國的算力也已步入高速發展新階段。在此過程中,構建全國一體化算力網,更是應對新一輪科技革命和產業變革的重要舉措。 在“東數西算”工程公布兩年之際,當前我國算力網體系建設現狀怎樣?如何進一步強化全國一體化算力體系?就此,21世紀經濟報道推出“算力網風云”系列報道,圍繞中國算力一體化體系建設現狀、難點與堵點、產業鏈機會等進行全方位解讀。 在全球都在瘋搶算力的背景下,我國也在持續提速算力一體化體系建設的進程。 2022年,“東數西算”工程正式啟動,標志著全國一體化算力體系不斷加速推進。今年的政府工作報告則明確提出,適度超前建設數字基礎設施,加快形成全國一體化算力體系,培育算力產業生態。 不過在這個過程中,產業仍面臨著挑戰。近日,在由21世紀經濟報道、21世紀新質生產力研究院主辦的“高端智庫看新質生產力之一體化算力建設”閉門研討會上,中國信通院云計算與大數據研究所所長何寶宏指出,當前全國一體化算力網面臨著算力供需匹配機制不健全、算力網絡傳輸能力不足、數字時代能耗危機、算力產業鏈生態鏈不完善等瓶頸。 就此,何寶宏建議,應當從推動需求流動到推動算力互聯成網,優化數據直連通道并提升算網融合進程,同時強化智算資源建設從而夯實創新發展底座,并促進綠色節能降耗、落實綠色技術應用,以及完善算力生態體系,推進產業交流合作。 算力布局提速 當前,算力成為世界各國科技競逐的主賽道,各方均在持續加速推進算力戰略與布局。 根據清華大學全球產業研究院披露的數據顯示,以生成式AI為代表的AI計算未來將呈現暴漲態勢。全球AI計算市場規模將從2022年的195.0億美元增長到2026年的346.6億美元,其中生成式AI計算市場規模將從2022年的8.2億美元增長到2026年的109.9億美元。 在這個過程中,全球算力網絡市場也持續保持增長。清華大學全球產業研究院發布的數據顯示,2018年至2023年全球算力網絡市場規模持續增長。2018年全球算力網絡市場規模為87.96億美元,至2022年增長至265.93億美元;預計2023年增長至313.74億美元,同比增長16.56%。 正是在這樣的背景下,我國也在提速算力建設布局。目前,從全球范圍來看,我國算力總規模居全球前列。根據工信部數據,我國在用數據中心機架總規模超過810萬標準機架,算力總規模達到了230EFLOPS,即每秒230百億億次浮點運算,位居全球第二。其中智能算力規模達70EFLOPS,增速超70%。通用算力與智能算力的比例約為7:3。 與此同時,我國也在持續推進全國一體化算力網布局。據何寶宏介紹,隨著“東數西算”工程的持續推進,我國八大算力樞紐節點的算力規模占比全國約71.5%,在建算力中心規模超260萬標準機架。目前國內已建成合肥、蘭州、西寧等國家級互聯網骨干直聯點,推動骨干網互聯帶寬擴容至40T。累計部署新型交換中心4個,接入企業增至300家。 何寶宏指出,從區域來看,綜合算力排名前10的省份絕大部分位于全國一體化算力網八大樞紐內,東部算力樞紐節點所在省份總體處于領先水平。根據《中國綜合算力評價白皮書(2023年)》數據顯示,北上廣及周邊省份產業發展勢頭良好,綜合算力指數總體較高,得分均超過45。內蒙古自治區、貴州省等西部省份以其自身在存力、環境等方面的優勢也躋身Top10,綜合算力指數均超過40。 從算力結構來看,盡管當前通用算力中心仍是市場主力,但智算及邊緣計算的應用和數量將快速增長。其中,智算需求隨著智能駕駛、智能終端等應用場景驅動,預計年增速將達到70%,終端邊緣計算需求也有望隨著制造業數字化轉型加快而提升,邊緣計算中心規模增速有望達到30%左右。 與此同時,我國數據存儲行業高速發展,存儲規模不斷擴大。截至2023年底,我國存力規模達到約1200EB,先進存儲容量占比超過25%;全閃存儲技術為代表的先進存力占比不斷提高,部分行業超25%。 一體化算力網的建設也離不開運力質量的提升。截至2023年底,全國光纜線路總長度達到6432萬公里,全國互聯網寬帶接入端口數量達11.36億個,比上年末凈增6486萬個;5G網絡建設穩步推進,移動電話基站總數達1162萬個,5G基站總數達337.7萬個。 仍面臨四大挑戰 加快形成全國一體化算力體系,適度超前部署建設數字基礎設施,是事關全局的長遠之策,具有重大戰略意義。不過目前,我國一體化算力網的建設,仍面臨著一定的挑戰。 在何寶宏看來,這些挑戰包括算力供需匹配機制不健全、算力網絡傳輸能力不足、數字時代耗能危機以及算力產業鏈生態建設不完善等。 據介紹,當前算力需求可分為通用算力、超算算力、邊緣算力及智算算力。何寶宏指出,在廣域范圍內進行東西部算力需求供給需求的匹配,涉及大廣域范圍內的協議和算法設計等問題。從目前來看,一體化算力網內的供需匹配機制仍有待完善。就此他建議,應當從推動需求流動到算力互聯成網,包括基于算力標識符規則匯聚資源,通過編排調度系統高效應用資源,同時完善管理計算、數據傳輸、任務拆分等技術,實現跨域協同計算。 除了算力供需匹配之外,在算力網絡傳輸方面,同樣存在能力不足的挑戰。何寶宏表示,從算力中心內部而言,由于節點間網絡傳輸能力不足,難以支撐海量數據低時延傳輸需求。從跨域角度來看,跨省、跨區域長途傳輸路由繞轉較多,也嚴重影響用戶網絡體驗。 就此,何寶宏建議優化算力網通道,提升算網融合進程,同時需進一步優化算網融合生態,引導算力中心、網絡運營商、算法提供商、數據提供者等大模型上下游廠商共同參與到算網融合建設,實現算力、算法、數據等多元要素的高效匹配。 此外,面對當前智算需求的高速增長,何寶宏特別強調,應強化智算資源建設,包括探索智算中心建設運營模式創新和多方協同合作機制,依托中國算力平臺促進智算資源供需協同,實現算力資源優化配置,提高智算資源整體占比和利用效率。 在算力持續發展的過程中,能耗危機也在持續顯現。數據顯示,近年來我國數據中心耗電量在社會總耗電量中的占比持續提升,從2018年的2.19%提升至2023年的3.29%,預計到2025年這一比例將達到3.85%。從全球范圍來看,數字技術耗電量從2018年占比不到2%提升至2023年的10%,預計到2030年占比將達到20%。 “所以人工智能的競爭,意味著光伏、儲能等新能源產業也要持續往前走。”何寶宏表示。面對未來的能耗挑戰,何寶宏認為,應提升資源利用和算力碳效水平、引導市場應用綠色低碳算力并賦能行業綠色低碳轉型。 其中,在能效政策方面,何寶宏指出,我國算力中心能效政策不斷趨嚴,能效考核指標從以PUE為主逐步演變為PUE、CUE兼顧,未來有可能會納入更多新的能效指標。在產業實踐方面,算力中心制冷方案供應商則將進一步加強新型制冷方案的研究,氟泵、液冷、間接蒸發、自然冷源等制冷技術將變得更加成熟,制冷效率將不斷提升。 同時,何寶宏表示,當前算力產業鏈生態建設仍不完善,未能形成對實體經濟的充分轉化,缺乏對上下游產業及應用生態市場協同帶動作用,也存在與當地實體經濟發展脫節、缺乏深挖算力應用賦能的舉措,以及尚未充分轉化為當地數字經濟的增長動力等問題。 就此,何寶宏認為,應完善算力生態體系,推進產業交流合作,依托算力產業發展方陣等,打造“智算生態圈”,同時有效推動算力產業鏈上下游創新協作,打造產業鏈共同體,深化探索“算力中心—算力樞紐—算力經濟基地—數字經濟高地”的發展路徑。 共筑全國一體化算力網:多元視角下的探索與實踐 隨著數字經濟的蓬勃發展,算力已成為新時代的核心生產力。尤其是近兩年AI大模型的崛起,更是激發了巨大的算力需求。如何滿足這一日益增長的需求,已成為全社會共同關注的重要議題。 去年底,國家發展改革委、國家數據局等部門聯合印發的《深入實施“東數西算”工程加快構建全國一體化算力網的實施意見》提出,到2025年底,要初步建成普惠易用、綠色安全的綜合算力基礎設施體系。 這一體系,即全國一體化算力網,旨在通過信息網絡技術,實現全國范圍內各類算力資源的高效、大規模一體化調度運營,這也將是未來支撐數字經濟高質量發展的關鍵基礎設施。 在此背景下,6月21日,由21世紀經濟報道、21世紀新質生產力研究院舉辦的“高端智庫看‘新質生產力’——一體化算力建設”閉門研討會聚焦相關話題。會上,來自算力產業鏈各環節的企業代表圍繞“如何有效構建全國一體化算力網”進行了深入討論。 智算將引領未來算力趨勢 根據《2023~2024年中國人工智能計算力發展評估報告》,中國智能算力規模正處于高速增長狀態。預計到2027年,中國智能算力規模將達1117.4EFLOPS,2022~2027年期間的年復合增長率為33.9%。 由此可見,市場對智能算力的需求正急劇上升,這也帶動了算力上下游市場的快速增長。摩爾線程產品事業部首席AI專家申騫表示,“作為國產芯片廠商,在大模型飛速發展的時代責任也十分重大。” 摩爾線程成立三年半來,量產了三顆全功能GPU芯片,迭代速度非???。“借助我們很好的CUDA兼容能力,我們已經適配了市面上所有主流大模型,可以為中國大模型建設添磚加瓦。”申騫說道。 大模型發展至今,企業客戶對芯片廠商的需求已不僅限于芯片本身,而是需要足夠的算力支持。因此,摩爾線程的產品交付形態也已變為千卡甚至萬卡智算集群。 申騫透露,摩爾線程建設的千卡智算集群,已被多個客戶用于大模型訓練,比如無問芯穹、智譜AI、滴普科技等,這些模型的訓練過程全程穩定,且集群線性加速比可達到90%以上。 “這充分說明國產GPU的千卡集群已經具備完全的可用性,可以很好支撐國產大模型的發展。”申騫表示。但他同時指出,現階段,大模型對算力的需求已提升到萬卡,這相比千卡集群,難度又增加許多。 申騫稱,為了保證大規模集群訓練的穩定性,摩爾線程也在做很多優化工作,包括對芯片、網絡、平臺、AI框架、模型服務等層面的優化。“我們希望交付給客戶的是一個包含算力基礎設施、集群管理工具、模型服務平臺在內的軟硬一體、完整可用的系統級算力解決方案,而不僅僅是芯片。” 對于智能算力未來的發展,神州數碼信創業務集團研發中心總經理向陽朝指出,智能算力的增長速度已遠超通用算力,現在已占到整個算力市場的三分之一,而且這個占比會越來越高。 與此同時,在使用場景上,智算也在從過去的訓練為主,逐漸向推理場景傾斜。“未來,每臺計算機都可能是一臺智算集成機,都有一個智算的GPU在里面,這樣一來,智算的市場占比將會達到80%、90%,甚至100%。”向陽朝表示。 另外一位與會專家也表示,未來在算力資源利用上,訓練和推理的比例將從1:6變成1:10,而且推理市場對于國產化來說也是一個更大的空間,有望成為數字經濟下一個高增長點。 算力能耗問題不容忽視 在算力產業鏈當中,數據中心運營商扮演著舉足輕重的角色。世紀互聯作為老牌IDC運營商,在環京、環滬等經濟發達的地區布局了50多座數據中心。 世紀互聯AIDC產品解決方案總經理程漢生表示,“在‘東數西算’議題提出后,我們一直在思考如何有效利用西部算力資源。隨著ChatGPT等大模型的出現,我們發現大模型的訓練就可以放在西部地區進行,因為訓練場景對網絡傳輸的延遲要求并不高”。 據程漢生介紹,客戶在選擇數據中心時已展現一種明確趨勢,他們傾向于將訓練場景放置在自然資源豐富的數據中心,如烏蘭察布等地,而將實際的應用場景部署在一線發達地區的數據中心,中間通過世紀互聯DCI環網進行連接,這種布局策略實現了資源的最優配置和服務的高效提供。 對于數據中心建設,程漢生特別強調了在西部地區建設數據中心的優勢。他指出,隨著大模型時代算力需求不斷高漲,電力消耗已經成為一個不容忽視的問題。而數據中心作為高載能用戶,對能源的需求尤為顯著。而西部地區優勢突出,一方面,西部地區常年氣溫較低,為數據中心的高效散熱提供了得天獨厚的條件;另一方面,西部地區豐富的風能和太陽能資源為數據中心提供了可靠的能源供應,可以有效降低運營成本,為數據中心的綠色運營提供有力保障。 不過,市場現狀是在東部發達地區也存在很多數據中心。程漢生說,要想在東部地區降低數據中心的PUE,液冷解決方案會是現在比較好的辦法。“過去數據中心在降低能耗方面進行了諸多創新,如風冷、液冷等技術?,F在看來,液冷將成為未來的重要發展趨勢。” 近幾年,數據中心領域也迎來很多新玩家,協鑫能科是其中之一。作為一家有著三十多年歷史的新能源企業,協鑫能科目前已經在上海和蘇州建設了兩座智算中心。 協鑫能科智算運營負責人白學院表示,協鑫能科自建智算中心,數字經濟時代,尤其是大模型技術的快速發展,讓協鑫能科看到了人工智能技術蘊藏的巨大潛力,希望通過建設智算中心來推動協鑫能科的數字化轉型。 這也是綠色能源的需要。“算力的盡頭是能源,作為新能源企業,我們也需要研究算力,并希望能夠給智算中心提供更好的清潔能源,減少碳排放”,白學院稱。 協鑫在中國西北部,包括內蒙古、新疆、寧夏等地,有不少產業布局。而建設智算中心,可以很好地承接新能源資源,進而促進協鑫能科在當地的發展,真正實現區域協同發展。 針對全國一體化算力網建設,向陽朝還提到了算力資源異構的問題。他認為,提高算力利用率的關鍵在于異構調度和軟件優化。 向陽朝指出,如果一個算力網的利用率只有50%,那將是巨大的資源浪費。因此要做好異構資源的調度,最大化地利用算力資源。而神州數碼目前正研發相關產品和技術,來幫助企業解決算力調度的問題。 可以清晰地看到,全國一體化算力網的構建是一個多方參與、協同推進的系統工程。它不僅需要政府在政策層面給予引導和支持,還需要基礎設施提供商、芯片廠商、數據中心運營商等產業鏈各環節的共同努力。我們相信,在各方的共同努力下,全國一體化算力網的建設將不斷提速,并在未來為中國數字經濟的蓬勃發展提供有力支撐。 一體化算力網的產業實踐:算網協同、以網強算算力是數字經濟時代的新型生產力,算力網則是支撐數字經濟高質量發展的關鍵基礎設施。在人工智能等新興技術驅動下,產業各方積極探索算力匯聚,算力互聯互通。 在加快構建全國一體化算力網的過程中,產業鏈上下游分別承擔了哪些角色,涌現出什么趨勢,遇到了什么難點與挑戰,又該如何協同解決? 6月21日,由21世紀經濟報道、21世紀新質生產力研究院主辦的“高端智庫看‘新質生產力’——一體化算力建設”閉門研討會在北京落地,研討會邀請到了中國信通院云計算與大數據研究所、中國社會科學院數量經濟與技術經濟研究所等多位專家及多位企業代表等面對面交流。 百度智能云、新華三、曙光數創、天風證券分別作為云廠商、服務器廠商、數據中心基礎設施供應商、投資機構代表,分享了一體化算力網建設中的企業思考。 算網協同走到關鍵時刻隨著人工智能技術的快速發展,AI場景下的任務數量以及對智算算力的需求激增,以GPU為主要芯片的智算算力作為新型算力,亟待突破。 在這樣的背景下,算網協同、以網強算,成為重要的解題思路。 新華三路由器產品線總經理汪小勇認為,很多時候,網絡成了算力建設的瓶頸,如果沒有好的網絡架構與協同,即便搶到了算力卡,也無法把算卡的性能有效發揮出來,這就要求用高效的網絡連接把算力潛能釋放出來。 “在智算時代,通信量非常大,對網絡的時延非常敏感,對網絡的丟包非常敏感,建設智能無損網絡是一個非常重要的趨勢。”汪小勇說,多智算中心的互聯也是一個重要趨勢,通過內部網絡的搭建、算力智能部署,實現低時延、低抖動,并有效降低算力成本,提高算網效率。 百度智能云混合云生態合作總監余晨表示,今年以來,在監管層及產業鏈上下游的共同推動下,算網協同的認知有所深化。在算力一張網的基礎上,不同算力集群做好場景區分,設計出特定的算力方案,一張大網連接著多張小網,最終實現提效。 余晨認為,互聯互通的算力解決方案,應該將異構算力的標準化接口設計、存儲配比及協同化、網絡配比等方面,更精細化地納入到算網設計中,以實現更好的互聯。 曙光數創副總裁姚勇則從硬件端展開分享。他認為,AI服務器散熱技術走到了關鍵分水嶺。具體而言,光模塊、AI服務器、AI芯片、交換機和液冷設備是組建AI算力的五大必備硬件,隨著AI算力的快速發展,散熱技術也從風冷向液冷階段進化。 姚勇介紹,風冷是以空氣為冷卻介質,利用風機的強制風冷,風冷成本低,適合小規模數據中心;液冷是以液體為介質進行熱交換,例如利用水、乙二醇水溶液、空氣制冷劑等進行散熱。液冷的散熱速度和效率更高,但結構更復雜、成本更高,適合大規模數據中心和智算中心。 目前數據中心溫控仍以風冷為主,隨著AI的大規模發展,帶動算力需求提升,芯片和服務器功率逐步升級,超出風冷散熱能力范疇。 “我們預測,三年之后,液冷和風冷將平分天下。”姚勇表示,“芯片的工作溫度是八九十攝氏度,一定空間里高密度部署高功率芯片,最后決定算力水平的有可能不是半導體技術,而是散熱技術。” 2023年6月,中國移動、中國電信、中國聯通三大運營商聯合發布了《電信運營商液冷技術白皮書》,提出2025年50%以上數據中心項目應用液冷技術。“這也將有效推動液冷行業的高速發展。”姚勇說。 在全國一體化算力網建設加快構建的背景下,產業鏈上下游出現了哪些新的動向?天風證券海外資深分析師李澤宇分享了幾個趨勢。 李澤宇表示,AI技術迭代到了關鍵時期,從商業模式上來看,大模型對算力的需求走到了更大的數據級別,對算力一體化的需求大幅度提升,這需要多算力中心高效配合調度,功率密度的提升也讓散熱技術走到了從風冷向液冷轉變的臨界點。 “應用端也有很大的變化,一是智算算力對時延和計算密度的要求大幅提升,二是云邊一體的推理方式迎來巨大機遇,三是異構計算箭在弦上,解決好不同芯片之間、不同區域算力中心之間的互聯,整個行業處在快速的增長期。”李澤宇說。 產業鏈實踐與挑戰在全國一體化算力網建設的熱潮中,不同企業主體承擔了不同的角色,在具體實踐中尋求一體化算力網的解決方案。 據余晨透露,百度的優勢是掌握場景、數據和客戶,把廣泛的客戶需求與上下游產業鏈結合起來,提供一個更具性價比更高效的算力綜合解決方案。 在基礎架構層,涉及算力網絡等資源集群的管理,云廠商具備大型集群運營、管理的業務沉淀;在框架層,得益于大模型在技術架構上的突破,云廠商得以更多地參與到全國算力一張網的建設中去;在應用層,云廠商與行業龍頭企業攜手,更好地服務于行業應用。 汪小勇則從“算力+網絡”的層面分析了算網解決方案的要點。據他透露,國內網絡的核心訴求是“無損”,即保證傳輸數據的完整性,同時也要保證傳輸速度和效率。這需要在低時延、零丟包、可靠性、負載均衡和確定性網絡等方面下功夫。 “新華三在大的理念上有12個字,分別是‘以網強算、以算提質、以智增效’。”汪小勇表示,網絡的高效運行可以充分發揮算力的性能,智算算力也可以更好地賦能網絡,新華三的百業靈犀大模型在算力網絡領域形成了行業知識庫,可以指導于網絡建設。 據姚勇分享,曙光數創與互聯網、金融、運營商等領域的客戶一起,在實踐中逐步摸索智算中心部署液冷設備的標準,從既往經驗來看,一臺算力服務器的功率達到15千瓦以上,就有必要采用液冷技術。 “以液冷技術解決高密問題,一是因為液冷技術本身就具備的優勢,液體帶走芯片熱量更順暢、也更高效;二是要注意從工程角度考慮到流動性、流速、壓力等因素,液冷不是一個單純的單機設備,而是要綜合解決算力協同問題。”姚勇說,巨大的算力在倒逼算力設備做出形態上的變化。 汪小勇提出,一體化算力網絡建設還存在一些難點與挑戰,包括區域性與結構性布局問題,東西算力結構性不平衡,通算、智算、超算合理布局仍需進一步提升;二是算力有效調度挑戰,仍需要在技術端與協調機制方面繼續健全;三是網絡通道傳輸與資費問題,質量在提高,資費要進一步降低;安全防護與標準規范建立也需加強。 與會企業代表均表示,將在算力網絡的基礎設施建設、關鍵技術研發、應用等方面進一步加大投入,不斷探索,加強協同。 |