大模型訓練及應用、超算為代表的新場景下,社會數據量飆升,數據處理和挖掘越來越復雜,傳統的存算一體架構正面臨挑戰。
ChatGPT引爆全球范圍內的大模型熱潮,但動輒千億參數級的大模型給底層的數字基礎設施提出了新的挑戰。以存儲為例,資源利用效率、框架的靈活性、運維的成本和應對高并發高吞吐的能力都亟需更新。
一場存儲架構的底層革新正悄然發生。
分布式存儲正取代傳統陣列式存儲。IDC中國研究經理楊昀煦告訴數智前線,近年來國內的軟件定義存儲和超融合所構成的分布式存儲市場增速遠超傳統陣列存儲市場,預計到2027年將在整個存儲市場里將分走半壁江山。
主流存儲廠商和新興腰部品牌都已開始行動,針對不同的應用場景,廠商們正努力延伸自己的業務優勢和產品優勢來滿足客戶需求。經過十余年自研存儲產品歷程,依托京東集團內部豐富的存儲應用場景以及京東重大消費節點等高流量、高并發場景的實戰檢驗,京東云也邁出了技術、產品、方案和經驗對外輸出的一步。
去年,基于新一代存儲架構的分布式存儲產品云海正式發布。京東云IaaS產品研發部負責人龔義成稱,存算分離釋放的業務靈活性、極致性價比和超高性能以及自主可控背景下的真替真用,是京東云海的重要差異能力。數智前線獲悉,目前,云海已覆蓋零售、物流、金融、健康、工業等行業的不同業務應用場景,并正成為千行百業解決底層存儲架構穩定性、實現高性能及降本增效的一種解法。
01
傳統模式正在遭遇挑戰
龔義成對一位企業IT負責人的兩難困境印象深刻。作為京東云IaaS產品研發部負責人,他時常要跟不同行業的客戶交流企業底層IT基礎架構建設,近年來他時常聽到有關數據處理和資源使用效率、運維效率和可用性等多方面的“苦水”。
一位金融行業的客戶告訴他,在此前存算一體的數據架構下,他們往往要預備很大的資源冗余,業務需要100TB的資源,他們多半要提前籌備400TB,以應對臨時擴容需求。但這些未被充分利用的資源往往也意味著巨大的浪費。即使提前預留了空間,存算一體的框架下,IT運維時也經常遇到運維難點。以數據庫為例,存算一體架構下,數據庫要擴容往往非常麻煩,涉及數據在集群間的全量遷移復制,耗時長且過程復雜。
這實際上是當下數字化變革進一步深入,全社會數據處理量飆升,數據處理和挖掘場景變得越來越復雜背景下,企業在底層存儲架構層面遭遇各類挑戰的縮影。
京東云此前有過一項調查,他們對互聯網、金融、運營商、智能汽車、游戲、能源、零售及快消、醫療醫藥等9個行業的100多家企業政府機構的IT管理層調研發現,企業現階段存儲基礎設施的痛點包括存儲成本逐年攀升、數據安全事故頻發、存儲集群管理困難、國產化真替真用難等。有五成以上的IT管理者曾受困于存算分離難、數據孤島、應用抖動、運維困難等問題。
行業已經關注到全社會層面的存儲成本攀升。IDC發布的一份報告顯示,全球數據將從2018年的33ZB增至2025年的175ZB。中國的數據總量也在全球首屈一指,一項調查顯示,中國數據占全球數據比重正在從2018年的23.4%發展到2025年的27.8%。
社會對數據重要性的認知變化、數據安全合規的要求及數據使用深度的提升帶來存儲成本的上升。例如在保險行業,為了追溯和查驗,監管要求相關業務的數據、憑證、資料等要完整妥善保管。政府電子檔案要求保存周期為5年甚至更長,公檢法司數據要求保存周期至少30年以上。在當下最熱的新能源汽車和智能駕駛場景,數智前線了解到,一臺L3級別的自動駕駛測試車,平均每天產生60TB的數據,完整測試產生的數百PB數據需要存儲30年以上。
海量的存儲需求使得大量的政府、行業企業用戶都開始關注存儲資源的利用效率。一位行業內資深人士告訴數智前線,經過疫情三年,許多中小企業客戶對存儲產品的使用和需求中對價格更為敏感,行業企業用戶普遍對更具性價比的存儲架構產生濃厚的興趣。
另外,新業務場景的出現也對存儲基礎設施應對業務變化的支撐能力、靈活性和可運維性也提出了新要求。
相關人士告訴數智前線,在一些企業里,從前許多冷存儲的,沒有被分析和挖掘的文件,現在開始有了分析的需求。例如大量的非結構化數據需要結合AI技術分析,提升企業對消費者和客戶的服務水平。以精準營銷和風險控制場景為例,企業會對幾個月內的海量數據進行深度挖掘,形成用戶動態畫像和風險特征,反哺精準營銷和風險控制。
通常情況下,這些數據的使用方式聚焦于熱數據分析,一旦相關數據分析價值降低,挖掘的任務頻次下降,數據存儲和處理就要采用冷數據的方式進行管理。需要實時處理的數據需要有更高的存儲性能,相對冷的數據追求更低的存儲成本。以這類場景為例,冷熱數據切換,本質上是在不同成本和性能集群上的不同數據類型如何自由流轉,這考驗存儲基礎設施的數據互聯和統一運維能力。
數據重要性不言而喻,企業變得愈加重視底層存儲資源的安全可靠性,防范數據丟失問題。龔義成碰到的一位客戶提及,存儲本地盤擴容時總有些提心吊膽。比如從1PB擴容到2PB,做法非常原始,要先建出來2PB容量的集群,然后再把1PB的數據導過去。過程中一旦出現數據丟失,對業務可能是毀滅性打擊。
超算、大模型等智能化應用涌現,行業內也爆發出了對自主可控的高性能存儲基礎設施的需求。一位資深人士告訴數智前線,這個場景下更關注高吞吐低延遲,對存儲有極致的要求,如何在維持架構的靈活性的同時也保持高性能,受到相關場景客戶的關注。
由此,新的場景、新的需求正在呼喚更具擴展性、更高性能以及更低成本、更具可用性的自主可控新型存儲底層架構。
02
分布式存儲加速在行業應用
隨著數據量增長及新型分析需求爆發,存儲架構正從傳統的集中式存儲向分布式演進。當下,存儲市場按照存儲架構可以分為傳統企業級存儲(TESS)、軟件定義存儲(SDS)、超融合基礎架構(HCI),軟件定義存儲與超融合就是通常所說的分布式存儲。
不同于存算一體的緊耦合架構,分布式存儲通常將數據管理功能分散在各個存儲節點,可通過增加節點數量實現性能和容量的橫向擴展,利用多節點冗余保障數據可靠性,具備低成本、穩定、安全、統一存儲、擴展靈活等諸多優勢。
“近年來這一市場增長速度明顯高于傳統的陣列式存儲。”IDC中國研究經理楊昀煦告訴數智前線,以2021年數據為例,軟件定義存儲和超融合所構成的分布式存儲市場增速接近百分之十幾到20%的增長,而傳統市場增速不到10%,到2027年IDC預計軟件定義存儲加上超融合產品份額占比達到整個存儲市場的49.5%。
其中,數據量的爆發以及海量非結構化數據對于軟件定義存儲市場,尤其是NAS為主的文件存儲和對象存儲增長貢獻明顯。而云應用包括對云原生的支持則推動了超融合產品的發展。
“分布式存儲市場是一個兵家必爭之地,大家都在爭這塊蛋糕。”一位行業資深人士告訴數智前線,目前主流頭部和新興廠商們都已投注注意力到這里。例如,華為的存儲產品中軟件定義存儲和超融合的出貨占到45%,而新華三則有差不多56%的出貨是分布式,浪潮的軟件定義存儲加上超融合產品達到了61%左右。同時一些傳統的陣列存儲供應商也受到客戶需求的推動,在相關布局。“當下玩家們主要針對不同的應用場景延伸自己的業務優勢和產品優勢。”該人士說。
由于各家的積極布局,目前這一架構方式正加速在各行各業落地實踐。
例如,此前普遍認為視頻監控等場景會帶來巨大的非結構性數據,推動分布式存儲需求。當下,除了傳統的城市管理領域,在智能交通、智慧城市里汽車追蹤、人像追蹤也在應用分布式產品,在能源和制造行業當中,一些腰部廠商們也積極探索在質檢等行業場景應用分布式產品來承載大量非結構化數據。
業界觀察到,下沉市場對分布式存儲的需求也在擴大,存儲需求的采購主體逐步向下沉市場和中小企業市場擴散。
業界資深人士告訴數智前線,此前,金融行業里,對存儲產品的采購主體多是四大行以集采的方式采購傳統存儲陣列,然后分發到不同的分支機構。但現在采購主體在下沉,不同的機構業務部門基于自身的業務特征,開始逐步考慮分布式存儲。比如有個人貸款業務的機構,需要存儲大量的用戶個人數據信息,而傳統存儲陣列更多適合進行數據溫存儲操作,此時既有計算節點,又有存儲節點,有性價比優勢的分布式存儲就會進入他們的視線范圍。
在醫療行業里,同樣的情況也在發生,一些省級婦幼保健院、市級的醫院也在采購分布式存儲產品,去滿足電子病歷等相關數據及PaaS系統數據的支撐。
京東云通過調研則進一步發現,不同行業的企業對分布式存儲的利用方式不一。5月9日舉行的京東云城市峰會武漢站上,京東云發布《云海分布式統一存儲暨京東云存儲白皮書》,白皮書中提及不同行業客戶在不同的數據使用環境和應用場景里,看中的是分布式存儲產品的不同價值點。
例如,互聯網行業用戶期望通過分布式存儲打造存算分離的IT架構,實現資源的靈活擴展和統一調度,以提升資源利用率,并大幅提升計算和存儲性能,最終實現20%~30%的綜合降本。
在政府、醫療、智能汽車行業用戶那里,他們也關注經濟性,期望引入更加經濟的分布式存儲系統,實現20%+的成本壓縮。而運營商、游戲行業用戶則期望提升海量數據存儲穩定性,保障C端應用絲滑順暢的消費者體驗和更為安全的數據保障。而電力行業國產化進程加速,自主可控、真替真用成為其當下IT建設重點。
總體來看,更好的資源利用率、更好的容錯性、更靈活的部署方式等都成為千行百業選擇分布式存儲架構的理由。
03
京東云海的解法
在5月9日的峰會演講環節,龔義成透露一個細節,過去兩三年里,京東已經完成從傳統的存算一體架構向存算分離的分布式存儲架構演變。
2012年,京東正式開啟自研存儲產品的研發。經過十余年的發展,去年基于京東自身實踐以及從復雜的場景里提煉與沉淀的能力,京東正式對外發布了云海分布式統一存儲產品。目前基于云海的存算分離的技術架構已在京東全面落地,相比存算一體的形態,存儲資源利用率提升至85%以上,PaaS綜合成本降低達到30%~50%。

會上,龔義成向現場的伙伴和客戶介紹在分布式存儲領域云海的重點關注場景和能力,其中存算分離、低成本、高性能和自主可控等關鍵詞被再三強調。
數智前線獲悉,相比存算一體的架構,PaaS層存算分離的實現面臨著一定的挑戰,一方面會涉及多個技術領域的復雜性,如分布式計算、分布式存儲、網絡通信、數據庫中間件等PaaS組件。此外,存算分離需要一定的標準化和規范化,以確保不同系統之間的互操作性和兼容性等。
針對這些問題,龔義成介紹,京東云海通過超低延時RDMA、創新性高容錯分布式一致性協議、用戶態NVMe等一系列技術手段,已經將存算分離真正大規模應用到生產環境中,給業務釋放非常大的靈活性。
“數據庫中間件的算力可以跟普通的應用在一個資源池里面作統一規劃。計算和存儲解耦獨立,存算資源獨立調度,不再有固定配比,資源利用率可以立刻提升到85%以上。”龔義成告訴數智前線。
一個典型的業務場景是,2022年春晚紅包場景下,京東云沒有增加采購一臺服務器就完成了整個春晚活動的技術支撐,期間應對了多次搶紅包、下單的洪峰,就是靠存算分離后的靈活資源調度來完成的。
它在外部企業應用也非常廣泛,例如在當下最熱門的新能源汽車使用場景里,早晚上班高峰期里新能源車企對計算資源的消耗處于高峰值,在傳統存算一體的架構下,需要預先準備許多計算/存儲資源,并且這些資源無法根據業務的實際峰值做靈活調度。存算分離后,可以在業務峰值時,申請更多的計算資源來滿足業務峰值需求,峰值過后,計算資源可以釋放掉,用于滿足其它業務。
在全社會關注降低存儲成本,追求更高性價比產品的背景下,云海所強調的低成本特性也受到了行業企業的關注。龔義成介紹,京東云通過技術進步實現了對存儲成本的極致控制。例如傳統的方案下要保證企業生產活躍度和數據安全需要做到3個副本,云海在不降低性能和可靠性的情況下只需要1.14個副本,能夠極大程度降低成本。另外,通過軟件層面的能力,覆蓋不同成本類型的磁盤,以技術手段規避低成本磁盤性能差異,實現以更低的成本存儲來滿足企業的生產活躍度需求。
針對當下的大模型應用和超算場景,云海也推出了極速版產品。一般而言,在這類高并發、低時延、對性能要求高的場景中,此前的存儲方案通常由傳統的陣列存儲來覆蓋。分布式存儲產品覆蓋這個市場需要進一步提升技術,打磨性能,從而滿足低時延高并發要求。云海的解決方案是,基于超低延遲RDMA網絡、全用戶態數據協議等技術手段,實現了性能、擴展性、靈活性的兼顧,實現百萬IOPS、4000MB/s帶寬、百微秒IO延時,滿足各類高性能、大規模運算場景的存儲需求,大幅提高數據分析效率。

數智前線獲悉,在國內某領先的自動駕駛技術公司的L3與L4模型研發中,云海的極速版已經通過京東云整體提供的AI訓練平臺、存儲、計算、網絡的公有云整體解決方案在企業落地應用,滿足了該企業上百個GPU計算節點在模型訓練過程中訪問存儲數據,并應對計算節點的高并發訪問的需求。
目前,自主可控和安全可靠也是當下產業數字化進程中的關鍵詞。龔義成介紹,云海作為自研產品,與飛騰、鯤鵬、海光等國產化硬件完全適配。一方面滿足合規實現數據的高效流通和使用,同時能做到真替真用。
數字化變革正進入深水區,無論是超高性能場景,還是多樣化的業務和數據需求,都對未來的存儲提出了新的挑戰。龔義成認為,面對變化的未來,云海的精髓在于,開放靈活的架構體系,將帶來極大的靈活性,“就像搭積木,通過不同的小的積木,拼出來不同的存儲的類型,來解決未來用戶不同的存儲場景需求。”
文章內容僅供閱讀,不構成投資建議,請謹慎對待。投資者據此操作,風險自擔。
海報生成中...
海藝AI的模型系統在國際市場上廣受好評,目前站內累計模型數超過80萬個,涵蓋寫實、二次元、插畫、設計、攝影、風格化圖像等多類型應用場景,基本覆蓋所有主流創作風格。
IDC今日發布的《全球智能家居清潔機器人設備市場季度跟蹤報告,2025年第二季度》顯示,上半年全球智能家居清潔機器人市場出貨1,2萬臺,同比增長33%,顯示出品類強勁的市場需求。