近年來,隨著各行業(yè)數(shù)智轉(zhuǎn)型逐步深入以及人工智能大模型的蓬勃發(fā)展,氣象分析、大模型訓(xùn)練、自動駕駛、石油勘探、EDA仿真、基因分析等高性能計算(HPC)場景和智算場景(AI)不僅對算力需求激增,也產(chǎn)生了圖片、視頻等大規(guī)模非結(jié)構(gòu)性數(shù)據(jù),企業(yè)在實踐中面臨著數(shù)據(jù)量大、存儲性能不足等問題,導(dǎo)致訓(xùn)練阻塞、算力利用率低甚至訓(xùn)練中斷現(xiàn)象頻繁發(fā)生。在此背景下,企業(yè)需要不斷創(chuàng)新和優(yōu)化存儲系統(tǒng)技術(shù)架構(gòu),以便實現(xiàn)更加高效、可靠和靈活的存儲解決方案。
作為云服務(wù)國家隊,天翼云堅持科技創(chuàng)新,不斷加快推進數(shù)據(jù)存儲基礎(chǔ)設(shè)施建設(shè),創(chuàng)新推出并行文件服務(wù)HPFS(CT-HPFS,High Performance File Storage),助力企業(yè)構(gòu)建高性能存儲底座。天翼云HPFS支持全NVMe閃存和InfiniBand高速網(wǎng)絡(luò),并融入RDMA技術(shù),可提供最高千萬IOPS和TBps吞吐,同時保證亞毫秒時延。該產(chǎn)品具有高性能、高可靠性、高可擴展性的特點,可充分滿足企業(yè)在HPC和AI等場景下的存儲需求。
天翼云HPFS具備共享訪問、彈性擴展、安全可信、性能優(yōu)越四大產(chǎn)品優(yōu)勢。
在共享訪問方面
HPFS支持?jǐn)?shù)千臺客戶端掛載同一文件系統(tǒng),從而實現(xiàn)共享訪問;無縫適配主流應(yīng)用程序進行數(shù)據(jù)讀寫,滿足多客戶端并行計算場景需求。
在彈性擴展方面
HPFS元數(shù)據(jù)采用集群架構(gòu),單文件系統(tǒng)文件數(shù)量可達(dá)百億級別,文件系統(tǒng)支持在線擴展。
在安全方面
HPFS采用多種EC糾刪碼方式、熱備盤備份來保證數(shù)據(jù)的可靠性。同時,支持HA,故障時自動切換,服務(wù)可用性在99.90%以上,有效保障數(shù)據(jù)安全。
在性能方面
HPFS使用100G以太網(wǎng)或IB、RoCE網(wǎng)絡(luò),性能隨文件系統(tǒng)容量增長呈線性提升,同時可保證亞毫秒時延。
天翼云HPFS在高性能并行文件存儲方向持續(xù)突破,面向HPC/AI場景大規(guī)模非結(jié)構(gòu)化數(shù)據(jù)及性能深度優(yōu)化,保障用戶數(shù)據(jù)安全、實現(xiàn)高效存儲。
在HPC場景,天翼云HPFS支持并行計算MPI-I/O(Message Passing Interface)接口,在多客戶端同一時間并發(fā)讀寫同一個文件時,通過字節(jié)粒度鎖機制,保證文件一致性,大幅提高多客戶端讀寫同一文件的性能。
在AI應(yīng)用領(lǐng)域,天翼云HPFS支持萬億參數(shù)大模型,助力客戶構(gòu)建高速大模型訓(xùn)練平臺,根據(jù)不同AI業(yè)務(wù)流程特點,靈活調(diào)用存儲服務(wù)能力,滿足數(shù)據(jù)預(yù)處理、訓(xùn)練、仿真等數(shù)據(jù)存儲能力的要求,并大幅提升訓(xùn)練數(shù)據(jù)讀取和checkpoint回寫速度,降低企業(yè)AI訓(xùn)練成本投入,加速模型迭代。
未來,天翼云將繼續(xù)加大數(shù)據(jù)存儲產(chǎn)品技術(shù)創(chuàng)新,以扎實的數(shù)據(jù)存儲能力,為客戶打造高性能存儲底座,持續(xù)推動技術(shù)創(chuàng)新與產(chǎn)業(yè)協(xié)同發(fā)展,為構(gòu)建安全、高效的數(shù)據(jù)基礎(chǔ)設(shè)施貢獻(xiàn)力量。