Alluxio宣布正式發(fā)布數據編排平臺2.7版本 新版本立即可用

11月18日消息,日前,全球首創(chuàng)的開源數據編排軟件開發(fā)商Alluxio宣布正式發(fā)布數據編排平臺2.7版本,新版本立即可用。2.7版本通過并行數據加載、數據預處理和訓練工作流,可將機器學習(ML)訓練的I/O效率提高8-12倍,從而顯著降低成本。新版本還提供了更強的性能分析,并能更好地支持ApacheHudi和Iceberg等開放表格格式,使得對數據湖的訪問更易于擴展,從而實現了Presto和Spark的分析提速。

“Alluxio2.7版本進一步鞏固了Alluxio在云上人工智能(AI)、機器學習和深度學習方面的重要地位,”Alluxio創(chuàng)始人兼首席執(zhí)行官李浩源表示。“隨著數據集的增長以及CPU和GPU計算能力的增強,機器學習和深度學習已成為AI主流技術。這些技術的興起推動了AI的發(fā)展,但也凸顯了數據和存儲系統(tǒng)訪問中存在的一些挑戰(zhàn)。”

“我們在1000個節(jié)點的集群中部署了Alluxio,用來加速我們游戲AI平臺上模型訓練的數據預處理。事實證明Alluxio穩(wěn)定、可擴展且易于管理。”騰訊大數據平臺研發(fā)負責人陳鵬表示。“隨著越來越多的大數據和AI應用容器化,Alluxio正在成為大型企業(yè)和機構的首選,作為加速數據分析和模型訓練的中間層。”為了達到這一目標,騰訊AlluxioOTeam的毛寶龍團隊與社區(qū)緊密合作,貢獻了一系列重要的功能,包括運行期動態(tài)更新配置、CephFS存儲支持,修復了超過二十個bug并增加了二十余個系統(tǒng)指標。

“擁有大規(guī)模分析和AI/ML計算框架的數據團隊面臨著越來越大的壓力,需要讓日益增長的數據源更易于訪問,同時確保性能的穩(wěn)定,這需要同時考慮數據本地性、網絡I/O和成本問題,”ESG分析師MikeLeone表示。“企業(yè)和機構希望選用更實惠和可擴展的存儲,如云對象存儲,同時避免昂貴的應用程序修改或處理新的性能問題。Alluxio通過抽象存儲細節(jié)并使數據更接近計算側來應對這些挑戰(zhàn),尤其是在混合云和多云環(huán)境中。”

Alluxio2.7版本新增以下功能:

使用Alluxio和NVIDIA的DALI進行機器學習訓練

NVIDIA的數據加載庫(DALI)是一個常用的Python庫,支持通過CPU和GPU進行數據加載和預處理從而加速深度學習。在2.7版本中,Alluxio平臺進行了優(yōu)化,可以與DALI一起部署用于加速基于Python的ML應用,其中包括模型訓練和推理之前的數據加載和預處理步驟。通過加速I/O密集型工作并允許并行處理后續(xù)的計算密集型訓練,Alluxio數據平臺上的端到端訓練與傳統(tǒng)解決方案相比實現了顯著的性能提升。對于海量小文件的訓練,與其他解決方案相比,該解決方案可以實現橫向擴展(scale-out)。

大規(guī)模數據加載

Alluxio的核心定位是數據管理能力,這些能力包括對分散的數據源進行統(tǒng)一和實現緩存。隨著Alluxio越來越多地用于計算和存儲跨多個地理位置的場景,Alluxio自身也在不斷擴展。本次更新采用新技術對數據進行批處理,從而增強其可擴展性。批處理通過使用內置執(zhí)行引擎處理數據加載等任務,減少了管理控制器對資源的需求,從而減少了系統(tǒng)配置的工作量,降低了成本。

Kubernetes上的易用性

Alluxio現在支持用于Kubernetes的原生容器存儲接口(CSI)驅動,以及用于ML的Kubernetesoperator,這使得在容器化環(huán)境中的Alluxio平臺上操作ML工作流比以往任何時候都更加容易。Alluxio的卷類型現在可用于Kubernetes環(huán)境。敏捷性和易用性是本次新版本關注的重點。

在Presto上基于分析動態(tài)調整緩存

新版本還推出了智能緩存新功能,名為ShadowCache,能夠動態(tài)分析緩存大小對響應速度的影響,從而輕松實現高性能和低成本之間的平衡。對于大規(guī)模的多租戶Presto環(huán)境,此新功能通過自助管理顯著降低了管理開銷。

“在存儲與ML計算分離的情況下,數據平臺團隊利用Alluxio來簡化數據預處理和加載階段,”Alluxio高級產品經理AditMadan表示,“這種簡化使得SparkML、Tensorflow和PyTorch等框架能最大限度地利用GPU。Alluxio解決方案可在AWS、GCP和AzureCloud等多個云平臺上使用,現在也可在私有數據中心或公有云中的Kubernetes上使用。”

日前,Alluxio宣布完成5000萬美元C輪融資,該輪融資由新投資方高瓴創(chuàng)投領投,戰(zhàn)略投資方和原股東a16z,SevenSeasPartners,火山石投資跟投。與此同時,Alluxio宣布將大力拓展國內市場業(yè)務,將北京設立為中國區(qū)總部,并成立本地化的研發(fā)團隊,以快速響應并滿足眾多國內企業(yè)的個性化需求。

(免責聲明:本網站內容主要來自原創(chuàng)、合作伙伴供稿和第三方自媒體作者投稿,凡在本網站出現的信息,均僅供參考。本網站將盡力確保所提供信息的準確性及可靠性,但不保證有關資料的準確性及可靠性,讀者在使用前請進一步核實,并對任何自主決定的行為負責。本網站對有關資料所引致的錯誤、不確或遺漏,概不負任何法律責任。
任何單位或個人認為本網站中的網頁或鏈接內容可能涉嫌侵犯其知識產權或存在不實內容時,應及時向本網站提出書面權利通知或不實情況說明,并提供身份證明、權屬證明及詳細侵權或不實情況證明。本網站在收到上述法律文件后,將會依法盡快聯系相關文章源頭核實,溝通刪除相關內容或斷開相關鏈接。 )

贊助商
2021-11-18
Alluxio宣布正式發(fā)布數據編排平臺2.7版本 新版本立即可用
【TechWeb】11月18日消息,日前,全球首創(chuàng)的開源數據編排軟件開發(fā)商Alluxio宣布正式發(fā)布數據編排平臺2.7版本,新版本立?

長按掃碼 閱讀全文