中存儲消息,Alluxio 公司 宣布了 Alluxio Enterprise AI 的最新增強功能。

版本 3.5 展示了該平臺通過新的僅緩存寫入模式、高級緩存管理和增強的 Python SDK 集成等功能來加速 AI 模型訓練和簡化作的能力。
這些更新使組織能夠更快地訓練模型,更高效地處理海量數據集,并簡化 AI 基礎設施運營的復雜性。
AI 驅動型工作負載在管理數據量和復雜性方面面臨重大挑戰,這可能導致效率低下和訓練時間增加。確保快速、優先訪問關鍵數據并與常見 AI 框架無縫集成,對于優化性能和加速模型開發至關重要。
“最新版本的Alluxio Enterprise AI包含新功能,旨在進一步加速AI工作負載的性能,”Alluxio創始人兼首席執行官Haoyuan (HY) Li說。“我們的客戶正在使用通常跨越數十億個文件的大量數據集來訓練 AI 模型。Alluxio Enterprise AI 3.5 旨在確保工作負載以最佳性能運行,同時簡化 AI 基礎設施的管理和運營。

Alluxio Enterprise AI 3.5 版本包括以下主要功能:
- 新的緩存模式加速了 AI 檢查點 – Alluxio 的新 CACHE_ONLY 寫入模式顯著提高了寫入作的性能,例如在 AI 模型訓練期間寫入檢查點文件。啟用后,此模式僅將數據寫入 Alluxio 緩存,而不是底層文件系統 (UFS)。通過繞過 UFS,通過消除通常與底層存儲系統相關的瓶頸來提高寫入性能。此功能是實驗性的。
- 高級緩存驅逐策略提供細粒度控制 – Alluxio 的 TTL 緩存驅逐策略允許管理員對緩存數據執行生存時間 (TTL) 設置,確保根據定義的策略自動驅逐不經常訪問的數據。Alluxio 基于優先級的緩存驅逐策略使管理員能夠為特定數據定義緩存優先級,這些優先級會覆蓋 Alluxio 默認的最近最少使用(LRU)算法,確保關鍵數據保留在緩存中,即使它將被驅逐。這對于需要對關鍵數據集進行一致低延遲訪問的工作負載來說是理想的選擇。TTL 和基于優先級的緩存驅逐策略均已正式發布。
- Python SDK 集成增強了 AI 框架兼容性 – 該公司的 Python SDK 現在支持領先的 AI 框架,包括 PyTorch、PyArrow 和 Ray。這些集成提供了統一的 Python 文件系統接口,使應用程序能夠與各種存儲后端無縫交互。這通過促進對本地和遠程存儲系統的快速和重復訪問,簡化了 Alluxio Enterprise AI 對 Python 應用程序的采用,特別是那些處理數據密集型工作負載和 AI 模型訓練的應用程序。此功能是實驗性的。
該版本還為 Alluxio 的 S3 API 引入了一些增強功能,這些增強功能可用:
- 支持 HTTP 持久連接 (HTTP keep-alive) – Alluxio 現在支持 HTTP 持久連接,它為多個請求維護單個 TCP 連接。這減少了為每個請求打開新連接的開銷,并將 4KB S3 ReadObject 請求的延遲降低了約 40%。
- TLS 加密以增強安全性 – Alluxio S3 API 和 Alluxio worker 之間的通信現在支持 TLS 加密,確保數據傳輸安全。
- 多段上傳 (MPU) 支持 – Alluxio S3 API 現在支持多段上傳,它將文件拆分為多個段并單獨上傳每個段。此功能簡化了上傳過程,并提高了大型文件的吞吐量。
版本 3.5 中包含的其他增強功能包括:
- Alluxio Index Service – 一種新的緩存服務,可以提高存儲數億個文件和子目錄的目錄列表的性能。與 UFS 上的目錄列表相比,Index Service 通過從緩存中提供目錄列表詳細信息來確保可擴展性,并提供 3-5 倍的結果。此增強功能是實驗性的。
- UFS 讀取速率限制器 – 管理員現在可以設置速率限制來控制單個 Alluxio Worker 可以從 UFS 讀取的最大帶寬。通過配置 UFS 讀取速率限制器,管理員可以確保在保持系統穩定性的同時優化資源利用率。Alluxio 支持各種 UFS 類型的速率限制,包括 S3、HDFS、GCS、OSS 和 COS。此增強功能已正式發布。
- 支持異構 worker 節點 – Alluxio 現在支持具有異構資源配置(CPU、內存、磁盤和網絡)的 worker 節點的集群。此增強功能為管理員在配置集群方面提供了更大的靈活性,并提供了優化資源分配的更多機會。此增強功能已正式發布。
(文章為作者獨立觀點,不代表存儲網立場,版權疑問請聯系客服。)