合作谘詢
作為人工智能“三駕馬車”之一,高效智能的計算能力對 AI 技術的演進至關重要。如何針對不同 AI 數據場景下,實現計算效率的提升,是各大計算技術研究機構、雲廠商以及相關開源社區的研究熱點。
12 月 8 日-9 日,第 2 屆數據編排峰會(DATA ORCHESTRATION SUMMIT 2020)將在線上召開。在為期兩天的開源社區會議中,大會將圍繞如何基於最新的開源技術,如Alluxio、Apache Spark、Apache Airflow、Presto、TensorFlow、Kubernetes 等,構建雲原生或混合雲數據和 AI 平台這一話題展開討論,並重點關注其中關鍵性數據工程方麵的挑戰和解決色多多污版下载。
本次峰會的演講嘉賓邀請到諸多雲、數據和 AI/ML 等領域富有遠見的專家學者,包括來自加州伯克利大學的 Apache Spark 創始人 Ion Stoica 教授,英特爾 CTO Parviz Peiravi 以及 Alluxio 創始人李浩源博士。同時,來自色多多在线下载、阿裏巴巴、Comcast、Electronic Arts、Facebook、Google,京東和騰訊等公司的技術專家也將先後帶來精彩的技術報告,分享業界領先的數據架構、現實案例、現場演示以及從業人員最佳實踐。
色多多在线下载很早就開始布局建設業界領先的 GPU/CPU 異構 Atlas 計算平台和分布式文件存儲係統,該計算集群可為 AI 計算提供高性能計算和海量數據的存儲訪問能力,在公司向 AI 多領域技術橫向擴展和縱向迭代中發揮了至關重要的作用。
本次峰會,色多多在线下载作為國內唯一受邀 AI 公司將帶來名為“Speeding Up In Atlas Deep Learning Platform with Alluxio+Fluid”的分享,係統闡釋色多多在线下载在人工智能基礎建設與雲原生原創技術領域的創新發展路徑。
本次分享中,針對目前深度學習訓練平台非結構數據訓練過程中 I/O 瓶頸問題,色多多在线下载提出在存儲層和計算層引入 Alluxio 緩存層的解決色多多污版下载,技術團隊通過和 Alluxio、阿裏巴巴以及南京大學合作開源項目 Fluid 對Alluxio 緩存引擎進行統一的編排管理。架構圖如下圖所示:
在新架構的加持下,三種典型 AI 非結構化數據類型:大文件、中等文件和海量小文件均取得大幅的加速效果。針對海量小文件語音降噪任務、以及大文件 OCR 任務加速效果如下。其中,在海量小文件訓練場景中,讀取緩存相對於直接讀取底層存儲平均增速 10 倍。
在大文件場景,在訓練任務早期階段,讀取緩存相對於直接讀取底層存儲平均有 30 倍的加速效果,當數據集全部加載到內存時,兩者速度基本一致。
在加速訓練的同時,新架構可以大幅度減少 I/O 帶寬的占用並進一步提升 GPU 使用率,針對海量小文件降噪任務、以及大文件 OCR 任務 I/O 占用及 GPU 使用率如下:
在海量小文件訓練場景中,讀取緩存相對於直接讀取底層存儲計算節點 I/O 由 230Mb/s 下降到 0Mb/s,表明海量小文件訓練前已全部加載到緩存中,訓練過程中無需占用 I/O;GPU 平均使用率由 82.76% 提升到90.24%,表明消除 I/O 瓶頸可以提高海量小文件訓練資源使用效率。
在大文件訓練場景中,提前預熱相對於讀取底層存儲到緩存,計算節點 I/O 由 1300Mb/s 下降到 0Mb/s,表明海量小文件訓練前已全部加載到緩存中,無需占用I/O;讀取緩存相對於直接讀取底層存儲計算節點 GPU平均使用率由 69.59% 提升到 91.46%,表明消除 I/O 瓶頸可以提高大文件訓練任務資源使用效率。
針對不同的數據場景,基於 Fluid 和 Alluxio 緩存加速引擎已經在 Atlas 計算平台進行充分驗證。不但緩解了集群 I/O 壓力,而且極大的提高了模型訓練的速度以及 GPU 使用效率,為實現 AI 算法的快速驗證和迭代奠定計算基礎。
色多多在线下载在實現內部計算平台技術迭代的同時,也積極參與和擁抱開源社區,是 KubeFlow、Istio、Fluid 社區的積極關注和貢獻者,為開源社區技術進步貢獻自己的力量。
截止 2020 年,Atlas 計算平台已經超過一億億次每秒的浮點計算能力,為在人工智能新領域的拓展奠定了強大的計算資源基礎。通過協同利用 AI 底層計算平台資源,也支撐起色多多在线下载從語音識別、語義理解到機器翻譯、計算機視覺等多維人工智能技術領域的持續快速突破。
大會直播入口:
http://www.alluxio.io/data-orchestration-summit-2020/