阿里云PAI發(fā)布DeepRec Extension，打造穩(wěn)定高效的分布式訓練，并宣布開源！

2024-05-23 53870

核心提示：近日，阿里云人工智能平臺PAI正式發(fā)布自研的 DeepRec Extension（即 DeepRec 擴展），旨在以更低成本，更高效率進行稀疏模型的分布式訓練

近日，阿里云人工智能平臺PAI正式發(fā)布自研的 DeepRec Extension（即 DeepRec 擴展），旨在以更低成本，更高效率進行稀疏模型的分布式訓練。DeepRec Extension 在 DeepRec 訓練推理框架之上，圍繞大規(guī)模稀疏模型分布式訓練，創(chuàng)新性地從訓練任務的視角提出了自動彈性訓練和分布式容錯功能，進一步提升稀疏模型訓練的整體效率，助力 DeepRec 引擎在稀疏場景中發(fā)揮更大的優(yōu)勢。

DeepRec Extension 有效地解決了企業(yè)級場景大規(guī)模稀疏模型訓練中的難點。隨著業(yè)務發(fā)展，模型尺寸增長到百 GB / TB 量級，分布式訓練往往會遇到分布式建模接口復雜、資源預估困難且無法彈性、分布式容錯機制過于簡單和分布式環(huán)境復雜等問題，阻礙大尺寸模型高效、穩(wěn)定地完成訓練。DeepRec Extension 提供易用、高效、高性價比的框架，使得模型能夠便捷地在分布式環(huán)境中運行，切實解決上述問題。

DeepRec Extension 設計思路及整體架構(gòu)

DeepRec Extension 推出分布式訓練資源預估、自動彈性訓練、資源/計算圖監(jiān)控、自動備份容錯等功能，有效降低了大規(guī)模稀疏模型訓練的技術(shù)門檻和成本，同時提升了分布式訓練的效率和穩(wěn)定性。DeepRec Extension 簡化分布式訓練的工作流程，保障用戶聚焦于模型的構(gòu)建階段，更加專注于模型本身的創(chuàng)新與優(yōu)化，無需關(guān)注繁瑣的底層架構(gòu)配置。在性能提升方面，資源預估以及自動彈性訓練為用戶節(jié)約 20% ~ 60% 資源，在穩(wěn)定性方面，PS 發(fā)生異常后，模型 E2E 訓練吞吐提升 10%。

一直以來，大規(guī)模稀疏模型分布式訓練是備受關(guān)注的話題，阿里云人工智能平臺PAI正式將 DeepRec Extension 開源，與AI開發(fā)者共同打造更快更好的分布式訓練框架，全面助力AI大模型發(fā)展！

開源地址：https://github.com/DeepRec-AI/extension

分享到:

收藏 0 評論 0

更多>同類資訊

免責申明

推薦資訊

點擊排行

最新資訊更多>

最新供應更多>

中國智能化網(wǎng)（zgznh^®）--引領(lǐng)工業(yè)智能化產(chǎn)業(yè)發(fā)展共享智能化+優(yōu)質(zhì)平臺

版權(quán)所有：深圳市智控網(wǎng)絡有限公司 學術(shù)指導：深圳市智能化學會

粵ICP備12078626號

深公網(wǎng)安備案證字第 4403101901094 號 | 粵公網(wǎng)安備 44030702001206號

• 央視探訪：白羽肉雞智能立體養(yǎng)殖工廠	• MSCI：海爾智家ESG評級升至AA，國內(nèi)行業(yè)最高
• 百年IFA展，有關(guān)進化的較量	• 首個家電家居一體化標準發(fā)布，三翼鳥填補行業(yè)空
• 高端更劃算！卡薩帝中央空調(diào)啟動煥新家裝節(jié)活動	• 推動10項標準制定！海爾智家組織年度標準審查會
• 2024服貿(mào)會：海爾智家入選ESG綜合治理標桿企業(yè)	• 【華南站】慕尼黑華南電子生產(chǎn)設備展六大特色專
• 2000元封頂？卡薩帝冰箱再追加高端新品補貼	• 行業(yè)首座高端汽車定制互聯(lián)工廠落地：沉浸式定制

阿里云PAI發(fā)布DeepRec Extension，打造穩(wěn)定高效的分布式訓練，并宣布開源！

阿里云PAI發(fā)布DeepRec Extension，打造穩(wěn)定高效的分布式訓練，并宣布開源！