GPU的AI加速運算能力在各大研究上扮演關鍵角色。麗臺科技突破傳統限制,率先發表GPU資源分配與管理系統 (GDMS),並首由長庚大學資工系導入使用。
|
長庚大學資工系系主任陳仁暉(中)與麗臺科技協理陳樹威(左一)等人合影。(source:麗臺) |
麗臺GDMS提供多人使用單一張GPU,以及一人使用多GPU兩種資源分配模式,適用於NVIDIA 全系列繪圖卡,支援不同規模的工作負載,達到資源運用最大化。其直覺式圖型操作介面,讓不懂Docker指令的管理人員,仍能輕鬆執行AI專案建置,將AI研發和教學環境佈署時間縮短300倍。
在AI研發上,目前大部份開發者採用的容器化開源軟體架構,皆是以單張GPU為單位。也就是單一GPU卡,只能分配給單一Container使用。麗臺GDMS則是以專案及Docker為基礎的GPU資源分配與管理系統,容許多個Container使用同一張GPU資源。長庚大學資工系陳仁暉系主任提到,在教學上,學生所執行的專案較小,如果GPU等資源無法有效分配,將十分可惜。GDMS可以在相同資源條件下,讓更多學生同時使用GPU運算資源,將能夠大大提升GPU使用率。此外,透過GDMS圖型介面,除了能讓使用者更方便操作外,老師也能在課堂間的休息時間,快速佈署不同Container給指定學生使用。一般來說,大約需要花 50 分鐘才能建立 100 個 Container,但現在只需要花十秒即可完成,同時達到快速備課及資源使用最大化目的,真的是教學一大利器。
麗臺科技林威延博士補充,此種單卡支援多人使用的模式也相當適合企業研發單位執行AI訓練,以降低總體持有成本。麗臺GDMS另一個功能則反過來。例如研究單位進行大型AI研發專案時,麗臺GDMS能集中多張GPU資源支持該專案進行,並確保其他人尋找可用GPU資源時不會影響到該專案的資源分配,彈性支援不同AI開發情境。
在實務上,隨著需求不斷改變,AI研發單位會不斷的擴充硬體,創建不同的群組與Docker。時間久了,很難記住這些Docker佈署在哪些伺服器上,進而造成管理混亂。在GDMS協助下,管理時間將大幅降低,研發團隊可更專注於AI專案開發。除此之外,麗臺同時推出RTX GPU AI 開發軟體(RTX AI Software Pack)以解決AI框架相依函式庫易相衝突的問題。麗臺GPU AI開發軟體整合了 12 種深度學習以及機器學習的開發套件。除了大家熟悉的 Caffe、TensorFlow、學術界常用的 PyTorch,還有RAPIDS等,各開發套件的相容性已調整在最佳狀態,在AI開發環境建置上,將可省去除錯時間。若在伺服器上安裝麗臺GPU AI 開發軟體,再通過 GDMS啟動Container,便可直接開啟多個對應的連接埠、整合儲存設備路徑,或安裝必要套件(例如:Jupyter notebook、Matplotlib),專案成員亦可自行上傳Docker Image。如此一來,透過GDMS的管理,除了GPU的資源分配之外,只需要對應多組連接埠,即可在有限的硬體實現多叢集架構的軟體教學 (例如:Hadoop),不需再購買其他虛擬化方案。
圖說 : 長庚大學資工系系主任陳仁暉(中),麗臺科技協理陳樹威(左一),長庚大學資工系助理教授李季青(左二),麗臺科技業務經理沈守宥(右二),麗臺科技技術經理劉家豪(右一)合影。(source:麗臺)