帳號:
密碼:
最新動態
 
產業快訊
CTIMES / 文章 /
利用CPU和SVE2加速視訊解碼和影像處理
 

【作者: Poulomi Dasgupta】   2025年01月09日 星期四

瀏覽人次:【245】

隨著每一代新產品的推出,Arm CPU 會實現全新一代的效能提升,並導入架構改進,以滿足不斷演進的運算工作負載的需求。本文重點介紹三個應用實例,以展示 Armv9 CPU 的架構特性在實際應用場景中產生的影響,尤其是在HDR 視訊解碼(加速 10%),影像處理(加速 20%),以及在主要行動應用程式中的功能 LibYUV(加速 26%)。


而本文中討論的一些 Arm SVE2 優化現已可供開發人員存取使用,有望提升熱門的媒體應用程式的使用者體驗,進一步改善人們溝通、工作和娛樂的方式。


應用開發人員和品牌廠面臨的挑戰

首先,從行動裝置端應用開發人員當前面臨的挑戰來看,目前市場上有超過200萬個安卓(Android)應用程式在爭奪使用者青睞。這些應用程式想要保持市場競爭力,就必須迅速將創新成果推廣到各種行動裝置上,若只是依賴功能固定的硬體,將會面臨產品上市時間和可攜性等方面的挑戰。


與出色的使用者體驗相關的指標,包括應用程式啟動時間、UI 流暢度、每秒詞元 (token) 數和每秒幀數 (FPS) 穩定性等,這些都需要切實滿足使用者的期望。因此,品牌商需要在效能提升以及更廣泛的使用者需求(如延長電池續航時間、減少資料使用量和裝置成本)之間取得平衡。其中任何一個方面若有不足,都可能導致使用者體驗打折扣,否定升級行動裝置的價值。


在 Armv9 CPU 上開發軟體可以解決品牌商和開發人員所面臨的挑戰。


SVE2 的實際應用實例

以下的三個研究案例,證明軟體優化可以加速實際工作負載。首先,以下是 SVE2 的一個子集和可加速行動裝置上關鍵工作負載的 Armv9 CPU 中的新向量指令:包括16 位點積和 8 位元矩陣乘法,可加速HDR 視訊播放、視訊會議;影像處理長條圖指令;聚合讀取和分散存入,用於攝影機鏡頭感測器資料的解交織處理;複數指令,用於加速視訊轉碼器中的快速傅立葉轉換。


使用這些向量指令,可使優化的軟體使用更少的CPU週期,進而帶來兩大好處,一是CPU 週期減少使得耗能降低,增加電池續航時間;二是可提高應用程式效能。


【案例 1】SVE2 提高視訊解碼速度

觀看多媒體內容是行動裝置上最常見的工作負載之一,也是行動裝置端網路最大的流量來源。因此,廠商不斷追求更高效率的轉碼器,希望在節省網路頻寬的同時,支援出色的圖像品質。


HDR技術由於色彩準確度更高,可呈現更加逼真的細節,即使是在非常暗或非常亮的場景中也是如此。它使用 10 位元而非 8 位元來表示每個色彩通道。AV1 和 VP9 以及其他現代轉碼器也支援 HDR 視訊。


AV1 是一種較新的格式,可提供更好的壓縮效果,而 VP9 在瀏覽器和裝置之間則具有更廣泛的相容性。像是Netflix、Instagram、Facebook 和YouTube等熱門應用程式,都使用 AV1 和 VP9 格式來播放影片。例如libdav1d 作為開源的 AV1 解碼器,已內嵌在 Facebook 應用中。


SVE2 優化使 HDR 視訊解碼速度提高約10%,VP9 解碼速度提高8%,AV1 解碼速度提高 10%。這使得 CPU週期減少約10%,電量消耗也相對減少,讓使用者在行動裝置上播放點播影片時能夠獲得更長的電池續航時間。如此,無論是觀看例如臉書或Instagram上的短影音,還是YouTube上的長影片將更加順暢!開發人員現可存取使用libdav1d(AV1 解碼器)和 libvpx(VP9 解碼器)的優化程式碼。


【案例 2】SVE2提高LibYUV 速度

值得一提的是,我們每個人都在不知不覺中使用了 LibYUV。


LibYUV 是一個開源函式庫,用於RGB 和 YUV 之間的色彩空間轉換、攝影機鏡頭感測器資料縮放,以及攝影機鏡頭濾除和旋轉。在經由視訊解碼器使用之前,它會對來自攝影機鏡頭感測器的資料進行處理。在很多情況下,視訊解碼器中的資料會先通過 LibYUV 進行處理,然後再發送去進行顯示。


SVE2 優化使 LibYUV 速度提高了 26%(Armv9 CPU 上多個核心的幾何平均值)。LibYUV 中大約有 100 個核心已使用 SVE2 進行優化,其他核心的優化工作正在進行中。


LibYUV 的發表是 Chromium 的一部分。Chromium 是一個開源瀏覽器專案,為 Chrome 及主要手機廠商自訂的瀏覽器奠定了基礎。它被整合到 AOSP 和 Android Jetpack 中。由於 LibYUV 對行動裝置相當重要,有望對整體行動裝置端體驗產生深遠的影響,例如帶來更好的視訊會議體驗、更順暢的直橫式螢幕模式切換,以及更好的視訊消費體驗,並且大幅地延長電池續航時間。


【案例 3】SVE2 提高運算攝影速度


圖一 : Halide-SVE2 和 Halide-Neon CPU 週期數對比
圖一 : Halide-SVE2 和 Halide-Neon CPU 週期數對比

Halide 是一種專門用於影像處理領域的語言,用於 Adobe Photoshop 等應用,一些品牌商也將它用於攝影機鏡頭管線。


SVE2 指令(例如聚合讀取和分散儲存指令)和 TBL(可程式設計查表,用於向量化小型查詢表)加速了 Halide 中的一些關鍵電腦視覺 (CV) 流程。iToFDepth(用於感知深度)、雙邊網格(用於邊緣感知色調映射)和局部拉普拉斯(用於濾除)等運算密集型演算法,在採用 SVE2 後,其效能提升了近 20%。


使用 SVE2 來優化軟體可以即時應用一些攝影效果,為入門級行動裝置開啟新的可能性,使用者無需專用硬體即可獲得更高品質的照片。Arm 已針對 SVE2 程式碼生成優化 Halide 後端,而一些修補程式已經上線,也正在開發其他修補程式。



圖二 : 深度效果範例圖像
圖二 : 深度效果範例圖像

圖三 : 邊緣感知色調映射範例圖像
圖三 : 邊緣感知色調映射範例圖像

如何善用 SVE2?

SVE2 導入幾個新指令,非常適合加速關鍵的實際工作負載和應用。Armv9 CPU 的最新進展將使開發人員能夠更快的實現創新,為各類行動裝置的消費者帶來更好的使用者體驗。


(本文作者為 Arm 終端產品事業部消費運算市場資深經理 Poulomi Dasgupta,中文版校閱者為Arm 首席應用工程師余志誠)


相關文章
以協助因應AI永無止盡的能源需求為使命
智慧家居大步走 Matter實現更好體驗與可靠連結
車載軟體數量劇增 SDV硬體平台方興未艾
低功耗MCU釋放物聯網潛力 加速智慧家庭成形
AI賦能智慧邊緣 行動運算處理器的時代革命
相關討論
  相關新聞
» CES 2025以智慧座艙驅動邊緣AI創新 實現主動汽車網路防禦
» CES 2025推進人類健康與生活福祉 達梭展AI驅動虛擬雙生
» 國際AI治理熱潮崛起 主權AI成全球焦點
» FDA虛擬雙生臨床試驗指南出爐 提升安全性與創新速度
» 資策會攜手學界啟動南臺灣生成式AI教育合作


刊登廣告 新聞信箱 讀者信箱 著作權聲明 隱私權聲明 本站介紹

Copyright ©1999-2025 遠播資訊股份有限公司版權所有 Powered by O3  v3.20.2048.162.158.78.238
地址:台北數位產業園區(digiBlock Taipei) 103台北市大同區承德路三段287-2號A棟204室
電話 (02)2585-5526 #0 轉接至總機 /  E-Mail: [email protected]