隨著人工智能 (AI),尤其是生成式 AI 的引入,汽車行業(yè)正迎來(lái)變革性轉(zhuǎn)變。麥肯錫最近對(duì)汽車和制造業(yè)高管開(kāi)展的一項(xiàng)調(diào)查表明,超過(guò) 40% 的受訪者對(duì)生成式 AI 研發(fā)的投資額高達(dá) 500 萬(wàn)歐元,超過(guò) 10% 受訪者的投資額超過(guò) 2,000 萬(wàn)歐元。
隨著行業(yè)向軟件定義汽車 (SDV) 不斷發(fā)展,到 2030 年,汽車中的代碼行數(shù)預(yù)計(jì)將從每輛車 1 億行增加至約 3 億行。面向汽車的生成式 AI 與 SDV 相結(jié)合,可共同實(shí)現(xiàn)性能和舒適性方面的車載用例,以幫助提升駕乘體驗(yàn)。
本文將介紹一項(xiàng)由 Arm 與亞馬遜云科技 (AWS) 合作開(kāi)發(fā)的車載生成式 AI 用例及其實(shí)現(xiàn)詳情。
用例介紹
隨著汽車愈發(fā)精密,車主已經(jīng)能在交車后持續(xù)接收諸如停車輔助或車道保持等功能更新,伴隨而來(lái)的挑戰(zhàn)是,如何讓車主及時(shí)了解新增的更新和新功能?過(guò)往通過(guò)紙質(zhì)或在線手冊(cè)等傳統(tǒng)方法的更新方式已證明存在不足,導(dǎo)致車主無(wú)法充分了解汽車的潛能。
為了應(yīng)對(duì)這一挑戰(zhàn),AWS 將生成式 AI、邊緣計(jì)算和物聯(lián)網(wǎng) (IoT) 的強(qiáng)大功能相結(jié)合,開(kāi)發(fā)了一項(xiàng)車載生成式 AI 的演示。這項(xiàng)演示所展現(xiàn)的解決方案是由小語(yǔ)言模型 (SLM) 所支持的車載應(yīng)用,旨在使駕駛員能夠通過(guò)自然語(yǔ)音交互獲取最新的車輛信息。該演示應(yīng)用能夠在部署后離線運(yùn)行,確保駕駛員在沒(méi)有互聯(lián)網(wǎng)連接的情況下,也能訪問(wèn)有關(guān)車輛的重要信息。
該解決方案集成了多項(xiàng)先進(jìn)技術(shù),為用戶打造出更無(wú)縫、更高效的產(chǎn)品體驗(yàn)。這項(xiàng)演示的應(yīng)用部署在車內(nèi)本地的小語(yǔ)言模型,該模型利用經(jīng) Arm KleidiAI 優(yōu)化的例程對(duì)性能進(jìn)行提升。未經(jīng) KleidiAI 優(yōu)化的系統(tǒng)的響應(yīng)時(shí)間為 8 至 19 秒左右,相比之下,經(jīng) KleidiAI 優(yōu)化的小語(yǔ)言模型的推理響應(yīng)時(shí)間為 1 至 3 秒。通過(guò)使用 KleidiAI,應(yīng)用開(kāi)發(fā)時(shí)間縮短了 6 周,而且開(kāi)發(fā)者在開(kāi)發(fā)期間無(wú)需關(guān)注底層軟件的優(yōu)化。
Arm 虛擬硬件 (Arm Virtual Hardware) 支持訪問(wèn)許多 AWS 上的熱門物聯(lián)網(wǎng)開(kāi)發(fā)套件。當(dāng)物理設(shè)備不可用,或者全球各地的團(tuán)隊(duì)無(wú)法訪問(wèn)物理設(shè)備時(shí),在 Arm 虛擬硬件上進(jìn)行開(kāi)發(fā)和測(cè)試可節(jié)省嵌入式應(yīng)用的開(kāi)發(fā)時(shí)間。AWS 在汽車虛擬平臺(tái)上成功測(cè)試了該演示應(yīng)用,在演示中,Arm 虛擬硬件提供了樹莓派設(shè)備的虛擬實(shí)例。同樣的 KleidiAI 優(yōu)化也可用于 Arm 虛擬硬件。
這個(gè)在邊緣側(cè)設(shè)備上運(yùn)行的生成式 AI 應(yīng)用所具備的關(guān)鍵特性之一是,它能夠接收 OTA 無(wú)線更新,其中部分更新使用 AWS IoT Greengrass Lite 接收,從而確保始終向駕駛員提供最新信息。AWS IoT Greengrass Lite 在邊緣側(cè)設(shè)備上僅占用 5 MB 的 RAM,因此具有很高的內(nèi)存效率。此外,該解決方案包含自動(dòng)質(zhì)量監(jiān)控和反饋循環(huán),用于持續(xù)評(píng)估小語(yǔ)言模型響應(yīng)的相關(guān)性和準(zhǔn)確性。其中采用了一個(gè)比較系統(tǒng),對(duì)超出預(yù)期質(zhì)量閾值的響應(yīng)進(jìn)行標(biāo)記,以進(jìn)行審核。然后,通過(guò) AWS 上的儀表板,以近乎實(shí)時(shí)的速度對(duì)收集到的反饋數(shù)據(jù)進(jìn)行可視化,使整車廠的質(zhì)保團(tuán)隊(duì)能夠?qū)徍撕痛_定需要改進(jìn)的方面,并根據(jù)需要發(fā)起更新。
這個(gè)由生成式 AI 提供支持的解決方案,所具備的優(yōu)勢(shì)不僅僅在于為駕駛員提供準(zhǔn)確的信息。它還體現(xiàn)了 SDV 生命周期管理的范式轉(zhuǎn)變,實(shí)現(xiàn)了更持續(xù)的改進(jìn)周期,整車廠可以根據(jù)用戶交互來(lái)添加新內(nèi)容,而小語(yǔ)言模型可以使用通過(guò)無(wú)線網(wǎng)絡(luò)無(wú)縫部署的更新信息進(jìn)行微調(diào)。這樣一來(lái),通過(guò)保證最新的車輛信息,用戶體驗(yàn)得以提升,此外整車廠也有機(jī)會(huì)向用戶介紹和指導(dǎo)新特性或可購(gòu)買的附加功能。通過(guò)利用生成式 AI、物聯(lián)網(wǎng)和邊緣計(jì)算的強(qiáng)大功能,這個(gè)生成式 AI 應(yīng)用可以起到汽車用戶向?qū)У淖饔?,其中展示的方法有助于?nbsp;SDV 時(shí)代實(shí)現(xiàn)更具連接性、信息化和適應(yīng)性的駕駛體驗(yàn)。
端到端的上層實(shí)現(xiàn)方案
下圖所示的解決方案架構(gòu)用于對(duì)模型進(jìn)行微調(diào)、在 Arm 虛擬硬件上測(cè)試模型,以及將小語(yǔ)言模型部署到邊緣側(cè)設(shè)備,并且其中包含反饋收集機(jī)制。
圖:基于生成式 AI 的汽車用戶向?qū)У慕鉀Q方案架構(gòu)圖
上圖中的編號(hào)對(duì)應(yīng)以下內(nèi)容:
1. 模型微調(diào):AWS 演示應(yīng)用開(kāi)發(fā)團(tuán)隊(duì)選擇 TinyLlama-1.1B-Chat-v1.0 作為其基礎(chǔ)模型,該模型已針對(duì)會(huì)話任務(wù)進(jìn)行了預(yù)訓(xùn)練。為了優(yōu)化駕駛員的汽車用戶向?qū)Я奶旖缑?,團(tuán)隊(duì)設(shè)計(jì)了言簡(jiǎn)意賅、重點(diǎn)突出的回復(fù),以便適應(yīng)駕駛員在行車時(shí)僅可騰出有限注意力的情況。團(tuán)隊(duì)創(chuàng)建了一個(gè)包含 1,000 組問(wèn)答的自定義數(shù)據(jù)集,并使用 Amazon SageMaker Studio 進(jìn)行了微調(diào)。
2. 存儲(chǔ):經(jīng)過(guò)調(diào)優(yōu)的小語(yǔ)言模型存儲(chǔ)在 Amazon Simple Storage Service (Amazon S3) 中。
3. 初始部署:小語(yǔ)言模型最初部署到基于 Ubuntu 的 Amazon EC2 實(shí)例。
4. 開(kāi)發(fā)和優(yōu)化:團(tuán)隊(duì)在 EC2 實(shí)例上開(kāi)發(fā)并測(cè)試了生成式 AI 應(yīng)用,使用 llama.cpp 進(jìn)行小語(yǔ)言模型量化,并應(yīng)用了 Q4_0 方案。KleidiAI 優(yōu)化預(yù)先集成了 llama.cpp。與此同時(shí),模型還實(shí)現(xiàn)了大幅壓縮,將文件大小從 3.8 GB 減少至 607 MB。
5. 虛擬測(cè)試:將應(yīng)用和小語(yǔ)言模型傳輸?shù)?nbsp;Arm 虛擬硬件的虛擬樹莓派環(huán)境進(jìn)行初始測(cè)試。
6. 虛擬驗(yàn)證:在虛擬樹莓派設(shè)備中進(jìn)行全面測(cè)試,以確保功能正常。
7. 邊緣側(cè)部署:通過(guò)使用 AWS IoT Greengrass Lite,將生成式 AI 應(yīng)用和小語(yǔ)言模型部署到物理樹莓派設(shè)備,并利用 AWS IoT Core 作業(yè)進(jìn)行部署管理。
8. 部署編排:AWS IoT Core 負(fù)責(zé)管理部署到邊緣側(cè)樹莓派設(shè)備的任務(wù)。
9. 安裝過(guò)程:AWS IoT Greengrass Lite 處理從 Amazon S3 下載的軟件包,并自動(dòng)完成安裝。
10. 用戶界面:已部署的應(yīng)用在邊緣側(cè)樹莓派設(shè)備上為最終用戶提供基于語(yǔ)音的交互功能。
11. 質(zhì)量監(jiān)控:生成式 AI 應(yīng)用實(shí)現(xiàn)對(duì)用戶交互的質(zhì)量監(jiān)控。數(shù)據(jù)通過(guò) AWS IoT Core 收集,并通過(guò) Amazon Kinesis Data Streams 和 Amazon Data Firehose 處理,然后存儲(chǔ)到 Amazon S3。整車廠可通過(guò) Amazon QuickSight 儀表板來(lái)監(jiān)控和分析數(shù)據(jù),及時(shí)發(fā)現(xiàn)并解決任何小語(yǔ)言模型質(zhì)量問(wèn)題。
接下來(lái)將深入探討 KleidiAI 及該演示采用的量化方案。
Arm KleidiAI
Arm KleidiAI 是專為 AI 框架開(kāi)發(fā)者設(shè)計(jì)的開(kāi)源庫(kù)。它為 Arm CPU 提供經(jīng)過(guò)優(yōu)化的性能關(guān)鍵例程。該開(kāi)源庫(kù)最初于 2024 年 5 月推出,現(xiàn)在可為各種數(shù)據(jù)類型的矩陣乘法提供優(yōu)化,包括 32 位浮點(diǎn)、Bfloat16 和 4 位定點(diǎn)等超低精度格式。這些優(yōu)化支持多項(xiàng) Arm CPU 技術(shù),比如用于 8 位計(jì)算的 SDOT 和 i8mm,以及用于 32 位浮點(diǎn)運(yùn)算的 MLA。
憑借四個(gè) Arm Cortex-A76 核心,樹莓派 5 演示使用了 KleidiAI 的 SDOT 優(yōu)化,SDOT 是最早為基于 Arm CPU 的 AI 工作負(fù)載設(shè)計(jì)的指令之一,它在 2016 年發(fā)布的 Armv8.2-A 中推出。
SDOT 指令也顯示了 Arm 持續(xù)致力于提高 CPU 上的 AI 性能。繼 SDOT 之后,Arm 針對(duì) CPU 上運(yùn)行 AI 逐步推出了新指令,比如用于更高效 8 位矩陣乘法的 i8mm 和 Bfloat16 支持,以期提高 32 位浮點(diǎn)性能,同時(shí)減半內(nèi)存使用。
對(duì)于使用樹莓派 5 進(jìn)行的演示,通過(guò)按塊量化方案,利用整數(shù) 4 位量化(也稱為 llama.cpp 中的 Q4_0)來(lái)加速矩陣乘法,KleidiAI 扮演關(guān)鍵作用。
llama.cpp 中的 Q4_0 量化格式
llama.cpp 中的 Q4_0 矩陣乘法包含以下組成部分:
· 左側(cè) (LHS) 矩陣,以 32 位浮點(diǎn)值的形式存儲(chǔ)激活內(nèi)容。
· 右側(cè) (RHS) 矩陣,包含 4 位定點(diǎn)格式的權(quán)重。在該格式中,量化尺度應(yīng)用于由 32 個(gè)連續(xù)整數(shù) 4 位值構(gòu)成的數(shù)據(jù)塊,并使用 16 位浮點(diǎn)值進(jìn)行編碼。
因此,當(dāng)提到 4 位整數(shù)矩陣乘法時(shí),它特指用于權(quán)重的格式,如下圖所示:
在這個(gè)階段,LHS 和 RHS 矩陣均不是 8 位格式,KleidiAI 如何利用專為 8 位整數(shù)點(diǎn)積設(shè)計(jì)的 SDOT 指令?這兩個(gè)輸入矩陣都必須轉(zhuǎn)換為 8 位整數(shù)值。
對(duì)于 LHS 矩陣,在矩陣乘法例程之前,還需要一個(gè)額外的步驟:動(dòng)態(tài)量化為 8 位定點(diǎn)格式。該過(guò)程使用按塊量化方案將 LHS 矩陣動(dòng)態(tài)量化為 8 位,其中,量化尺度應(yīng)用于由 32 個(gè)連續(xù) 8 位整數(shù)值構(gòu)成的數(shù)據(jù)塊,并以 16 位浮點(diǎn)值的形式存儲(chǔ),這與 4 位量化方法類似。
動(dòng)態(tài)量化可最大限度降低準(zhǔn)確性下降的風(fēng)險(xiǎn),因?yàn)榱炕叨纫蜃邮窃谕评頃r(shí)根據(jù)每個(gè)數(shù)據(jù)塊中的最小值和最大值計(jì)算得出的。與該方法形成對(duì)比的是,靜態(tài)量化的尺度因子是預(yù)先確定的,保持不變。
對(duì)于 RHS 矩陣,在矩陣乘法例程之前,無(wú)需額外步驟。事實(shí)上,4 位量化充當(dāng)壓縮格式,而實(shí)際計(jì)算是以 8 位進(jìn)行的。因此,在將 4 位值傳遞給點(diǎn)積指令之前,首先將其轉(zhuǎn)換為 8 位。從 4 位轉(zhuǎn)換為 8 位的計(jì)算成本并不高,因?yàn)橹恍柽M(jìn)行簡(jiǎn)單的移位/掩碼運(yùn)算即可。
既然轉(zhuǎn)換效率如此高,為什么不直接使用 8 位,省去轉(zhuǎn)換的麻煩?
使用 4 位量化有兩個(gè)關(guān)鍵優(yōu)勢(shì):
· 縮小模型尺寸:由于 4 位值所需的內(nèi)存只有 8 位值的一半,因此這對(duì)可用 RAM 有限的平臺(tái)尤其有益。
· 提升文本生成性能:文本生成過(guò)程依賴于一系列矩陣向量運(yùn)算,這些運(yùn)算通常受內(nèi)存限制。也就是說(shuō),性能受限于內(nèi)存和處理器之間的數(shù)據(jù)傳輸速度,而不是處理器的計(jì)算能力。由于內(nèi)存帶寬是一個(gè)限制因素,縮小數(shù)據(jù)大小可最大限度減少內(nèi)存流量,從而顯著提高性能。
如何結(jié)合使用 KleidiAI 與 llama.cpp?
非常簡(jiǎn)單,KleidiAI 已集成到 llama.cpp 中。因此,開(kāi)發(fā)者不需要額外的依賴項(xiàng)就能充分發(fā)揮 Armv8.2 及更新架構(gòu)版本的 Arm CPU 性能。
兩者的集成意味著,在移動(dòng)設(shè)備、嵌入式計(jì)算平臺(tái)和基于 Arm 架構(gòu)處理器的服務(wù)器上運(yùn)行 llama.cpp 的開(kāi)發(fā)者,現(xiàn)在可以體驗(yàn)到更好的性能。
除了 llama.cpp,還有其他選擇嗎?
對(duì)于在 Arm CPU 上運(yùn)行大語(yǔ)言模型,雖然 llama.cpp 是一個(gè)很好的選擇,但開(kāi)發(fā)者也可以使用其他采用了 KleidiAI 優(yōu)化的高性能生成式 AI 框架。例如(按首字母順序排列):ExecuTorch、MediaPipe、MNN 和 PyTorch。只需選擇最新版本的框架即可。
因此,如果開(kāi)發(fā)者正考慮在 Arm CPU 上部署生成式 AI 模型,探索以上框架有助于實(shí)現(xiàn)性能和效率的優(yōu)化。
總結(jié)
SDV 和生成式 AI 的融合,正在共同開(kāi)創(chuàng)一個(gè)新的汽車創(chuàng)新時(shí)代,使得未來(lái)的汽車變得更加智能化,更加以用戶為中心。文中介紹的車載生成式 AI 應(yīng)用演示由 Arm KleidiAI 進(jìn)行優(yōu)化并由 AWS 所提供的服務(wù)進(jìn)行支持,展示了新興技術(shù)如何幫助解決汽車行業(yè)的實(shí)際挑戰(zhàn)。該解決方案可實(shí)現(xiàn) 1 至 3 秒的響應(yīng)時(shí)間并將開(kāi)發(fā)時(shí)間縮短數(shù)周,證明更高效且離線可用的生成式 AI 應(yīng)用不僅能夠?qū)崿F(xiàn),而且非常適合車載部署。
汽車技術(shù)的未來(lái)在于打造無(wú)縫融合邊緣計(jì)算、物聯(lián)網(wǎng)功能和 AI 的解決方案。隨著汽車不斷演變且軟件越來(lái)越復(fù)雜,潛在解決方案(比如本文介紹的解決方案)將成為彌合先進(jìn)汽車功能與用戶理解間差距的關(guān)鍵。
免責(zé)聲明:本文轉(zhuǎn)自網(wǎng)絡(luò),僅代表作者個(gè)人觀點(diǎn),與亞訊車網(wǎng)無(wú)關(guān)。其原創(chuàng)性以及文中陳述文字和內(nèi)容(包括圖片版權(quán)等問(wèn)題)未經(jīng)本站證實(shí),對(duì)本文以及其中全部或者部分內(nèi)容、文字的真實(shí)性、完整性、及時(shí)性本站不作任何保證或承諾,請(qǐng)讀者僅作參考,并請(qǐng)自行核實(shí)相關(guān)內(nèi)容。本站不承擔(dān)此類作品侵權(quán)行為的直接責(zé)任及連帶責(zé)任。
買車、賣車就上亞訊車網(wǎng) m.foodfunfashion.com
汽車團(tuán)購(gòu) tg.yescar.cn,省心、省力、省錢!團(tuán)購(gòu)電話:400-6808097
關(guān)鍵詞:AI,模型,Arm,生成,進(jìn)行
日前,廣汽昊鉑官方表示,旗下全新概念車“Earth大地”將在2025上海
近日,海外媒體曝光了一組全新Jeep指南者的諜照。新車將采用純電動(dòng)
近日,全新日產(chǎn)聆風(fēng)的諜照曝光,有意思的是它將跨界變成一款SUV車型,
近日,嵐圖官方發(fā)布了一張全新全尺寸大六座SUV的預(yù)告圖。新車定位
近日,從相關(guān)渠道獲悉本田燁品牌第二彈車型GT將于上海車展首發(fā)。