NPU (Neurónová Procesná Jednotka)

Neurónová Procesná Jednotka (NPU) — niekedy označovaná aj ako AI Akcelerátor alebo Tensor Processing Unit (TPU) — je vysoko špecializovaná trieda mikroprocesorovej architektúry. Na rozdiel od univerzálnych CPU (procesorov), ktoré sú primárne optimalizované na sekvenčnú logiku a zložité vetvenie programu, jednotky NPU sú od základu návrhu kremíka skonštruované tak, aby robili excelentne len jednu jedinú vec: masívne paralelizovanú vektorovú matematiku, konkrétne operácie Multiply-Accumulate (MAC).

Operácie MAC (matematicky vyjadrené ako a * b + c) sú základnými matematickými stavebnými blokmi umelých neurónových sietí (ANN).

Prečo klasické CPU a GPU pri AI odvodzovaní (Inference) zlyhávajú

CPU: Tradičný mikrokontrolér MCU alebo mikroprocesor MPU (ako Cortex-A alebo Cortex-M) spracováva dáta sekvenčne. Dokonca aj s povolenými rozšíreniami SIMD (Single Instruction, Multiple Data), samotný výpočet rovného milióna MAC operácií pre analýzu jediného jedného obrazového rámca videa vyžaduje, aby architektúra prešla procesorovou linkou spracovania (inštrukčný cyklus fetch-decode-execute) miliónkrát po sebe. To spotrebúva ohromné množstvo času a batériovej energie.
GPU: Grafické procesorové jednotky, známe z grafických kariet, sú naopak excelentné v paralelnej matematike, čo je dôvod, prečo sú celosvetovým štandardom pre trénovanie modelov umelej inteligencie v cloudoch a serverovniach. Avšak GPU architektúry sú extrémne energeticky a prúdovo náročné, obrovské, generujú obrovské teplo a sú drahé. Nemôžete ich fyzicky napájať mincovou CR2032 batériou a umiestniť do vonkajšieho 5-dolárového IoT senzora kdesi na poli.

Unikátna výhoda NPU pri Edge computingu

NPU tento priepastný rozdiel preklepuje a úspešne umožňuje revolúciu v oblasti Edge AI a TinyML.

Tým, že architektúra zámerne vyhradzuje a alokuje dôležitú plochu samotného kremíka výhradne a špecificky len pre masívne hardvérové MAC polia a vysoko lokalizovanú pamäť SRAM (aby sa zabránilo obrovskému plytvaniu energie neustálym naberaním gigabajtov váh modelu z externej pomalej RAM), dokáže NPU obvod dokončiť úlohu odvodzovania a vyhodnocovania (napríklad detekciu prebúdzacieho slova v audiu alebo vizuálne rozpoznanie anomálie na páse z fotky) za zlomok celkového času a s použitím prísneho zlomku energie potrebnej pre univerzálny procesor.

Kľúčové metriky pri porovnávaní NPU:

TOPS (Tera Operations Per Second / Bilióny operácií za sekundu): Najbežnejšia (aj keď z marketingového hľadiska často mimoriadne zavádzajúca) metrika vyjadrujúca surovú priepustnosť jadra. V obore snímačov Edge AI bežne meriame jednotky v GOPS (Giga Operations).
TOPS/Watt (Výkon na Watt): Absolútne a skutočne kritická metrika pre hardvérové inžinierstvo embedded systémov.meria priamo reálnu energetickú účinnosť odvodzovania. Iba vysoký pomer TOPS/Watt umožňuje fungovanie relatívne zložitých AI modelov napájaných len z malých mincových či gombíkových batérií.
Podpora kvantovania (Quantization): Moderné NPU jadrá natívne a priamo na hardvéri obsluhujú celočíselnú matematiku vo formáte INT8 (8-bit) alebo dokonca INT4 (4-bitové hodnoty). Kvantovaním natrénovanej neurónovej siete (jej presným softvérovým prepočtom z náročných 32-bitových čísel s pohyblivou rádovou čiarkou FP32 nadol na 8-bitové celé čísla) dokáže NPU obvod spracovať vyhodnotenie modelu až 4x rýchlejšie a s radikálne menšími požiadavkami na priestor v pamäti FLASH/RAM obvodu, pričom miera straty presnosti siete je vo výsledku pre koncovú aplikáciu zanedbateľná.

Prečo klasické CPU a GPU pri AI odvodzovaní (Inference) zlyhávajú

Unikátna výhoda NPU pri Edge computingu

Súvisiace pojmy

Sídlo spoločnosti

Kancelária (R&D)