Skip to content
Inovasense

NPU (Neurónová Procesná Jednotka)

Neural Processing Unit (NPU) je špecializovaný hardvérový akcelerátor navrhnutý výhradne na spúšťanie algoritmov strojového učenia (napr. konvolučných...

Definícia
Neural Processing Unit (NPU) je špecializovaný hardvérový akcelerátor navrhnutý výhradne na spúšťanie algoritmov strojového učenia (napr. konvolučných...

Neurónová Procesná Jednotka (NPU) — niekedy označovaná aj ako AI Akcelerátor alebo Tensor Processing Unit (TPU) — je vysoko špecializovaná trieda mikroprocesorovej architektúry. Na rozdiel od univerzálnych CPU (procesorov), ktoré sú primárne optimalizované na sekvenčnú logiku a zložité vetvenie programu, jednotky NPU sú od základu návrhu kremíka skonštruované tak, aby robili excelentne len jednu jedinú vec: masívne paralelizovanú vektorovú matematiku, konkrétne operácie Multiply-Accumulate (MAC).

Operácie MAC (matematicky vyjadrené ako a * b + c) sú základnými matematickými stavebnými blokmi umelých neurónových sietí (ANN).

Prečo klasické CPU a GPU pri AI odvodzovaní (Inference) zlyhávajú

  • CPU: Tradičný mikrokontrolér MCU alebo mikroprocesor MPU (ako Cortex-A alebo Cortex-M) spracováva dáta sekvenčne. Dokonca aj s povolenými rozšíreniami SIMD (Single Instruction, Multiple Data), samotný výpočet rovného milióna MAC operácií pre analýzu jediného jedného obrazového rámca videa vyžaduje, aby architektúra prešla procesorovou linkou spracovania (inštrukčný cyklus fetch-decode-execute) miliónkrát po sebe. To spotrebúva ohromné množstvo času a batériovej energie.
  • GPU: Grafické procesorové jednotky, známe z grafických kariet, sú naopak excelentné v paralelnej matematike, čo je dôvod, prečo sú celosvetovým štandardom pre trénovanie modelov umelej inteligencie v cloudoch a serverovniach. Avšak GPU architektúry sú extrémne energeticky a prúdovo náročné, obrovské, generujú obrovské teplo a sú drahé. Nemôžete ich fyzicky napájať mincovou CR2032 batériou a umiestniť do vonkajšieho 5-dolárového IoT senzora kdesi na poli.

Unikátna výhoda NPU pri Edge computingu

NPU tento priepastný rozdiel preklepuje a úspešne umožňuje revolúciu v oblasti Edge AI a TinyML.

Tým, že architektúra zámerne vyhradzuje a alokuje dôležitú plochu samotného kremíka výhradne a špecificky len pre masívne hardvérové MAC polia a vysoko lokalizovanú pamäť SRAM (aby sa zabránilo obrovskému plytvaniu energie neustálym naberaním gigabajtov váh modelu z externej pomalej RAM), dokáže NPU obvod dokončiť úlohu odvodzovania a vyhodnocovania (napríklad detekciu prebúdzacieho slova v audiu alebo vizuálne rozpoznanie anomálie na páse z fotky) za zlomok celkového času a s použitím prísneho zlomku energie potrebnej pre univerzálny procesor.

Kľúčové metriky pri porovnávaní NPU:

  • TOPS (Tera Operations Per Second / Bilióny operácií za sekundu): Najbežnejšia (aj keď z marketingového hľadiska často mimoriadne zavádzajúca) metrika vyjadrujúca surovú priepustnosť jadra. V obore snímačov Edge AI bežne meriame jednotky v GOPS (Giga Operations).
  • TOPS/Watt (Výkon na Watt): Absolútne a skutočne kritická metrika pre hardvérové inžinierstvo embedded systémov.meria priamo reálnu energetickú účinnosť odvodzovania. Iba vysoký pomer TOPS/Watt umožňuje fungovanie relatívne zložitých AI modelov napájaných len z malých mincových či gombíkových batérií.
  • Podpora kvantovania (Quantization): Moderné NPU jadrá natívne a priamo na hardvéri obsluhujú celočíselnú matematiku vo formáte INT8 (8-bit) alebo dokonca INT4 (4-bitové hodnoty). Kvantovaním natrénovanej neurónovej siete (jej presným softvérovým prepočtom z náročných 32-bitových čísel s pohyblivou rádovou čiarkou FP32 nadol na 8-bitové celé čísla) dokáže NPU obvod spracovať vyhodnotenie modelu až 4x rýchlejšie a s radikálne menšími požiadavkami na priestor v pamäti FLASH/RAM obvodu, pričom miera straty presnosti siete je vo výsledku pre koncovú aplikáciu zanedbateľná.