NVIDIA Tensor Core

Accelerazione senza pari per HPC e IA

I Tensor Core consentono il calcolo con precisione mista che si adatta in modo dinamico per accelerare la produttività preservando l'accuratezza. L'ultima generazione di Tensor Core è più veloce che mai su una gamma più ampia di attività IA e HPC. Da accelerazioni 6 volte superiori nel training di rete transformer a prestazioni 3 volte superiori in tutte le applicazioni, gli NVIDIA Tensor Core offrono nuove funzionalità a tutti i carichi di lavoro.

Training con IA rivoluzionario

Training con IA rivoluzionario

I modelli IA diventano sempre più complessi nel tentativo di affrontare nuove sfide come l'IA conversazionale. Il training di modelli di elevate dimensioni con precisione FP32 può richiedere settimane o anche mesi. Gli NVIDIA Tensor Core offrono prestazioni notevolmente superiori con precisioni ridotte come la virgola mobile a 8 bit (FP8) nel Transformer Engine, Tensor Float 32 (TF32) e FP16. E con il supporto diretto nei framework nativi tramite le librerie CUDA-X, l'implementazione è automatica, il che riduce drasticamente i tempi dal training alla convergenza, mantenendo l'accuratezza.

I Tensor Core hanno permesso a NVIDIA di ottenere la certificazione MLPerf, benchmark di settore per il training.

Inferenza con AI all'avanguardia

Inferenza con AI all'avanguardia

Un ottimo acceleratore di inferenza IA non deve garantire solo grandi prestazioni ma anche la versatilità per accelerare reti neurali diverse, oltre alla programmabilità per consentire agli sviluppatori di crearne di nuove. La bassa latenza a produttività elevate, massimizzando l'utilizzo, solo i requisiti di prestazioni più importanti per distribuire l'inferenza in modo affidabile. Gli NVIDIA Tensor Core offrono una gamma completa di precisioni (TF32, bfloat16, FP16, FP8 e INT8) per garantire versatilità e prestazioni senza pari. 

I Tensor Core hanno permesso a NVIDIA di ottenere la certificazione MLPerf, benchmark di settore per l'inferenza.

HPC avanzato

HPC avanzato

L'HPC è un pilastro fondamentale della scienza moderna. Per sfruttare le scoperte di nuova generazione, gli scienziati usano simulazioni per comprendere al meglio il comportamento delle molecole e trovare nuovi farmaci, analizzano dati fisici per individuare potenziali nuove fondi di energia e dati atmosferici per prevedere e prepararsi a eventi metereologici estremi. Gli NVIDIA Tensor Core offrono una vasta gamma di precisioni, inclusa la FP64, per accelerare il calcolo scientifico con la massima accuratezza necessaria.

L'SDK HPC fornisce compilatori, librerie e strumenti essenziali per lo sviluppo di applicazioni HPC per la piattaforma NVIDIA.

NVIDIA H100 Tensor Core

Quarta generazione

Dall'introduzione della tecnologia Tensor Core, le GPU NVIDIA hanno aumentato le prestazioni di picco di 60 volte, favorendo la democratizzazione del computing per IA e HPC. L'architettura NVIDIA Hopper™ potenzia i Tensor Core di quarta generazione con Transformer Engine utilizzando una nuova precisione a virgola mobile a 8 bit (FP8) per fornire prestazioni 6 volte superiori rispetto alla FP16 per il training di modelli con trilioni di parametri. Insieme a prestazioni 3 volte superiori con precisioni TF32, FP64, FP16 e INT8, i Tensor Core Hopper offrono le massime accelerazioni a tutti i carichi di lavoro.

  • FP8
  • TF32
  • FP64
  • FP16
  • INT8
Tensor Core FP8

FP8

Il training per le reti IA Transformer si sta dilatando di mesi a causa dell'enorme intensità di calcolo matematica. La nuova precisione FP8 di Hopper offre prestazioni fino a 6 volte superiori rispetto alla FP16 su Ampere. La FP8 viene utilizzata nel Transformer Engine, una tecnologia Tensor Core di Hopper progettata appositamente per accelerare il training di modelli Transformer. I Tensor Core Hopper hanno la capacità di applicare formati misti di precisione FP8 e FP16 per accelerare significativamente i calcoli IA per il training dei trasformatori, mantenendo comunque l'accuratezza. L'FP8 consente inoltre accelerazioni massicce nell'inferenza di modelli linguistici di grandi dimensioni con prestazioni fino a 30 volte superiori rispetto ad Ampere.

Tensor Float 32

TF32

Con l'espansione continua ed esponenziale delle reti e dei set di dati IA, le esigenze di elaborazione crescono di pari passo. Il calcolo con precisioni inferiori ha accelerato notevolmente le prestazioni, ma storicamente questo ha richiesto alcuni interventi sul codice. H100 supporta la precisione TF32 che funziona esattamente come la FP32, con velocità in termini di prestazioni IA fino a 3 volte superiori rispetto ai Tensor Core NVIDIA Ampere™.

Tensor Core FP64

FP64

H100 continua a fornire la potenza dei Tensor Core all'HPC, con prestazioni più elevate che mai. Le prestazioni in FP64 di H100 sono 3 volte più veloci rispetto alla generazione precedente, accelerando ulteriormente un'intera gamma di applicazioni HPC che necessitano di calcoli a doppia precisione.

Tensor Core FP16

FP16

I Tensor Core H100 potenziano la FP16 per il deep learning, garantendo un'accelerazione in termini di IA 3 volte superiore rispetto ai Tensor Core dell'architettura NVIDIA Ampere. Questo accelera significativamente la produttività e riduce i tempi di convergenza.

INT8

INT8

Introdotti per la prima volta con NVIDIA Turing™, INT8 i Tensor Core accelerano significativamente la produttività dell'inferenza potenziando significativamente l'efficienza. La INT8 nell'architettura NVIDIA Hopper offre una produttività 3 volte superiore rispetto alla precedente generazione di Tensor Core nelle distribuzioni di produzione. Questa versatilità consente prestazioni leader di settore per carichi di lavoro voluminosi, simultanei e in tempo reale nei data centercentrali e nelle località perimetrali

Tensor Core con architettura NVIDIA Ampere

Tensor Core con architettura NVIDIA Ampere

Terza generazione

I Tensor Core dell'architettura NVIDIA Ampere si basano su innovazioni precedenti e aggiungono nuove precisioni, TF32 e FP64, per accelerare e semplificare l'adozione dell'IA ed espandere la potenza dei Tensor Core all'HPC. Inoltre, grazie al supporto per bfloat16, INT8 e INT4, questi Tensor Core di terza generazione creano un acceleratore incredibilmente versatile per il training e l'inferenza su IA.

Tensor core NVIDIA Turing

Seconda generazione

La tecnologia Tensor Core di NVIDIA Turing include il calcolo in multi precisione per inferenza IA efficiente. I Tensor Core Turing offrono una gamma di precisioni per il training e l'inferenza su deep learning, da FP32 a FP16 fino a INT8 e INT4, per garantire passi da gigante in termini di prestazioni rispetto alle GPU NVIDIA Pascal.

Tensor Core Turing
Tensor Core Volta

Tensor Core NVIDIA Volta

Prima generazione

Progettati appositamente per il deep learning, i Tensor Core di prima generazione in NVIDIA Volta offrono prestazioni all'avanguardia con moltiplicazioni di matrici in precisione mista in FP16 e FP32, fino a 12 volte i picchi di teraFLOPS (TFLOPS) per il training e 6 volte i picchi TFLOPS per l'inferenza rispetto alla soluzione di precedente generazione NVIDIA Pascal. Questa straordinaria capacità permette a Volta di accelerare le prestazioni fino a 3 volte nel training e nell'inferenza rispetto alla tecnologia Pascal.

La piattaforma end-to-end per data center IA e HPC più potente

I Tensor Core sono fondamenti essenziali della soluzione completa per data center NVIDIA che integra hardware, rete, software, librerie, modelli e applicazioni IA ottimizzati dal catalogo NVIDIA NGC. Come piattaforma IA e HPC completa più potente, consente ai ricercatori di fornire risultati in tempo reale e distribuire soluzioni nell'ambiente di produzione in modo scalabile.

Hopper Ampere Turing Volta
Precisioni supportate con Tensor Core FP64, TF32, bfloat16, FP16, FP8, INT8 FP64, TF32, bfloat16, FP16, INT8, INT4, INT1 FP16, INT8, INT4, INT1 FP16
Precisioni supportate con CUDA® Core FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, bfloat16, INT8 FP64, FP32, FP16, INT8 FP64, FP32, FP16, INT8

 Specifiche preliminari, soggette a modifica

Approfondisci l'architettura NVIDIA Hopper