Tensor Cores in NVIDIA Volta

La nuova generazione del deep learning

La GPU NVIDIA® Tesla® V100 si basa su NVIDIA Volta, un'architettura per GPU rivoluzionaria. I multiprocessori di streaming risparmiano oltre il 50% dell'energia rispetto alla generazione precedente NVIDIA® PascalTM, potenziando enormemente la precisione in virgola mobile a 32-bit (FP32) e a 64-bit (FP64). Qual è il principale miglioramento? L'introduzione dei Tensor Core.

Un'innovazione dirompente nell'ambito del training e dell'inferenza

Progettati appositamente per il learning, i Tensor Core offrono prestazioni innovative, fino a 12 volete i picchi di teraflop (TFLOPS) per il training e 6 i picchi TFLOPS per l'inferenza. Questa straordinaria capacità permette a Volta di accelerare le prestazioni fino a 3 volte nel training e nell'inferenza rispetto alla precedente generazione. 

Ciascuno dei 640 Tensor Core su V100 opera su una matrice 4x4 e i percorsi di dati associati sono personalizzabili per aumentare significativamente la potenza di elaborazione in virgola mobile con elevata efficienza energetica.

Efficienza e prestazioni accelerate

Deep Learning Training in Less Than a Workday

Volta è dotato di 640 Tensor Core, ciascuno in grado di eseguire 64 operazioni FMA (fused-multiply-add) a virgola mobile per clock. Questo garantisce fino a 125 TFLOPS per le applicazioni di training e inferenza. Questo significa che gli sviluppatori possono eseguire sessioni di training con deep learning utilizzando una precisione mista di elaborazione FP16 e accumulazione FP32, ottenendo velocità 3 volte superiori rispetto alla generazione precedente e la conformità ai livelli di precisione previsti dalla rete. La velocità delle prestazioni 3 volte superiore è un'innovazione fondamentale della tecnologia Tensor Core. Ora il deep learning può essere effettuato in poche ore.

47X Higher Throughput than CPU Server on Deep Learning Inference

In termini di inferenza, Tesla V100 offre prestazioni 3 volte superiori rispetto alla precedente generazione ed è 47 volte più veloce rispetto a un server basato su CPU. Con NVIDIA TensorRT Programmable Inference Accelerator, queste accelerazioni sono dovute in gran parte ai core Tensor che accelerano il lavoro di inferenza utilizzando la precisione mista.

Un avanzamento straordinario nelle prestazioni di elaborazione

Leggi il white paper su Tensor Core e l'architettura NVIDIA Volta.