Un ottimo acceleratore di inferenza IA non deve garantire solo grandi prestazioni ma anche la versatilità per accelerare reti neurali diverse, oltre alla programmabilità per consentire agli sviluppatori di crearne di nuove. La bassa latenza a produttività elevate, massimizzando l'utilizzo, solo i requisiti di prestazioni più importanti per distribuire l'inferenza in modo affidabile. Gli NVIDIA Tensor Core offrono una gamma completa di precisioni (TF32, bfloat16, FP16, FP8 e INT8) per garantire versatilità e prestazioni senza pari.
I Tensor Core hanno permesso a NVIDIA di ottenere la certificazione MLPerf, benchmark di settore per l'inferenza.