Компания Nvidia представила вниманию общественности новый графический процессор Tesla V100, первый процессор, построенный на базе новой архитектуры под названием Volta. Как и его предшественник, процессор Pascal P100, процессор V100 предназначен для реализации высокоэффективных вычислительных систем, а не для общего использования в качестве графического ускорителя. Но существует вероятность того, что процессоры на базе архитектуры Volta все же доберутся до видеокарт потребительского класса компании Nvidia.
Процессоры Volta, которые появились на "дорожной карте" компании Nvidia в 2013 году, имеют архитектуру, кардинально отличающуюся от архитектуры Pascal. Чип процессор V100 изготовлен при помощи 12-нм Fin-FET технологии компании TSMC, на кристалле этого чипа, площадью 815 квадратных миллиметров, расположено 21.1 миллиарда транзисторов, что делает его одним из самых больших чипов, изготовленных когда-либо людьми. Для сравнения, на чипе процессоров Pascal, площадью 610 квадратных миллиметров, расположено 15.3 миллиарда транзисторов.
С логической точки зрения на чипе процессора V100 организовано 84 вычислительных модуля, в каждом из которых присутствует 64 ядра CUDA, общее количество которых составляет 5 376. Следует отметить, что для одновременного использования доступно лишь 80 модулей, таким образом, число работающих ядер CUDA составляет 5 120.
Помимо ядер CUDA, в состав процессора V100 входит 672 так называемых тензорных вычислительных ядер, которые предназначены для реализации технологий машинного изучения и самообучения. Наличие этих ядер увеличивает производительность процессора V100 по сравнению с процессором Pascal P100 в 4 раза. И это делает процессор V100 более производительным, нежели специализированный процессор Google Tensor Processing Unit (TPU).
Большое количество вычислительных ядер CUDA дают процессору V100 производительность 15 терафлопс при операциях с 32-разрядными числами с плавающей запятой. В случае использования 16-битной математики производительность повышается до 30 терафлопс, а в случае 64-битной - понижается до 7,5 терафлопс. Тактовая частота процессора V100 составляет 1.455 ГГц, а его тепловыделение - 300 Вт. Процессор поддерживает работу с 16 Гб памяти HBM2, работающей на частоте 1.75 ГГц, а пропускная способность 4096-разрядной шины данных составляет 900 ГБ/сек.
Взаимодействие между отдельными вычислительными ядрами организовано при помощи фирменной технологии NVLink 2, которая обеспечивает пропускную способность в 25 ГБ/сек. Для сравнения, технология NVLink предыдущего поколения обеспечивает пропускную способность всего в 6 ГБ/сек.
Сейчас процессоры V100 будут поставляться лишь в составе специализированных серверов DGX-1, стоимость которого составляет 150 тысяч долларов. Но уже ведется разработка платы с процессором V100, которая будет предназначена для установки в слот шины PCIe. Такая карта будет стоить более 10 тысяч долларов, и, вероятнее всего процессор на ней будет работать на пониженной тактовой частоте, а некоторое количество ядер этого процессора будут попросту отключены для минимизации количества используемой энергии и выделяемого процессором тепла.
В числе первых потребителей процессоров V100 числятся такие компании, как Amazon, Baidu, Facebook, Google, Microsoft и Tencent,, которые ведут многочисленные исследования и разработки собственных систем искусственного интеллекта. И, со слов президента компании NVIDIA Хуан Жэньсюня (Jensen Huang), появление на рынке этого процессора может произвести в буквальном смысле революцию в области искусственного интеллекта.