腾讯云根据GPU的应用场景,已推出多款GPU实例,如GN10X/GN10Xp(NVIDIA Tesla V100)、GN7(NVIDIA Tesla T4),提供最高125.6T Flops的单精度和62.4T Flops的双精度浮点运算能力,满足深度学习训练/推理、科学计算、图形图形处理、视频编解码的需求。
在深入了解不同应用场景下的GPU云服务器选型推荐之前,我们先来了解一下CPU和GPU、GPU和vGPU之间的差异。
CPU vs GPU
腾讯云的CPU实例如SA2、IT5等已经被广泛运用到企业官网、高I/O数据库、离散数据分析等场景,但是在需要处理海量数据的机器学习和深度学习等AI场景下,GPU相较于CPU可以提供更强的运算能力,大大降低服务器的运营成本。
CPU和GPU在设计的目标场景上有很大不同,与之对应的硬件结构上也有很大差异;GPU拥有多达数千个ALU,而一片CPU最多只有几十个,同时GPU拥有比CPU更少的逻辑控制单元以及存储单元。由此可知:
-
CPU核心少但重,目标是快速执行单一指令流,擅长处理非常复杂的控制逻辑,以优化串行程序;
-
GPU核心多但轻,目标是快速执行大量的并行指令流,擅长优化简单控制逻辑的数据并行任务,注重数据吞吐
CPU和GPU硬件结构对比
GPU vs vGPU
GPU云服务器提供了直通型GPU和虚拟化的vGPU,可以满足计算密集型场景和图形加速场景下的不同算力需求。
-
GPU直通技术不经过HostOS的物理驱动,将GPU设备直通给虚拟机,最大程度上减少设备模拟和转化带来的性能损失,适用于对运算能力有极高要求的深度学习训练、科学计算等场景。GN10X/GN10Xp、GN8、GN7等整卡实例均采用GPU直通技术;
-
vGPU是指虚拟化GPU,支持GPU资源的更细粒度划分,如1/2、1/4以及1/8 GPU。腾讯云提供的vGPU实例包含了vDWs和vCS两种类型。vDWs支持专业图形和计算场景,可开启GPU的OpenGL或DirectX图形加速能力,满足图形计算的专业需求,例如云游场景下的图形渲染。GN7vw实例均为vDWs授权;vCS面向计算场景进行优化,提供了加速计算密集型服务器工作负载的能力,适用于对GPU算力的精细化划分以及成本精细化管理场景,例如高校教学课程的深度学习场景。GN10X/GN10Xp、GN7的1/2、1/4GPU实例均为vCS授权。
GPU实例简介
腾讯云CVM针对不同应用场景,推出搭配不同GPU卡的实例类型,如下表所示,GPU实例以NVIDIA Tesla系列为主,满足不同应用场景下的算力需求。
类型
|
实例类型
|
GPU类型
|
GPU性能
|
计算型
|
GN10X/GN10Xp
|
Tesla V100
|
· 15.7TFLOPS 单精度浮点计算 · 7.8TFLOPS 双精度浮点计算 · 125TFLOPS Tensor Core 深度学习加速 · 300GB/s NVLink |
GN8
|
Tesla P40
|
· 12TFLOPS 单精度浮点计算 · 47INT8 TOPS |
|
GN7
|
Tesla T4
|
· 8.1TFLOPS 单精度浮点计算 · 130INT8 TOPS · 260INT4 TOPS |
|
GN6/GN6S
|
Tesla P4
|
· 5.5TFLOPS 单精度浮点计算 · 22INT8 TOPS |
|
GN2
|
Tesla M40
|
· 7TFLOPS 单精度浮点计算(GPU Boost 加速) · 0.2TFLOPS 双精度浮点计算 |
|
渲染型
|
GN7vw
|
Tesla T4
|
· 8.1TFLOPS 单精度浮点计算 · 130INT8 TOPS · 260INT4 TOPS |
GPU被广泛应用到图形图形处理、视频编解码、深度学习训练/推理、科学计算等场景下,可参考下表结合实际使用情况,选择适合的实例,其中 ✓ 为支持,★ 为推荐。
GPU实例应用场景深入解析
深度学习训练/科学计算
在深度学习模型训练和科学计算等场景往往伴随着海量的训练数据,处理这些训练数据需要服务器提供强大的浮点运算能力。通用CPU擅长处理像应用程序中的逻辑判断等复杂的程序任务,对需要处理海量数据的高性能并行计算场景,往往显得有些力不从心。腾讯云GN10X/GN10Xp实例提供了高达62.4 TF的双精度浮点运算能力,125.6 TF的单精度浮点运算能力和1000 TF的Tensor Core深度学习加速能力,可以满足大部分深度学习训练和科学计算需求,加速深度学习中模型的训练速度,提高模型收敛效率和模型迭代速度。对GN10Xp(8卡V100)和GN8(8卡P40)实例进行Resnet50模型训练场景测试,测试结果表明,GN10Xp实例在ImageClassification上的训练时长比GN8缩短了14.7%。
2
深度学习推理
在线推理场景下,往往对数据的实时处理能力要求极高,数据吞吐量大。得益于GPU的快速并行计算能力,NVIDIA Tesla T4的推理效率最多可达CPU的40倍,大大降低了实时处理时延,更快的完成和用户的交互。随着业务量的增大,往往需要进行大规模的GPU云服务器部署,T4卡在满足最佳推理性能情况下,耗电70瓦,仅为V100的1/4,降低了服务器的运营成本。腾讯云CVM推出搭配T4 GPU卡的GN7实例,满足不同场景下的CPU和GPU配比,提供最佳的性能体验和最具性价比的选择。
T4和P4业务数据对比
在实际业务测试中,相较于NVIDIA上一代推理卡P4,T4在业务处理量上有40%的提升,优化任务处理效率,规避时延问题;GPU云服务器的资源灵活配比,内存利用率提升了14%,充分合理的利用资源。
3
图形可视化
GPU最先被广泛应用到图形图形处理中,近年来随着渲染、协同设计等场景上云,对GPU云服务器的需求也愈发迫切。
在多人协作图形图像的处理场景下,常用的图像处理包括图像的缩放、旋转、移动等,往往是大量重复的矩阵运算,这就是非常典型的GPU应用场景。
多人协作场景架构图
渲染是用软件从模型生成图像的过程,应用在视频、模拟和电影电视制作等领域,主要分为3D游戏的实时渲染和动画电影的离线渲染。实时渲染业务,为了保证速度,在渲染画质上做了妥协,在模型的精细、光影的应用以及贴图的精细程度上都和离散渲染存在差距,所以实时渲染算法逻辑上往往比离线渲染业务更为简单。GPU 显卡的高性能计算能力可以实现图形加速及实时渲染,大大提升渲染速率,不断缩小实时渲染和离线渲染之间的画质差距。同时实时渲染业务往往伴随着大量图片、音视频流的传输,GPU的编解码引擎可以加速该过程,降低实时渲染的时延。
针对多人协作图形处理和渲染场景,腾讯云推出了渲染型的GN7vw实例,搭配NVIDIA vDWs授权,可开启GPU的OpenGL活DirectX图形加速能力,满足专业场景下的图像处理需求,同时腾讯云提供一站式服务,客户无需前往NV官网购买License以及搭建License服务器,购买GN7vw实例即可实现vGPU服务器的快速部署。
随着GPU虚拟化隔离、实时网络传输、音视频转码技术的逐步发展,使得以云计算和音视频流传输为基础的云游业务有了蓬勃发展的趋势,我司作为游戏行业的先行者,也在为云游的发展而不断努力,腾讯云PaaS云游就是其中不可或缺的一份子。
云游业务架构图
目前腾讯云Paas云游使用的云游戏解决方案是视频(或像素)流传输,游戏在云端服务器中存储、执行和呈现,并由云端服务器将游戏场景渲染为视频音频流,通过互联网流式传输到消费者的游戏终端。在这个视频流传输方案中,CPU的串行处理能力无法满足图像的实时渲染、图形的编解码要求,腾讯云的GN7vw实例,支持专业的图形优化渲染,同时GN7vw并行计算能力、编解码硬件支持,为云游戏提供了更高效、低时延的解决方案。
腾讯云的GN7vw服务器,NVIDIA Tesla T4卡搭配专业图形虚拟工作站vDWs驱动,针对不同需求的云游戏提供了多种配置实例。实例配置如下表所示:
GPU卡
|
机型
|
CPU (核)
|
内存 (GB)
|
GPU
|
显存 (GB)
|
游戏 类型
|
NVIDA Tesla T4
|
GN7vw (渲染型)
|
4
|
16
|
1/4*T4
|
4
|
小型游戏
|
8
|
32
|
1/2*T4
|
8
|
中型游戏
|
||
16
|
64
|
1*T4
|
16
|
大型游戏
|
4
视频与图形转码
用于视频转码场景的GPU,一般都集成了专用的视频编解码硬件单元,相比CPU,提供了更快的视频处理速度;码率高、并发高、低时延,满足当前网络视频流高并发的实时转码场景。以T4卡为例,其专业的硬件转码引擎,将解码能力提升至上代P4 GPU的两倍,可以解码多达39路全高清视频流,使用GPU云服务器加速视频转码将显著降低视频大小,节省网络流量,降低成本和时延。
总结
腾讯云CVM GPU服务器从上线以来,一直在不断完善我们的产品矩阵,从深度学习训练/推理场景、科学计算场景、视频编解码和图形图像处理场景出发,已经初步实现GPU云服务器应用场景的全方位覆盖,完善机型和应用场景的深入匹配,也经受住了各类业务的考验。我们仍会不断努力,准备好迎接更多的挑战!
怎么样?
GPU选型的关键点都get了吗