GeForce RTX 40系GPU UL Procyon AI图像生成基准测试
看完了NVIDIA展示的内容我们也想知道当前各款RTX 40系显卡在Stable Diffusion里的性能表现,回来后就跑了RTX 40系的UL Procyon AI图像生成基准测试,它使用Stable Diffusion 1.5和Stable Diffusion XL,使用一致和准确的工作负载来考验每张显卡在使用Stable Diffusion制图时的性能。
软件支持NVIDIA TensorRT、Intel OpenVINO和ONNX(含DirectML)这三个AI推理引擎,当中NVIDIA显卡可支持TensorRT和ONNX,AMD显卡支持ONNX,Intel显卡只支持OpenVINO。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=0e54b5fcb136afc30e0c3f6d8319eb85/6c3f62d0f703918fadf7c5f6173d269759eec484.jpg?tbpicau=2024-07-02-05_9d7c93329ee0570ae2a9d40934f2a48b)
该测试对显卡的显存是有需求的,Stable Diffusion 1.5测试需要独显至少要有8GB显存,而核显系统则需要32GB内存,Stable Diffusion XL测试使用TensorRT至少需要10GB显存,使用OpenVINO和ONNX则至少要16GB显存。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=558f4f2a89fc1e17fdbf8c397a90f67c/327555fbb2fb43167b04824666a4462309f7d38f.jpg?tbpicau=2024-07-02-05_a2b98fab82c247f13fd5c88bd066c4e4)
AI图像生成测试会批量生成16张100迭代步数的图片,当中Stable Diffusion 1.5测试生成的图片是512*512的,批量大小是4,而Stable Diffusion XL测试测试生成的图片则是1024*1024,批量大小是1,测完成后你可以看到这16张生成的图片,还可以点击放大。
接下来我们就用全系列NVIDIA RTX 40 GPU来跑这个AI图像生成测试,测试完成后是会给出得分、总体消耗时间以及图片的平均生成速度,根据我们观察得分和总体消耗时间是呈反比的。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=6dc5e37fcdd4b31cf03c94b3b7d6276f/b1116b63f6246b602b1b4a48adf81a4c510fa289.jpg?tbpicau=2024-07-02-05_c6ab79ef9625e02debcbaafdf5e7f08d)
![](http://tiebapic.baidu.com/forum/w%3D580/sign=fc9487e168738bd4c421b239918b876c/fd07be096b63f6244d40c13fc144ebf81a4ca381.jpg?tbpicau=2024-07-02-05_8ca1de263dd95af25aba415f2af1f4b8)
先来看Stable Diffusion 1.5测试的测试结果,使用的推理引擎自然是TensorRT,得分最高的自然是性能最强的RTX 4090,为4693,而RTX 4090 D比它低5%左右,下面的卡性能落差还蛮大的,最低的RTX 4060只有1130分。
如果对得分没概念的话请看图片生成时间,RTX 4090生成一张图片只需要1.331秒,而RTX 4090/4080系列GPU生成图片时间都在2秒内,整个RTX 4070系列GPU的单张图片生成时间在2.1~3.1秒之间,到了RTX 4060 Ti生成一张图片就要4.3秒以上了,而RTX 4060更是需要5.5秒,用时是RTX 4090的四倍多。
![](http://tiebapic.baidu.com/forum/w%3D580/sign=135a17b80ced2e73fce98624b701a16d/055ef21fbe096b63d304a66c4a338744ebf8ac81.jpg?tbpicau=2024-07-02-05_399616eea77ffb2caddbc4a86fdf90f7)
![](http://tiebapic.baidu.com/forum/w%3D580/sign=fc9c87e168738bd4c421b239918b876c/fd07be096b63f6244d48c13fc144ebf81a4ca389.jpg?tbpicau=2024-07-02-05_6bffe1d0260309ab56b6eae8acd99e74)
接下来是Stable Diffusion XL的测试,这测试至少得有10GB以上的显存,所以只能从RTX 4060 Ti 16GB开始跑,得分和1.5的相比大部分都要低一些,我们直接看图片生成时间好了,图片分辨率上去后对显卡的压力大了许多,生成时间也长了许多,RTX 4090的图片生成速度是7.987秒,到了RTX 4080 SUPER就已经突破10秒一张了,RTX 4070单张耗时超过20秒,用时最长的RTX 4060 Ti达到了27.972秒。
为了让大家更好的了解这些测试结果,我们还加入了AMD RX 7900 XTX的成绩,由于它只能使用ONNX推理引擎,所以性能表现比RTX 4070还要低一点,可见两边的性能有巨大的差距。在生成式AI这方面,NVIDIA GeForce RTX 40系GPU在TensorRT的加速下性能优势还是很大的,是目前生成式AI最佳的选择,再加上NVIDIA在AI软硬件生态有相当完善的布局,所以现在数字艺术家和行业用户会选择RTX AI PC,毕竟谁不喜欢开箱即用的强劲算力呢?