曾经与Intel“摩尔定律”齐名的NVIDIA“黄氏定律”称“在图形处理器领域,每过半年GPU的性能提高一 倍”!但纵观2011年,不管是NVIDIA还是AMD,桌面显卡发展都陷入了一种形式化的怪圈,新品看似不断实则“不新”、定位看似精准实则混乱,架构 工艺鲜有创新,性能体验踯躅不前。GTX500和HD6000均乏善可陈,反而让Intel集显在转码领域抢到一席之地。2012年伊始,AMD一举推出 南方群岛的旗舰产品,无论架构设计还是性能表现都非常强劲,AFan迎来了有一个春天!
在全球所有IT媒体和显卡用户的目光注视下,AMD再次问鼎消费级显卡的王者宝座,作为AMD全球合作伙伴之一的镭风显卡,第一时间在国内发布了HD7970龙蜥版3072M!
古人云鱼与熊掌不可兼得,HD7970的确优秀,但在双芯的HD6990和GTX590面前还是逊色不少,双芯显卡虽然强悍,但发热问题一直困扰着它,不管是频率还是寿命都难以完全保障,有没有两者兼得的方法呢?
HD7970双卡交火测试,希望能给渴望超越极限的朋友一些参考。
核心架构对显卡性能至关重要,可能有些读者对HD7970的核心还不熟悉,这里我们简单介绍一下。
我们知道AMD历代GPU的瓶颈除了曲面细分以外,其实最重要的是5D/4D VLIW架构的效率问题。HD7950和HD7970核心代号Tahiti,采用了全新的GCN架构,流处理器结构全部重新设计而来。
Tahiti彻底抛弃VLIW架构
通过Tahiti的整体架构图我们看到,传统的SIMD流处理器阵列消失了,取而代之的是GCN阵列,Tahiti总计拥有2048个流处理器,这样每个GCN阵列里面拥有64个流处理器。现在来看看GCN阵列的微观结构。
GCN与GF100的SM何其相似
GCN阵列里有4组SIMD单元,每组SIMD单元里面包括16个流处理器、或者说是标量运算器。GCN架构已经完全抛弃了此前5D/4D流处理器 VLIW超长指令架构的限制,不存在5D/4D指令打包-派发-解包的问题,所有流处理器以16个为一组SIMD阵列完成指令调度。简单来说,以往是指令 集并行,而现在是线程级并行。
可以这么理解,一个GCN阵列与GF100当中的一组SM相当,GF100的一组SM当中有4组共计32个流处理器,而Tahiti的一组GCN当中有4组共计64个流处理器。
缓存部分
每个SIMD-16单元都拥有64KB向量寄存器
每组GCN阵列拥有64KB的本地数据共享缓存,还有16KB的一级缓存
每组GCN阵列有一个标量运算单元,用于执行整数指令、媒体指令和浮点原子操作,这个标量运算单元拥有自己的4KB寄存器
而GF100的缓存设计得更加灵活,每组SM里面拥有总计64KB的共享缓存+一级缓存,这64KB缓存可以根据实际运算量来动态调整,如果把16KB分配给一级缓存的话,那剩下的48KB就是共享缓存,反之亦然。
一般来说,进行图形渲染时需要共享缓存比较多,而并行计算时则会用到更多的一级缓存。GF100这种灵活的缓存分配机制更适合做并行计算,而GCN架构更大的共享缓存会有更好的图形渲染性能,并行计算则会稍逊一筹。
更多的线程调度
从缓存部分的设计来看,虽然GCN拥有更大的缓存容量,但在并行计算领域经营多年的NVIDIA显然要棋高一手。
从线程级别来看,GCN与SM是不可分割的最小单元,GCN一次可以执行64个线程,而SM是48个(其实就是流处理器的数量)。
从多线程执行上来看,GCN可以同时执行4个硬件线程,而SM是双线程调度器的设计(参见架构图)。
所以GCN架构的多线程性能更加优秀。
Eyefinity历史回顾:
2009年9月,Eyefinity惊艳登场,震惊业内。
2010年2月:催化剂10.2加入了交火系统对Eyefinity的支持。
2010年3月:催化剂10.3支持边框补偿、显示器单独色彩调整、多屏分组、改进多屏配置切换。
2010年4月:六屏版Radeon HD 5870 Eyefinity 6发布。
2010年7月:催化剂10.7,交火系统支持垂直模式的Eyefinity,同时增强HydraVision。
2011年4月:催化剂11.4,配置界面改版。
2011年5月:催化剂11.5,HydraVision继续增强。
很显然,Eyefinity的进步是与催化剂驱动息息相关的,未来也是。
Eyefinity 2.0新特性:催化剂11.10就已经支持的有新的多屏布局配置、弹性的边框补偿、16K×16K超高清分辨率。
催化剂11.12和明年催化剂12.1/12.2将会陆续支持的则有:Eyefinity+HD3D多屏立体技术、自定义分辨率(等待太久了!)、预设管理改进、桌面和任务栏重新定位。
最后一项,之前三屏系统上桌面图标会停留在第一屏,任务栏则横跨三个屏幕,看起来很费劲,今后则会全部集中在中央屏幕上,就像单屏那样。
必须承认,NVIDIA是一家很有远见的公司,一年多前就研发成功的3D Vision立体显示技术,现在已经成为整个IT业界的发展趋势。但AMD的3D立体显示技术从HD6000开始也获得了长足的进步,而在HD7000上已经越来越成熟。
首先在硬件方面,只要能够支持120Hz刷新率的输出,就可以在PC上实现3D显示技术。而想要在平板电视和投影仪上实现3D输出、120Hz刷新率、 1080p全高清的3D立体游戏,左右眼各有60Hz,都能达到60FPS的流畅帧率,就需要高带宽的HDMI 1.4a标准的支持,上一代显卡中HD6870/6850率先做到了,而HD7000更是不在话下。
DisplayPort 1.2 HBR2、HDMI 1.4a都有超高带宽,单个接口即可满足4K×4K分辨率输出,显示设备方面的支持不是问题,市面上主流的3D电视、投影仪,还有120Hz LCD或者双面板LCD都能支持ATI显卡,尤其是三星和LG都有多款型号早已上市。
支持AMD HD3D立体技术的游戏正在越来越多,现已超过600款,而且可以选择第三方的iZ3D、DDD或者原生的HD3D等不同方案,其中原生的有:《尘埃3》、《战地3》、《杀出重围3:人类革命》、《两个世界2》。
目前AMD的3D显示技术,无论效果、兼容性还是软件支持度方面,都丝毫不差于3D Vision。无论是对于3D游戏的立体化,还是2D视频的3D化,都得到了主流媒体播放器的支持,而且AMD的新一代UVD3引擎还能支持3D蓝光硬解 码,可以说已经相当成熟了。
CUDA是NVIDIA显卡的一大卖点,它能够将GPU庞大的运算能力释放出来,对非3D游戏应用软件进行加速,实现比纯CPU运算更快的效能。CUDA目前虽然有很多种类的软件,但最主要的应用还是集中在视频编辑和转码方面。
Radeon HD 7900系列上的APP加速技术包括三个方面:独立的硬件高清视频加速引擎、增强的计算硬件和软件、基于AMD APP SDK开发包的应用生态系统。
AMD此番带来了新的高清编码技术“视频编码引擎”(VCE),其核心功能是一个多流硬件H.264高清编码器,编码速度甚至超过1080p@60FPS的播放速度,而且支持完全固定、混合计算两种编码模式。
质量方面支持4:2:0色彩取样,针对游戏和视频场景变化做出优化,并且可以自行控制压缩质量。此外还支持音频视频复合,显存输入用于转码、视频会议,GPU显示引擎输入用于无线显示。
TotalMedia Theatre 5.2(简称TMT 5.2),特别针对AMD技术优化,支持MVC编码硬件加速(蓝光3D节目)、MPEG-4 ASP UVD硬件加速解码、基于AMD APP SDK重新编写的OpenCL SimHD高清差值插件。
TMT 5.2还进行了新概念的重新设计,包括Alpha混合用户界面、本地与在线媒体管理、电影元数据搜索、DVD电影和视频片段智能菜单、2D-3D实时转换插件Sim3D等等。
WinZip 16.5,通过Corel、AMD的合作,针对A卡优化,现在可以利用OpenCL进行Deflate压缩、Inflate解压、AES加密的加速,并且 能够同时利用处理器、集成/独立显卡的资源。官方宣称,APU使用集显或独显的测试证明,WinZip 16.5 AES加密的速度提升了两三倍。
AMD APP生态系统:浏览器与插件、消费级视频编辑、办公与地图、流行媒体播放器。
还有新的媒体处理指令SAD(绝对差值和),这是多项关键视频与图像处理算法的关键操作,包括动态监测、姿态识别、食品与图像搜索、深度提取、计算机视觉等等。
Radeon HD 7900系列支持4×1 SAD、4×4 QSAD,每个时钟周期可处理最多64个像素,其中Radeon HD 7970每秒钟能处理18多万亿个像素。此外还有MQSAD,可以忽略背景像素、加速移动物体的隔离。
Steady Video技术也将进化为2.0版本,不过这里AMD只是介绍了基本原理,没有公开新特性,据说支持QSAD硬件加速、隔行模式视频、左右对比模式。
一如其在DX10.1上的率先支持一样,HD 7970的发布也让AMD再一次在DX规格支持上获得领先。DX11.1,相比目前广泛应用的DX11规范,它的升级能带来什么样的技术改变,需要什么样的软件平台,什么时候才有支持DX11.1的游戏或者应用呢?
DX11.1升级了什么?
从小数点后的步进来看,DX11.1只是一次版本上的小步快跑而非大步飞跃,所以不会有什么激动人心的功能变化,但是这不代表DX11.1没有亮点,相反DX11.1的看点还是挺多的。
1.加入3D立体支持
DX11发布后的这两年,DX图形技术没啥变化,但是伴随3D电影兴起的3D游戏也火了起来,体验过3D游戏之后大多数人都会觉得很震撼(也有 人觉得很晕),栩栩如生的感觉不再是“科幻”。DX11.1很重要的一点改进就是增加了D3D 3D API,可以让开发者通过D3D实现3D渲染。
之所以这么说是因为目前实现3D立体显示的技术要么是部分绕过D3D API而使用四倍缓冲器(Quad Buffer)实现3D游戏或应用,要么就是利用驱动/中间件实现的。在DX11.1中,3D渲染可以通过新增的D3D API实现,而且微软的D3D 3D API并非排他性的,依然支持其他驱动/中间件方案。换句话就是DX11.1之后,开发者多了一个实现3D的选择。
2.支持TBDR渲染
TBDR(Tile Based Deferred Render,延迟渲染贴图)也是DX11.1中新增的一个操作指令。它原本是Power VR公司使用的3D渲染技术,主要用在智能手机以及平板、游戏机等设备上。与传统z缓冲的渲染过程相比,TBDR不需要渲染不可见像素,这样极大地减少了 数量运算量,非常适合移动设备使用。
这项技术对桌面图形计算来说并没有太大意义,只是DX11.1并不只会用在桌面显卡上,还承载着微软扩张移动领域疆土的希望,TBDR依然是DX11.1中的重要功能,低功耗设备的福音。
3.TIR目标独立光栅化
TIR(Target Independent Rasterization,目标独立光栅化)的功能要求有所不同,因为前面的两项技术只需升级DX11.1运行时程序即可,而TIR却需要更改硬件设计,因此只有新一代显卡才能支持,无法在原有显卡上直接升级。
Rasterization光栅化是图像处理的后期过程,DX11.1支持目标独立光栅化,可以将原本CPU负责的工作完全转移到GPU上,进而提高D2D的抗锯齿性能。
4.支持双精度浮点运算
双精度浮点运算(Double-precision shader functionality)或者叫FP64不仅在GPU计算上意义非凡,在图形渲染中也大有用武之地。虽然DX11中其实已经包含了FP64双精度支持,但是功能有限,DX11.1中才真正实用化。
5.图形与视频之间的操作性更灵活
DX11.1强化了图形、视频等各种资源之间的操作灵活性,比如计算渲染器(Compute Shader)可以通过Media Foundation处理视频(video),并将以前的D3DDX9、D3DX10视频处理全部统一到D3DX11中去,可以简化编程,提高效率。
以上列举的只是DX11.1规范功能升级的一部分,在微软的MSDN页面上有详细的DX11.1功能介绍,不过里面的内容主要针对开发者/程序员,普通读者读起来肯定头大,我们也不需要搞这么复杂。
简单来说,DX11.1相对DX11只是一次优化升级,但是从DX10到DX10.1性能有提升的经验来看,DX11.1可能也有小小的惊喜,即便画质上没有提高,性能也会因效率的提高而受益多多。
DX11.1什么时候发布,支持平台如何?
微软之前称DX11.1将伴随Win8一起发布,不过Win8开发者预览版上还是DX11,至少也要等到Win8 beta之后了,时间上差不多是明年2月份,最惨的就是要等待正式版发布了,这个就没准了。由于软硬件平台都没准备好,所以目前还没有一个基于 DX11.1的游戏或者demo,不知道一向敢为人先的Unigine公司什么时候放出第一个DX11.1 demo。
综上来看,DX11.1只是显卡架构升级中的小甜点,不能当成大餐,不过甜点也有自己独特的味道,就看厂商如何应用了。AMD先发制人,又一次用行动证实了自己在支持DX11规范上的领先。
介绍完GCN核心架构,下面我们就来看看这款HD7970的做工用料如何……
核心方面,镭风HD7970龙蜥版3072M基于全新28nm工艺制造的Tahiti XT 显示核心,拥有2048个流处理器、32个光栅单元和128个纹理单元,支持DirectX 11.1 API,Eyefinity 2.0、AMD App Acceleration等全新技术。
供电方面,镭风HD7970龙蜥版3072M采用5+1相数字供电设计,全固态电容的用料,外接供电接口采用6pin+8pin设计,并且支持全新的ZeroCore Power(核心零功耗技术),使得理论待机功耗仅为3W。
显存方面,镭风HD7970龙蜥版3072M采用12颗显存芯片组成了384bit显存规格,显存为GDDR5。默认核心显存频率为925MHz/5500MHz。
在散热方面,镭风HD7970龙蜥版3072M采用的是高压涡轮风扇+真空腔流体热板的设计全公版的外形配合7MM的涡轮风扇让外观显得非常拉风。
接口方面,镭风HD7970龙蜥版3072M拥有1×DVI-I,1×HDMI,2×mini Display Port。其中,mini Display Port接口是新一代影像显示介面技术规格之一,高达10.8 Gbit/s 的频宽,并支持HD3D多屏3D技术,7.1 高比特率音频格式和三维立体技术。
此次测试平台选择了Intel最高端的六核心处理器,搭配最新的X79芯片组,尽量发挥双HD7970的最大性能。
测试平台配置:
此次测试的显卡定位顶级玩家,所以测试时所有游戏中开启2560X1600分辨率+全部特效,包括4X抗锯齿(AA)和16X各向异性过滤(AF)。虽然很多游戏提供了更高精度的AA,但由于实用价值不高,且没有可对比性,所以不做测试。
这款来自技嘉的X79采用E-ATX大板型,尺寸达到惊人的30.5 x 26.4厘米,可搭配采用LGA2011接口的Intel SNB-E处理器使用,支持四通道内存技术,板载八根内存插槽,同时支持3路多卡并联技术,PCIE 3.0 X16规格显卡插槽,3D BIOS技术和3D Power技术。双BIOS设计又为误操作提供了安全保障,让主板随时原地满血复活。
输入输出方面提供两个SATA 6Gbps接口和四个SATA 3Gbps接口,另由Marvell 88SE9172芯片提供四个SATA 6Gbps接口和两个eSATA 6Gbps接口,可以满足大多数人的硬件接驳需要。
镭风HD7970龙蜥版3072M双卡性能测试和全文总结
从上面的做工拆解我们看到了这款镭风HD7970龙蜥版3072M不输于公版的品质,下面我们看看它的单、双卡游戏性能。
既然是卡皇CF,那小分辨率低画质就完全没有测试的必要了,所以我们仅测试了2560分辨率下的表现。默认频率和公版完全一样,所以没有必要和公版对比性 能。从上表中的测试数据我们发现参加测试的游戏中,要求BT的地铁2033单卡依然难以流畅运行,而选择双卡交火这样的霸气配置,终于突破了30帧大关, 可以说没有什么游戏能难得住镭风HD7970龙蜥版3072MX2这样的无敌组合。
总结:
HD7970作为AMD最新高端显卡,完美支持DX11.1,应用丰富,性能强劲。通过本次的测试,我们发现该卡从做工用料扎实,在温度、噪音方面都表现不错。
曾几何时,双卡让骨灰级玩家又爱又恨,爱的是它爆表的性能,恨的是各种驱动不完善,交火效率低下,功耗发热失控。而HD7970的发布无疑让笼罩在CF上 空的阴霾慢慢消散,凭借超低的待机功耗,超高的能效比和最新的应用技术,28nm的HD7970无疑是目前市场上组建顶级多卡平台的不二之 选,HD6990之类的双芯显卡显然无法与之相提并论,当然一切的前提是你有足够的零花钱。