瑞芯RK3288最强GPU技术细节深度分析 - 图文

更新时间:2024-04-05 18:41:01 阅读量: 综合文库 文档下载

说明:文章内容仅供预览,部分内容可能不全。下载后的文档,内容与下面显示的完全一致。下载之前请确认下面内容是否您想要的,是否完整无缺。

瑞芯微RK3288最强GPU

技术细节深度分析

Yesky数码影像频道2014-04-20 09:38

分享到:我要吐槽

2014年香港电子展,瑞芯微盛大发布了堪称跑分王、游戏王、超清王的RK3288处理器。该处理器采用MALI T764(ARM产品序列为T760)GPU,为当前ARM MALI序列最高规格。在性能上极为强悍,下文对RK3288 GPU性能进行全面分析。

一、GFXBench表现神勇 中国芯首入TOP3排名

根据现场媒体实测数据显示,RK3288采用的MALI T764 GPU,在GFXBench获得TOP3性能排名,仅次于苹果A7 GPU与Adreno 300。这也是中国芯首次进入GFXBench TOP3排名,表现极为神勇。在国产芯史上最强跑分结果的背后,有RK3288 GPU全新的AFBC( ARM Frame Buffer Compression)、ASTC( Adaptive Scalable Texture Compression)、TE(Transaction Elimination)三大技术支撑与全新图像引擎之功。 现场,瑞芯微还展示了基于RK3288的超高清平板;基于RK3288,无需外挂高清屏驱动芯片,3288就可以运行4K×2K的超高清屏幕。至此,RK3288是目前市面唯一一颗支持所有分辨率屏幕的芯片。另外,瑞芯微还展示了采用RK3288处理器的盒子产品,支持H.265硬解、完美支持4K输出及HDMI2.0三大特性极具看点。

二、先进内存压缩技术 RK3288 GPU成全球首款4Kx2K 硬解H.265处理器

视频和图形是内存带宽的消耗重点。随着分辨率的不断提高(720P、1080P、2560*1920、2K、4K),内存带宽压力越来越大,但任何减少内存带宽的技术都会同时提高功耗。因此与桌面GPU动辄256bit甚至384bit的位宽、1.2-1.5GHz的高频显存相比,手持设备通常搭

配 RAM 的是低功耗、窄带宽的 LPDDR 、 LPDDR2 等特殊内存——普遍使用的是双32bit位宽、LPDDR2-800或1066左右的内存系统,总带宽普遍在10GB/s以内。没有高带宽就没有大容量纹理数据,也就不会有高画质。

在内存带宽有限的限制下,移动GPU厂商关心重点是如何在尽可能小的带宽需求下提升GPU性能及画质。那么RK3288处理器实现支持4Kx2K背后的秘密武器是什么呢?一切皆因拥有ARM最新、最强的Mali-T764 GPU!

作为ARM新一代GPU产品,Mali-T764 GPU除了拥有16个着色引擎外,另一大特色就是还引入了多项内存压缩技术,如ARM 帧缓冲压缩格式(ARM Frame Buffer Compression)、ASTC纹理压缩技术、以及Transaction Elimination智能消除技术。

1、ARM 帧缓冲压缩格式(ARM Frame Buffer Compression)。

怎么节省带宽需求?先看一下GPU的工作流程:三角形Setup→Vertex Shader计算→Rasterization(光栅化)→Pixel Shader(fragment)计算→后端处理输出,到FrameBuffer打包扔出去。以PowerVr之前的看家本领TBDR技术为例,可以在处理像素时把隐藏不显示的像素丢弃不管,后来PowerVR SGX 6又引入了PVR的帧缓存压缩技术。现在ARM也跟上了,如Mali-T764就支持ARM 开发了 ARM 帧缓冲压缩格式(ARM Frame Buffer Compression)。

ARM 帧缓冲压缩格式最大特点是引入了Transaction Elimination智能消除技术,该技术能够提供快速、实时的无损压缩与解压缩,最大限度地减少SoC 内不同 IP 块之间的数据传输量,在减少了整个系统的带宽同时将相应功耗降低至多达50% 。

正如你看到的那样,带宽有了明显下降。与此相关的功耗节约完全取决于SoC的设计和使用的内存系统,但在移动系统中,带宽消耗的功率通常可达到 150mW每GB/s,因此,这项节约是很值得的。

2、支持ASTC 纹理压缩技术

除了支持ARM 帧缓冲压缩格式外,Mali-T764第三项秘技就是ASTC 纹理压缩技术。ASTC技术是OpenGL ES 3.0引入的新纹理压缩技术。我们都知道,OpenGL、OpenGL ES和DirectX APIs均支持3D纹理,但它们的利用率并不高。原因不难解释——它们较占空间。256x256的RGB纹理较小,未压缩情况下占据192KiB空间。要在3D中获得同样的像素解决方案,要求纹素为256x256x256,其所占空间较大,为48MiB。

对于多数应用程序而言,这已经 “太大”。显然,我们不是要求压缩技术支持3D纹理,而是要让3D纹理能够被压缩。因此,之前不少压缩方案都是通过简单地压缩2D切片已可以全面支持3D。比如256x256x256,我们简单地将它作为256个独立的切片,每条切片均为256x256像素点,然后单独压缩每条切片,并将它们连成矩阵,但这样做在性能和质量两方面存在弊端。

而ASTC技术引入了一种新理念——压缩数据中一个128比特的单元块可以覆盖一个3D足迹(从3x3x3像素点到6x6x6像素点,梯度在二者之间)。这相当于将比特率从4.7调低至 0.56比特每像素。由于单元块是立方体(或接近立方体,类似于4 x 4 x 5的规格也可操作),无论从哪个方向看,它们都是相似的。通过切片方法查看,几乎完全消除了性能方面的较大差异。

更值得称道的是,ASTC 最精彩之处在于它允许压缩你能想象到的任何纹理。目前常用的格式(S3TC、PVRTC、ETC1 和 RGTC)仅提供有限数量的比特率,颜色组件数量的选择也不多。ASTC 几乎可提供所需要的任何比特率,以及喜欢的任何颜色组件数量,可以选择标准(8 位)或 HDR(浮点),所有这一切的质量只有 BPTC 等外来高端格式才能与之媲美。这意味着,开发人员将第一次能够考虑将应用程序使用的所有纹理都进行压缩。覆盖面上毫无“漏洞”;无论像素格式或质量要求为何,ASTC 都有与之匹配的格式,进一步减少了Mali GPU的内存带宽和内存占用,并同时提高了移动设备的电池续航时间,带来“永远连线、持续运作”的体验。

结合这两招秘技,ARM宣称可以节省50%的带宽, Mali-T764的能效、性能相比四核Mali-T604提升大约400%!这让32bit lpddr2带动2560*1920高分屏成为可能,特别是采用Mali-T764的RK3288结合双通道内存甚至直奔向4K最强显示规格——可以通过HDMI2.0

接口同时支持本地4K视频播放及外置4K显示器.而视频解码方面,RK3288更是提供了硬件H.265解码,在未来超高清视频播放方面再次领先其对手。 3、Transaction Elimination智能消除技术

相对于ARM 帧缓冲压缩格式,Transaction Elimination智能消除技术是一项有意思的技术,它可以智能消除渲染区块的重复渲染问题,真正实现按需渲染。借助Transaction Elimination智能消除技术,每次 GPU 解析一整个区块的颜色样本时,它会计算出一个签名,并将各个签名写入到与输出颜色缓冲区关联的列表。下一次渲染到该缓冲区时,在解析各个区块后,它将新的签名与旧签名对比。如果签名没有变化,就会跳过写出该区块,因为像素已发生变化的可能性是非常、非常小的。

举个例子,在玩《愤怒的小鸟》的过程中,当我们瞄准弹弓时,运动很少,只需要写入一些区块。当我们发射小鸟时,整个画面平移,许多区块会变化,但我们最终依然能跳过大约 50% 的区块写操作。最后,当小鸟击中时,滚动变慢并且最终停止,活动区块的数量逐渐消失。

图 说:瞄准,TE功能可以免除 96% 的区块写操作。

图 说:飞行中的小鸟。此时有许多背景运动,但TE依然能够消除近一半的区块写操作。

图注:降落。随着物理引擎的收敛,越来越多的场景变为静态,不再需要将区块写入内存。

经过以上一系列的处理,TE可以消除了大约 75% 的区块写回,可以将GPU 总带宽减少了近一半。

三、超级引擎 游戏性能比肩XBOX、PS次世代游戏主机

当然,拥有优秀的内存压缩技术后,光应用在高分辨率输出方面显然有点大材小用了,拥有Mali-T764的RK3288更大的应用舞台是游戏领域。由于移动游戏发展迅猛,开发者正将受欢迎的PC和游戏机游戏引擎移植到移动环境,移动游戏现在可以具备先进的游戏特性,例如实时物理效果以及实时纹理生成。在这种趋势下专业性图形处理器能够为未来智能终端实现更高的性能,提供更高的图像质量,让玩家也能够获得更加逼真的游戏体验。Mali-T764显然就是这未来游戏准备的新引擎。

RK3288上的Mali-T764使用ARM最新的第三代Midgard架构,采用统一渲染设计,不再区分PS、VS单元,Shader计算单元为可编程USSE2浮点单元,每个着色核心都能执行渲染任务,效率更高。更让人惊讶的是Mali -T764拥有16个着色器,每个着色器配有四个ALU簇,同时各个shader均拥有独立的线程调度,可对各自的管线分配来自各个线程的程序指令,从而使得各个管线可灵活用于执行来自各自线程的指令,拥有更高效的性能。

高性能的GPU,不仅能让RK3288整体系统提升性能与能效,并且提高运作效率,进而实现计算摄影、计算机视觉、先进成像、兴趣点提取和实景增强等功能,即便是应用采用比如它就完全支持Enlighten全局实时光技术的游戏也不在话下。Enlighten全局实时光技术是非常高端的游戏技术,以往都是运用在主机游戏之上,比如PS3,PS4,Xbox之内的游戏。

目前Unity在最新的Unity 5中集成进去Geomerics Enlighten 的全局实时光引擎,这是为游戏带来实时、交互光线追踪的第一步,通过在编辑器的场景视图中显示最终游戏中光照的精确预览,此功能几乎可即时反馈全局光照的光照贴图的更改。利用此技术,美工可继续迭代和细化关卡外观,同时在背景中更新和烘焙最终光照贴图,从而大量减少调整场景艺术效果所需的时间。

图注:现场,RK3288通过对UNITY最新一代的超强游戏引擎开发出的《Transporter》DEMO完美展示,从而体现GPU的超高性能。

“Transporter” Demo中说集成了了Enlighten光技术,现在最新的RK3288同样也能表现出以往只有主机游戏才有的光影效果,体现GPU的超高性能。考虑到Enlighten已经初步具备了生态系统,因此今年更会有运用了Enlighten引擎的手机游戏大作面世!而RK的竞争对手的光线跟踪技术,还处在用PC机demo的阶段, 被广大游戏开发者采用那更是不可预知的未来的事情了。

写在最后:

在多核心和新架构以及更高频率的支撑下,ARM处理器的性能突飞猛进,已经接近目前中低端x86处理器的水平。在多核架构成为主流的今天,多媒体应用的并行机制十分显著,例如图像处理、音频/视频转码以及文件压缩等等。这些应用可以利用对称多重处理以

及CPU+GPU结合,配备性能更强的图形处理核心无疑对用户体验提供更加立竿见影的效果。

不仅如此,在发布会现场,瑞芯微还与完美世界联合签署游戏战略合作,流畅支持所有的高清画质网游。这是国产芯片界的首次跨界联合。并且,瑞芯微还宣布正式成为GAMELOFT、EA联盟核心成员。RK3288跑分王、游戏王、超清王称号可谓实至名归。

本文来源:https://www.bwwdw.com/article/esor.html

Top