欢迎光临
我们一直在努力

瑞芯微RK3288 GPU Mali-T764数据解读

还在做平板“核”数的文章?事实上玩家已经审美疲劳。其实除了CPU,GPU是决定产品性能的关键因素,功耗、性能决定了平板产品的整体体验价值。瑞芯微最新的RK3288处理器,除升级了全新性能、功耗更低的ARM内核外,在GPU配备方面也采用了极为强大的Mali-T764,号称性能比Mali 400MP4提升500%。GPU的型号、参数背后代表着什么?对用户有什么意义?

谈到GPU性能强不强,目前大家首先想到的是芯片GPU可以跑出多FLOPS值。什么是FLOPS呢?FLOPS是“Floating-point operations per second”的缩写,意为每秒浮点运算次数。对于浮点数做一次加法或者乘法,都算是一次操作,记作1 FLOPS。浮点数是有一定的精度的,比如16bit的浮点数,精度就是FP16,而再高一点的FP32就是32bit的浮点数。只要将每个周期的 FLOPS 数乘以每个核心的运算流水线数,再乘以核心数,然后乘以频率,就会得出 FLOPS 数,这个数字很大,所以通常以“GFLOPS”(千兆个 flops)标称。目前绝大部分游戏的Pixel Shader计算都采用中等(FP16)的精度, Vertex Shader计算则一般是FP32的精度。至于能跑多少GFLOPS,这很大程度由GPU的Shader着色器架构来决定了。而Mali-T764性能暴涨的秘密就是采用了ARM基于统一渲染设计的第三代MIDgard架构。

目前主流的Mali-400并非统一渲染架构,而是分离式渲染架构,顶点和像素处理分开。这种分离式渲染方式可大大简化内核架构,但不同的应用程序和游戏对像素渲染和顶点渲染的需求不一样,极容量导致GPU的运算资源得不到充分利用。相对来说,Mali-T764由于采用基于统一渲染设计的第三代MIDgard架构,Shader着色器利用率更加高效,可以让着色器根据渲染需要灵活分配Shader计算能力从而避免算力被浪费。

在Mali-T764统一渲染架构中,Shader计算单元为可编程USSE2浮点单元。采用Vec4+scalar的架构,单周期支持4个FP32操作加一个scalar操作,流处理器的工作效率大幅提升。同时为了提升渲染效能,T764在内部架构上进行了重新设计,特别是大幅度改变了着色器核心的配置方式。如Mali-T764的着色器数量就多达16个,以每四个一组进行管理,这样通过单一的调度机制,每个核心群都会分到相同的处理任务。每一个像素着色器含有4个ALU,每个ALU由个128bit wide的Vector Unit加上一个32bit的Scalar单元组成。由于目前绝大部分游戏的Pixel Shader计算都采用FP16的精度渲染的Pixel Shader是FP16精度,因此T764每个着色器中VUALU处理能力为8个FLOPS,每周期就是8*4+2=34个FLOPS,结合16个统一渲染着色器的配置,最终使得T764拥有怪兽般的性能。

以瑞芯微RK3288处理器为例,Mali T764在工作频率为600MHz时,峰值运算速度高达326GLOPS(34个*600MHz*16个着色器=326 GLOPS)及拥有每秒9.6GPIX的像素填充率,性能比目前市场主流的Mali-400MP4提升到500%,堪称逆天!由于性能的暴增,从Mali-T764抗锯齿也支持4x/16x FSAA(全屏抗锯齿),即便在16xFSAA(16倍全屏抗锯齿)时也不会出现明显的性能损失,这意味着用Mali-T764玩Android平台的大型3D游戏可以让画面变得更平滑。

瑞芯微已R3288平板解决方案的发布,势必会给平板市场刮来一阵春风,相信自此之后,T764都将成为新一代平板配置的显卡新标杆。在CES2104上,瑞芯微已经正式发布R3288,以大陆及台湾OEM厂商的速度,普通消费者在四月份左右就可以有机会获得搭载Mali-T764的平板电脑,RK3288新品也将全面暴发。

分享到:更多 ()

评论 2

  • 昵称 (必填)
  • 邮箱 (必填)
  • 网址
  1. #1

    500%太夸张了,带视网膜屏没问题了。

    sddk3年前 (2014-03-12)回复
    • 对,原本买的原道M10用RK3188卡成翔,四个月后退给京东返了8折892.6元给我了,现在正在纠结是买RK3288还是win8平板

      peterzane3年前 (2014-10-01)回复