关于shader:编辑器在编译Shader时的报错疑问

1）编辑器在编译 Shader 时的报错疑难
2）对于图片大小和包体大小的疑难
3）对于合图和合批是否会升高带宽的疑难
4）URP 下，如何优化多相机渲染时的 Cull 耗时

这是第 312 篇 UWA 技术常识分享的推送。明天咱们持续为大家精选了若干和开发、优化相干的问题，倡议浏览工夫 10 分钟，认真读完必有播种。

UWA 问答社区：answer.uwa4d.com
UWA QQ 群 2：793972859（原群已满员）

Q：有时在 Shader 编写过程中，咱们可能会用到十分多纹理，如果每个纹理都采纳相似 uniform sampler2D \_Mask；的形式进行申明，编辑器在编译 Shader 的时候就会报错：

Shader error in‘CloudShaow/MaskBlend’: maximum ps_4_0 sampler register index (16) exceeded at line 69 (on d3d11)

A1：OpenGL ES2.0 中，单个 Shader 最多反对 8 个贴图；OpenGL ES3.0 中，单个 Shader 最多反对 16 个贴图。没方法，这是硬件限度，你只能缩小贴图数量。

比方，把几个 2D Texture 合成 2D Array Texture。或者，依据不同的 Keyword，拜访不同的贴图，然而要保障，贴图使用量最多的变体，合乎下面的要求。

感激王烁 @UWA 问答社区提供了答复

A2：以前的写法，参考这个：
https://blog.csdn.net/weixin_…

当初的写法，只定义一个 Sampler，传参数的时候共用这一个就行：

感激仇磊 @UWA 问答社区提供了答复

Q：对于图片大小和包体大小的疑难。

例如，一张图片，理论大小是 1KB，放到 Unity 里是 10KB（依据不同的压缩格局不一样），打包后查看 Editor Log 说图片占用了包体 10KB。查了很多文章都说 Unity 打包的时候，会把图片按设定的压缩格局转成 Unity 的图片格式，但理论打出的包不是增长 10KB，而是图片理论大小 1KB，这个 10KB 是内存大小。

到底这个包体大小与图片大小的关系是怎么的？如何查看理论的包体资源形成？

A1：jpg 和 png 领有良好的压缩率，也就是你所看到的 1KB 的图片。然而这 2 种格局不反对随机读取，所以引擎会帮你转换成反对随机读取的格局，会比原来的图片大一点，存储也是依照新格局来存储的。包体形成如果是 AssetBundle 或者全都放在 Resource 目录下，就能够通过 AssetStudio 进行解包查看。

感激萧小俊 @UWA 问答社区提供了答复

A2：你要了解内存大小和所占硬盘的容量大小，10KB 是理论加载这张图内存会占用的大小，1KB 是这个文件在你的操作系统中的文件所占的硬盘大小，然而不齐全等同于理论进包内的大小，毕竟 Resource 里或者打成 AssetBundle 之后会有肯定的压缩，能够在打下的 AssetBundle 中查看。

也就是说，要看下这个文件更改格局之后打进去的 AssetBundle 大小是否产生了本质的变动，因为 AssetBundle 的大小进到包内个别不会被压缩。

感激 [email protected] 问答社区提供了答复

A3：最终看打进去的 AssetBundle 包的大小即可，通常 AssetBundle 是不会 2 次压缩的，否则加载耗时会变高。纹理的压缩格局也会导致 AssetBundle 大小不一样，下图中是 1024×1024 的纹理测试失去的后果，仅供参考：

感激 [email protected] 问答社区提供了答复

Q：对于合图和合批是否会升高带宽疑难。

有一张合图 1024×1024，200 个物体共用其中一张 100×100 纹理，总共 DrawCall 只有 1，请问下当初带宽是：
200 物体 x (1024 x 1024) or
200 物体 x (100 x 100) or
1 x (1024 x 1024) or
1 x (100 x 100)？

如题目所说，合图的应该是被合成一个 Batch，那是 200 物体 x (1024 x 1024)吗？

另外 NxN 的像素块有多大？比方想要渲染一张 1024×1024 背景图，个别会被读取几次？

若开启 Mipmap，我的了解是相当于弄了一个合图，合图里蕴含了更低级别的信息。如果是这个思路，那合图传的带宽应该是 100×100，而不是传整张合图 1024×1024？

A1：首先一点，Sprite 不是你想的 100X100 尺寸，传到 GPU 就是这块区域，最终传输到 GPU 还是纹理自身，GUI 只是通过 Sprite 信息设置了顶点 UV，能力正确渲染纹理的指标区域。Sprite 它不是任何显示资源或者物理资源，而就是一个纯数据结构，为了方便管理一个纹理的不同区域。

感激 1 9 7 [email protected]问答社区提供了答复

A2：纹理带宽次要指读纹理带宽：当 GPU 的 OnChip Memory 上没有，则会从 System Memory 外面读取，个别是会读取一个 NxN 的像素块的内容进 OnChip Memory。所以，当采样次数和采样点更多的时候，越容易 Cache Miss，这样就增多了到 System Memory 外面读取纹理到 OnChip 的次数，带宽就相应增大了。

因而，为了升高带宽，咱们常说纹理要开 Mipmap，要缩小采样次数（防止开启各项同性和三线性差值），从而尽量减少 Cache Miss 次数；也能够进一步压缩纹理格局，来缩小传输的数据量。

对于本问题，实质还是在 OnChip 上读取外面 NxN 的内容的，然而会受到采样次数的影响。其中如果有 200 个 DrawCall 但被合成一个了 Batch，依然会采样 200 次；但如果的确合成了一个 DrawCall，那就会只采一次。

之所以说 Mipmap 升高带宽，是因为传到 GPU 的是适合层级的纹理，当画下一个像素时很大概率就落在 OnChip 里的 NxN 个像素内，就不须要从新采从而减少 Cache Miss 概率；但如果没有开 Mipmap 而导致用了分辨率过大的层级，则画两个相邻的点也可能要跨纹理中的好几个像素，从而得从新采从而减少 Cache Miss 概率。

感激 [email protected] 问答社区提供了答复

A3：对于带宽来说，是 100×100 还是 1024×1024，区别不大，小图和大图的区别在于从 CPU 传到 GPU 的时候的操作，是一次性传图集到 GPU 外面还是分很屡次传小图到 GPU，到带宽层面，都是读取采样点四周的像素到 OnChip 上，应该没有太大区别。至于采样点读取的 NxN 有多大，这个应该是和硬件相干。

感激 [email protected] 问答社区提供了答复

Q：依据 Profiler 来看，CPU 端相机的耗时有很大一部分在 Cull 阶段。有什么方法可能优化这部分的耗时吗？或者说跳过这部分？有尝试过通过 CommandBuffer 去绘制，然而 CommandBuffer 绘制的物体，SRPBatcher 仿佛没法失效。

请问在 URP 下，多相机渲染时的 Cull 耗时有方法优化吗？

A：Frustum Culling 曾经在 JobSytem 的子线程中。你相机可能反复渲染了，或者你场景的对象太多了，倡议先用些其余伎俩，比方 LOD、HLOD 或逻辑剔除等。

跳过不可能。如果跳过，全地图的顶点都会进入这一帧的 VBO（一样会卡），EBO 长度也大大增加，接着由驱动发送到 GPU，起初来到 Vertex Shader 阶段参加计算（压力)，其次除法前裁剪[-w，w]之外的顶点（最初也裁剪了，然而节约了最大的计算过程资源）。

感激龙跃 @UWA 问答社区提供了答复

封面图来源于网络

明天的分享就到这里。当然，生有涯而知无涯。在漫漫的开发周期中，您看到的这些问题兴许都只是冰山一角，咱们早已在 UWA 问答网站上筹备了更多的技术话题等你一起来摸索和分享。欢送酷爱提高的你退出，兴许你的办法恰能解他人的当务之急；而他山之“石”，也能攻你之“玉”。

官网：www.uwa4d.com
官网技术博客：blog.uwa4d.com
官网问答社区：answer.uwa4d.com
UWA 学堂：edu.uwa4d.com
官网技术 QQ 群：793972859（原群已满员）

关于shader:编辑器在编译Shader时的报错疑问

Shader

Resource

Rendering

Rendering