第六章前向渲染与延迟渲染#

一句话理解：前向渲染是”每个物体对每盏灯算一次”，延迟渲染是”先画完所有物体，再对屏幕上每个像素统一算光照”。前者适合少量光源，后者适合大量光源——现代引擎通常两者混用。

📋 前置知识：Ch1（渲染管线——深度测试与混合阶段是理解两种架构差异的基础）、Ch3（光照模型——延迟渲染的 G-Buffer 里存的就是光照计算的输入数据）

6.1 概念直觉 —— 两种架构的哲学#

问题：多光源的困境#

1
场景：一个房间，1 个角色模型，20 盏动态灯光
2

3
前向渲染：
4
  角色模型的每个片元 → 对 20 盏灯各做一次光照计算
5
  → 200 万片元 × 20 盏灯 = 4000 万次光照计算
6

7
  而且！如果 10 盏灯被墙挡住了，这些计算白费了
8
  更糟的是——你不知道哪些灯被挡住，因为还没画墙
9

10
延迟渲染：
11
  先画完所有物体（不计算光照，只把属性写进 G-Buffer）
12
  再对屏幕上每个可见像素，统一计算所有灯的光照
13
  → 200 万像素 × 20 盏灯 = 4000 万次
14

15
  等等……次数一样？
16
  不一样——只有最终可见的像素才计算！
17
  被遮挡的片元（在 G-Buffer 写入阶段就被深度测试淘汰了）

本质差异#

graph TD subgraph "前向渲染 (Forward)" F1["Drawcall 1: 物体A\n几何 + 光照同时做"] F2["Drawcall 2: 物体B\n几何 + 光照同时做"] F3["Drawcall 3: 物体C\n几何 + 光照同时做"] F1 --> F2 --> F3 end subgraph "延迟渲染 (Deferred)" D1["GBuffer Pass\n画所有物体 → 只写属性到 GBuffer"] D2["Lighting Pass\n对屏幕每个像素统一算光照"] D3["Forward Pass\n透明物体额外走前向"] D1 --> D2 --> D3 end style F1 fill:#e85d04,stroke:#f48c06,color:white style D1 fill:#2d6a4f,stroke:#40916c,color:white style D2 fill:#2d6a4f,stroke:#40916c,color:white

6.2 前向渲染#

渲染流程#

1
对每个物体：
2
  1. 跑 Vertex Shader（MVP 变换）
3
  2. 光栅化 → 生成片元
4
  3. 片元着色器：
5
     a. 采样纹理（Albedo/Normal/Roughness...）
6
     b. 对每一盏灯计算光照（Phong/PBR）
7
     c. 把所有灯光的结果累加
8
  4. 深度测试 → 混合 → 写入帧缓冲

DrawCall = 物体数 × 光源数（最坏情况）#

1
// Unity Forward Rendering 的光源处理策略
2

3
// 场景中有 50 盏点光源，但每个物体只受最近的 4 盏影响
4
// Unity 会自动排序光源——每帧根据物体位置选出最重要的几盏
5

6
// 光源模式（在 Light 组件上设置）：
7
// Important（像素光）：逐像素计算——最贵，放最重要的光源
8
// Not Important（顶点光）：逐顶点计算——较便宜
9
// Auto：Unity 自动决定
10

11
// 前向渲染的 Pass 结构（Unity Built-in RP）：
12
// ForwardBase Pass:
13
//   - 1 盏方向光（通常是主光源） + 所有逐顶点光 + SH 环境光
14
//   - 这个 Pass 计算环境光和主光
15
//
16
// ForwardAdd Pass（每个额外的逐像素光多一个 Pass）：
17
//   - 额外的逐像素光——每个光源一个 Pass！
18
//   - 这就是"前向渲染光源数 × 物体 DrawCall"的来源
19
//   - Blend One One（叠加混合——把每个光源的贡献累加上去）

前向渲染的优缺点#

1
✅ 优点：
2
  1. 硬件兼容性好——所有 GPU 都支持，移动端首选
3
  2. 支持 MSAA——因为几何信息在片元着色器里直接用
4
  3. 透明物体处理自然——本来就逐物体渲染，混合透明很简单
5
  4. Shader 灵活——每个物体可以用不同的 Shader 做不同的光照
6

7
❌ 缺点：
8
  1. 光源数多时 DrawCall 爆炸——N 物体 × M 光源
9
  2. 大量被遮挡的片元也算光照——浪费（Occlusion Culling 减轻但不能完全避免）
10
  3. 多光源下 Shader 变体爆炸——Shader 需要为不同的光源数/类型生成变体
11
  4. 光照计算与几何绑定——不能在屏幕空间复用计算结果

6.3 延迟渲染#

两阶段流程#

1
Phase 1：GBuffer Pass（几何阶段）
2
  渲染所有不透明物体
3
  片元着色器不计算光照——
4
  而是把 Albedo、法线、深度、粗糙度、金属度等写入多张 RT（G-Buffer）
5

6
Phase 2：Lighting Pass（光照阶段）
7
  对屏幕上的每个像素：
8
    从 G-Buffer 读取该像素的几何属性
9
    用这些属性计算所有灯光的影响
10
    累加 → 写入最终帧缓冲

G-Buffer 的布局#

1
// 典型的 G-Buffer 布局（4 张 RT）
2
//
3
// RT0 (ARGB32): Albedo.rgb + 保留
4
// RT1 (ARGB32): Normal.xy（Octahedron 编码）+ Roughness + Metallic
5
// RT2 (ARGBHalf): WorldPosition.rgb + 保留
6
// RT3 (ARGB32): AO + 保留 + 保留 + 保留
7

8
// ============ GBuffer Pass 的片元着色器 ============
9
struct GBufferOutput {
10
    float4 albedoRT    : SV_TARGET0;  // RT0: albedo.rgb
11
    float4 normalRT    : SV_TARGET1;  // RT1: normal.xy + roughness + metallic
12
    float4 positionRT  : SV_TARGET2;  // RT2: worldPos.xyz
13
    float4 aoRT        : SV_TARGET3;  // RT3: ao
14
};
15

16
GBufferOutput GBufferPS(VertexOutput input) {
17
    GBufferOutput output;
18

19
    // 采样材质
20
    float3 albedo = SAMPLE_TEXTURE2D(_AlbedoMap, sampler_Albedo, input.uv).rgb;
21
    float metallic = SAMPLE_TEXTURE2D(_MetallicMap, sampler_Metallic, input.uv).r;
22
    float roughness = SAMPLE_TEXTURE2D(_RoughnessMap, sampler_Roughness, input.uv).r;
23
    float ao = SAMPLE_TEXTURE2D(_AOMap, sampler_AO, input.uv).r;
24
    float3 N = GetWorldNormal(input);
25

26
    // 写入 GBuffer——不计算光照！
27
    output.albedoRT = float4(albedo, 1.0);
28

29
    // 法线压缩：Octahedron 编码把 3 分量法线 → 2 分量（省带宽）
30
    float2 encodedNormal = EncodeNormalOctahedron(N);
31
    output.normalRT = float4(encodedNormal, roughness, metallic);
32

33
    output.positionRT = float4(input.worldPos, 1.0);
34
    output.aoRT = float4(ao, 0, 0, 1.0);
35

36
    return output;
37
}
38

39
// ============ Lighting Pass 的片元着色器 ============
40
float4 DeferredLightingPS(float4 screenPos : SV_POSITION) : SV_TARGET {
41
    // 从 G-Buffer 解码
42
    float3 albedo = GBuffer0.Sample(sampler, uv).rgb;
43
    float3 N = DecodeNormalOctahedron(GBuffer1.Sample(sampler, uv).xy);
44
    float roughness = GBuffer1.Sample(sampler, uv).z;
45
    float metallic = GBuffer1.Sample(sampler, uv).w;
46
    float3 worldPos = GBuffer2.Sample(sampler, uv).xyz;
47
    float ao = GBuffer3.Sample(sampler, uv).x;
48

49
    // 重建 View Direction
50
    float3 V = normalize(_WorldSpaceCameraPos - worldPos);
51

52
    // ===== 对每盏灯计算光照（和前向渲染的片元着色器一样）=====
53
    float3 Lo = 0;
54

55
    // 主方向光
56
    Lo += ComputePBRLighting(albedo, N, V, roughness, metallic,
57
                              _MainLightDirection, _MainLightColor);
58

59
    // 额外的点光源——在屏幕空间逐像素计算
60
    for (int i = 0; i < _PointLightCount; i++) {
61
        float3 L = _PointLights[i].position - worldPos;
62
        float dist = length(L);
63
        if (dist < _PointLights[i].range) {
64
            L /= dist;  // normalize
65
            float attenuation = 1.0 - (dist / _PointLights[i].range);
66
            Lo += ComputePBRLighting(albedo, N, V, roughness, metallic,
67
                                      L, _PointLights[i].color) * attenuation;
68
        }
69
    }
70

71
    float3 ambient = albedo * _AmbientColor.rgb * ao;
72
    return float4(Lo + ambient, 1.0);
73
}

延迟渲染的优缺点#

1
✅ 优点：
2
  1. 光照计算 O(屏幕像素 × 光源数)——摆脱了物体数的依赖
3
  2. 大量光源场景性能极好——Lighting Pass 只跑一次
4
  3. G-Buffer 可以用于后处理——SSAO/SSR 都需要法线和深度
5
  4. Shader 变体少——光照计算的 Shader 只有一个
6

7
❌ 缺点：
8
  1. 不支持 MSAA——G-Buffer 是屏幕分辨率的，
9
     没有几何信息来做子像素采样（硬件 MSAA 需要知道三角形边界）
10
  2. 透明物体必须额外走 Forward Pass——G-Buffer 只能存一层几何信息
11
  3. G-Buffer 带宽消耗大——4 张 RT，每帧都要写和读
12
     1920×1080 × 4 张 RT × 每张 4 bytes = 33MB 的读写/帧
13
  4. Shader 不灵活——所有物体在 Lighting Pass 里用同一个 Shader 算光照，
14
     不能像前向渲染那样"这个物体用特殊的 Shader"
15
  5. 深度/Stencil 预先写入——不能利用 Early-Z 省掉片元着色器

6.4 关键辨析#

为什么延迟渲染不支持 MSAA#

1
MSAA（多重采样抗锯齿）的原理：
2
  每个像素采样 N 次（4×MSAA = 4 个子像素）
3
  光栅化时判断三角形覆盖了哪些子像素
4
  片元着色器只跑 1 次（颜色共享给所有覆盖的子像素）
5
  解析时：混合 4 个子像素的颜色 → 抗锯齿
6

7
延迟渲染的问题：
8
  G-Buffer 的片元着色器输出的是"几何属性"（法线、粗糙度等），
9
  不是最终颜色。如果做了 MSAA——
10
  G-Buffer 子像素 A 和 子像素 B 可能来自不同的三角形，
11
  法线完全不同。但 Lighting Pass 时用哪个法线？
12

13
解决方案：
14
  1. 不解决——Lighting Pass 后做 FXAA/TAA 等后处理抗锯齿（主流方案）
15
  2. 每个子像素都存一份 G-Buffer——内存 ×4（太贵了，没人这么干）
16
  3. Forward+（见 6.5 节）——保留了前向渲染的 MSAA 支持

为什么透明物体必须走前向渲染#

1
G-Buffer 的一个像素位置只能存一个物体的属性——
2
被深度测试保留下来的那个（离摄像机最近的）。
3

4
但透明物体需要看到它背后的颜色——不能覆盖 G-Buffer 的值。
5

6
解决方案：
7
  GBuffer Pass → 画所有不透明物体 → Lighting Pass → 得到不透明的最终画面
8
  → Forward Pass → 在画面之上叠加透明物体（混合透明）
9

10
这就是 Unity URP 的渲染顺序：
11
  1. Depth Prepass（可选——写深度，用于后续做剔除）
12
  2. GBuffer Pass（不透明物体 → G-Buffer）
13
  3. Deferred Lighting Pass（G-Buffer → 光照计算）
14
  4. Forward Pass（透明物体 → 混合到画面上）

前向 vs 延迟的性能分界线#

1
什么时候延迟渲染 > 前向渲染？
2

3
场景 A：室外大世界，1 盏太阳光 + 少量点光源（火把/篝火）
4
  → 前向渲染更优——光源少，DrawCall 不爆炸
5
    延迟渲染的 G-Buffer 带宽开销反而不划算
6

7
场景 B：室内场景，20+ 盏动态灯光（灯泡/蜡烛/魔法特效）
8
  → 延迟渲染更优——大量光源的 Lighting Pass 只跑一次
9
    前向渲染的 DrawCall × 光源数会爆炸
10

11
经验值：
12
  动态像素光 < 4-5 盏 → 前向渲染
13
  动态像素光 > 8-10 盏 → 延迟渲染
14
  中间 → 看场景复杂度和平台

6.5 Forward+ 与 Clustered Forward#

Forward+ (Tiled Forward)#

1
前向渲染和延迟渲染的折中方案：
2

3
思路：把屏幕分成 Tile（如 32×32 像素的格子）
4
      对每个 Tile，找出影响它的光源
5
      渲染这个 Tile 时，只计算这些光源
6

7
步骤：
8
  1. 深度预渲染（Z-Prepass）→ 得到屏幕的深度信息
9
  2. 光源分类（CPU/Compute Shader）：
10
     对每个 Tile，计算它被哪些灯光影响
11
     只存命中率高的光源索引列表
12
  3. 前向渲染：
13
     每个物体渲染时，根据它覆盖的 Tile，
14
     只算可能影响它的光源而非全场景光源
15

16
优势：
17
  保留了前向渲染的 MSAA + 灵活的 Shader
18
  接近延迟渲染的多光源性能
19
  G-Buffer 带宽开销 ↓
20

21
代价：
22
  需要 Compute Shader 支持（或 CPU 端分 Tile）
23
  光源分类本身有开销

Clustered Forward#

1
Forward+ 的改进版：不仅在屏幕 XY 上分格，在 Z（深度）上也分格
2

3
Tile（Forward+）：            Cluster（Clustered Forward）：
4
  屏幕空间 2D 格子             屏幕空间 3D 格子（XY + 深度）
5
  一个 Tile 覆盖所有深度       一个 Cluster 只覆盖一段深度
6

7
为什么 Z 轴分格重要？
8
  场景：摄像机前方 1 米有一盏灯，后方 100 米有一盏灯
9
  Tile 方案：两个灯都被算进这个 Tile → 浪费（后面那盏根本照不到前面的物体）
10
  Cluster 方案：1 米和 100 米的深度在各自的 Cluster 中 → 只算相关的
11

12
Clustered Forward 是目前最高效的前向渲染方案。
13
HDRP 和 UE5 都使用（或部分使用）了类似的技术。

6.6 三种架构的对比#

维度	前向渲染	延迟渲染	Forward+ / Clustered
光照复杂度	O(物体×光源)	O(像素×光源)	O(物体×Cluster 内光源)
MSAA	✅ 原生支持	❌ 需后处理 AA	✅ 原生支持
透明物体	✅ 自然处理	❌ 需额外 Forward Pass	✅ 自然处理
G-Buffer 开销	无	高（4+张 RT）	低（通常只需深度）
Shader 灵活性	高（每物体可不同）	低（统一 Lighting Shader）	高
大量光源	差	极好	很好
少量光源	好	过度开销（G-Buffer 浪费）	好
移动端适用	✅ 首选	❌ 带宽太重	部分支持
典型引擎	Unity Built-in RP	经典延迟管线 (Killzone/UE3)	UE5 / Unity HDRP

选型建议：

1
移动端 → 前向渲染（带宽敏感，光源少）
2
PC 室内 → 延迟渲染（多光源优势明显）
3
PC 开放世界 → Forward+ 或 混合（前向 + 延迟）
4
Unity → URP 默认前向，HDRP 默认延迟/Forward+
5
UE5 → 默认延迟，支持 Forward 作为 Fallback

6.7 🎮 游戏实战：Unity 中的渲染路径配置#

1
// Unity URP 的渲染路径设置
2
// Project Settings → Graphics → Pipeline Asset → Rendering
3

4
// Forward Rendering:
5
//   - 性能要求低 → 适合移动端
6
//   - 最多支持 8 盏逐像素光（每个物体）
7
//
8
// Deferred Rendering:
9
//   - 需要 GBuffer 支持 → GPU 至少支持 MRT（多渲染目标）
10
//   - 大量动态光源 → 性能优势明显
11

12
// Unity HDRP：默认延迟渲染，可选 Forward 模式
13
// Unity URP：默认前向渲染，可选延迟（需要高端设备）

6.8 面试口述题#

Q：“前向渲染和延迟渲染的区别？各自的优缺点？“#

1
"本质区别是光照计算的时机。
2

3
前向渲染在渲染每个物体时，对每盏灯做一次光照计算——
4
光照和几何是耦合的。好处是支持 MSAA、透明物体自然处理、
5
Shader 灵活。坏处是多光源时复杂度 O(N×M)，DrawCall 爆炸，
6
大量被遮挡的片元浪费光照计算。
7

8
延迟渲染分成两个阶段——
9
先画所有不透明物体，把 Albedo/法线/深度/材质参数写入 G-Buffer；
10
再对屏幕每个像素统一算所有灯的光照。
11
好处是多光源开销与物体数无关、G-Buffer 数据可供 SSAO/SSR 等后处理复用。
12
坏处是不支持 MSAA、透明物体必须走额外 Forward Pass、
13
G-Buffer 带宽消耗大（每帧 4+ 张 RT 的读写）、移动端不适用。
14

15
现代方案是 Forward+ / Clustered Forward——
16
在屏幕空间分 Tile/Cluster 管理光源索引，
17
让每个物体/像素只计算可能影响它的光源。"

Q：“G-Buffer 存什么？为什么延迟渲染不支持 MSAA？“#

1
"典型的 G-Buffer 包括 Albedo（RGB）、
2
压缩后的法线（Octahedron 编码，2 分量）、
3
Roughness 和 Metallic（各 1 分量）、
4
World Position（可从深度重建，省一张 RT）、
5
AO（1 分量）。
6

7
不支持 MSAA 是因为 G-Buffer 是屏幕分辨率的纹理数组——
8
每个像素只存一份几何属性。
9
MSAA 需要知道子像素级别的几何边界——
10
像素内的 4 个子像素可能来自不同的三角形，法线完全不同，
11
但 G-Buffer 没有这些子像素信息。
12
所以延迟渲染管线用后处理 AA（FXAA/TAA/SMAA）替代 MSAA。"

6.9 本章回顾#

概念	一句话
前向渲染	几何 + 光照同时做——每物体 × 每光源
延迟渲染	先存几何属性到 G-Buffer，再逐像素统一光照
G-Buffer	Albedo + Normal + Depth + Metallic/Roughness + AO
MSAA 不支持	G-Buffer 是屏幕分辨率——缺少子像素几何信息
透明物体	必须额外走 Forward Pass——G-Buffer 只能存一层
Forward+	屏幕分 Tile 管理光源——取前向和延迟两者之长
Clustered Forward	Tile + 深度分格——避免深度不相关光源的开销

📖 下一章：第七章后处理与实时GI入门 —— Bloom、HDR/Tone Mapping、SSAO、Light Probe。延迟渲染的 G-Buffer 为后处理提供了完美的输入数据。

音乐

音乐

第六章前向渲染与延迟渲染#

6.1 概念直觉 —— 两种架构的哲学#

问题：多光源的困境#

本质差异#

6.2 前向渲染#

渲染流程#

DrawCall = 物体数 × 光源数（最坏情况）#

前向渲染的优缺点#

6.3 延迟渲染#

两阶段流程#

G-Buffer 的布局#

延迟渲染的优缺点#

6.4 关键辨析#

为什么延迟渲染不支持 MSAA#

为什么透明物体必须走前向渲染#

前向 vs 延迟的性能分界线#

6.5 Forward+ 与 Clustered Forward#

Forward+ (Tiled Forward)#

Clustered Forward#

6.6 三种架构的对比#

6.7 🎮 游戏实战：Unity 中的渲染路径配置#

6.8 面试口述题#

Q：“前向渲染和延迟渲染的区别？各自的优缺点？“#

Q：“G-Buffer 存什么？为什么延迟渲染不支持 MSAA？“#

6.9 本章回顾#

文章分享

评论区

音乐

目录

音乐

音乐

第六章 前向渲染与延迟渲染

第六章 前向渲染与延迟渲染#

6.1 概念直觉 —— 两种架构的哲学#

问题：多光源的困境#

本质差异#

6.2 前向渲染#

渲染流程#

DrawCall = 物体数 × 光源数（最坏情况）#

前向渲染的优缺点#

6.3 延迟渲染#

两阶段流程#

G-Buffer 的布局#

延迟渲染的优缺点#

6.4 关键辨析#

为什么延迟渲染不支持 MSAA#

为什么透明物体必须走前向渲染#

前向 vs 延迟的性能分界线#

6.5 Forward+ 与 Clustered Forward#

Forward+ (Tiled Forward)#

Clustered Forward#

6.6 三种架构的对比#

6.7 🎮 游戏实战：Unity 中的渲染路径配置#

6.8 面试口述题#

Q：“前向渲染和延迟渲染的区别？各自的优缺点？“#

Q：“G-Buffer 存什么？为什么延迟渲染不支持 MSAA？“#

6.9 本章回顾#

文章分享

评论区

音乐

目录

第六章前向渲染与延迟渲染

第六章前向渲染与延迟渲染#