第五章哈希表 (Hash Table)#

一句话理解：哈希表通过哈希函数将 Key 直接映射到数组下标，用 O(1) 的时间完成增删查——它是”空间换时间”这一思想的极致体现。

5.1 概念直觉 —— What & Why#

问题的起源#

假设你有一亿个用户，每个用户有一个 ID。现在需要高频地”根据 ID 查用户数据”。

数组：如果 ID 是连续的 0 ~ 1亿，直接用 arr[id]，O(1) 完美。但如果 ID 范围是 0 ~ 2^64（如 UUID），不可能开这么大的数组。
有序数组 + 二分：O(log n)，还行，但不够快。每秒几十万次查询时，log n 的常数也会成为瓶颈。
链表：O(n)，不用想了。

哈希表的解决方案：用一个哈希函数把任意 Key 映射（压缩）到有限的数组下标范围内，实现”任意 Key → O(1) 查找”。

1
Key("lonelystar") → hash("lonelystar") → 847293 → 847293 % 1024 → index 177
2
                     ↑ 哈希函数                      ↑ 取模映射到桶

哈希表的工作原理#

哈希表的核心就三步：

计算哈希值：hash(key) → 得到一个整数
映射到桶下标：hash(key) % bucket_count → 得到数组中的位置
处理冲突：不同的 Key 可能映射到同一个桶（这叫哈希冲突），需要一种策略来处理

两个核心问题#

整个哈希表的设计，围绕两个核心问题展开：

问题 1：哈希函数怎么设计？

好的哈希函数要满足：

确定性：相同的 Key 永远产生相同的哈希值
均匀性：不同的 Key 应该尽量均匀地分布在整个输出空间中
高效性：计算要快（O(key 长度)）

问题 2：冲突了怎么办？

无论哈希函数多好，当 Key 的数量超过桶的数量时，冲突是不可避免的（鸽巢原理）。两种主流策略：

链地址法 (Separate Chaining)：每个桶挂一个链表
开放寻址法 (Open Addressing)：冲突时在数组中找下一个空位

哈希表 vs 其他数据结构#

需求	数组	有序数组 / BST	哈希表
精确查找	O(1)*	O(log n)	O(1) 均摊
范围查询	O(n)	O(log n + k)	❌ O(n)
插入	O(1)* / O(n)	O(log n)	O(1) 均摊
删除	O(n)	O(log n)	O(1) 均摊
有序遍历	❌	✅	❌
内存开销	最少	中等	较大（桶 + 负载因子 < 1）
最坏情况	O(1)*	O(log n)	O(n)（全部冲突）

* 仅当 Key 可直接作为下标时

💡 选型金句：「只需要精确查找（有就有、没有就没有），用哈希表；需要范围查询或有序遍历，用红黑树（std::map）。」这是面试中最高频的选型题。

5.2 结构图解#

链地址法 (Separate Chaining)#

graph TD subgraph "Hash Table (bucket_count = 8)" B0["Bucket 0"] --> N0["nullptr"] B1["Bucket 1"] --> N1A["('apple', 5)"] --> N1B["('mango', 3)"] --> NULL1["nullptr"] B2["Bucket 2"] --> N2["nullptr"] B3["Bucket 3"] --> N3A["('banana', 7)"] --> NULL3["nullptr"] B4["Bucket 4"] --> N4["nullptr"] B5["Bucket 5"] --> N5A["('cherry', 2)"] --> N5B["('grape', 9)"] --> N5C["('kiwi', 1)"] --> NULL5["nullptr"] B6["Bucket 6"] --> N6["nullptr"] B7["Bucket 7"] --> N7A["('orange', 4)"] --> NULL7["nullptr"] end style B1 fill:#2d6a4f,stroke:#40916c,color:white style B5 fill:#d00000,stroke:#e85d04,color:white

1
hash("apple")  % 8 = 1    ← apple 和 mango 冲突在桶 1
2
hash("mango")  % 8 = 1
3
hash("banana") % 8 = 3
4
hash("cherry") % 8 = 5    ← cherry, grape, kiwi 三个冲突在桶 5
5
hash("grape")  % 8 = 5
6
hash("kiwi")   % 8 = 5
7
hash("orange") % 8 = 7
8

9
负载因子 = 元素数 / 桶数 = 6 / 8 = 0.75

链地址法是 std::unordered_map 的默认策略。每个桶是一个链表，冲突时在链表尾部追加。

开放寻址法 (Open Addressing)#

block-beta columns 8 block:title:8 columns 1 t["Open Addressing — Linear Probing"] end b0["[0]\nempty"] b1["[1]\napple:5"] b2["[2]\nmango:3"] b3["[3]\nbanana:7"] b4["[4]\nempty"] b5["[5]\ncherry:2"] b6["[6]\ngrape:9"] b7["[7]\norange:4"]

1
插入 mango: hash("mango") % 8 = 1 → 位置 1 被 apple 占了！
2
           → 线性探测：试 2 → 空的！放这里。
3

4
查找 mango: hash("mango") % 8 = 1 → 位置 1 是 apple ≠ mango
5
           → 继续看 2 → 命中！
6

7
删除时不能简单置空（会切断探测链），需要用特殊标记 DELETED。

链地址法 vs 开放寻址法#

维度	链地址法	开放寻址法
冲突处理	桶挂链表	在数组内找下一个空位
内存布局	指针 + 堆上链表节点	纯数组，缓存友好
负载因子容忍	可以 > 1（链表无限长）	必须 < 1（否则找不到空位）
删除	链表删除 O(1)	需要 DELETED 标记，复杂
缓存友好性	❌ 链表散布堆中	✅ 数据在连续数组中
适合场景	通用，STL 默认	高性能、低延迟、内存池
代表实现	`std::unordered_map`	Google `absl::flat_hash_map`、Rust `HashMap`

`std::unordered_map` 的内部结构#

graph LR subgraph "std::unordered_map" direction TB META["元数据\nbucket_count = 8\nsize = 6\nmax_load_factor = 1.0"] subgraph "桶数组 (Bucket Array)" B0["bucket[0]: nullptr"] B1["bucket[1]: →"] B2["bucket[2]: nullptr"] B3["bucket[3]: →"] B4["bucket[4]: nullptr"] B5["bucket[5]: →"] B6["bucket[6]: nullptr"] B7["bucket[7]: →"] end B1 --> L1["Node(K1,V1)"] --> L2["Node(K2,V2)"] B3 --> L3["Node(K3,V3)"] B5 --> L4["Node(K4,V4)"] --> L5["Node(K5,V5)"] --> L6["Node(K6,V6)"] end style META fill:#1b4332,stroke:#2d6a4f,color:white

5.3 C++ 底层实现#

5.3.1 哈希函数设计#

C++ 标准库的 `std::hash`#

1
#include <functional>
2

3
// std::hash 为基本类型提供了默认实现
4
std::hash<int>{}(42);                    // → 整数直接用
5
std::hash<std::string>{}("hello");       // → FNV-1a 或 MurmurHash 变体
6
std::hash<double>{}(3.14);               // → 二进制重新解释
7
std::hash<void*>{}(ptr);                 // → 地址直接转换
8

9
// 但 std::hash 对自定义类型 ❌ 没有默认实现！
10
// 需要自己写。

常见哈希函数#

哈希函数	特点	用途
取模哈希	`key % p`（p 为质数）	教学、面试手写
FNV-1a	简单、快速、分布均匀	GCC/Clang 的 `std::hash<string>`
MurmurHash3	高质量、快速、适合大数据	Redis、Kafka、Google
xxHash	极快（SIMD 优化）	文件校验、游戏资源哈希
CityHash / FarmHash	Google 出品，64/128 位	分布式系统
SipHash	防碰撞攻击（密码学安全）	Python dict、Rust HashMap

手写哈希函数#

1
// FNV-1a 哈希（最简单的"好"哈希，面试手写够用）
2
struct FNV1aHash {
3
    std::size_t operator()(const std::string& s) const {
4
        // 64 位 FNV offset basis 和 prime
5
        std::size_t hash = 14695981039346656037ULL;
6
        constexpr std::size_t prime = 1099511628211ULL;
7

8
        for (char c : s) {
9
            hash ^= static_cast<std::size_t>(c);  // XOR
10
            hash *= prime;                          // 乘以质数
11
        }
12
        return hash;
13
    }
14
};
15

16
// 对整数的常用哈希（避免简单取模的聚集问题）
17
struct IntHash {
18
    std::size_t operator()(int key) const {
19
        // Knuth 乘法哈希
20
        return static_cast<std::size_t>(key) * 2654435761ULL;
21
    }
22
};
23

24
// 对 pair 的哈希（面试常用！std::hash 默认不支持 pair）
25
struct PairHash {
26
    std::size_t operator()(const std::pair<int, int>& p) const {
27
        auto h1 = std::hash<int>{}(p.first);
28
        auto h2 = std::hash<int>{}(p.second);
29
        // 经典组合方式（Boost hash_combine）
30
        return h1 ^ (h2 * 2654435761ULL + 0x9e3779b9 + (h1 << 6) + (h1 >> 2));
31
    }
32
};

💡 面试常见坑：std::unordered_map / std::unordered_set 不能直接用 std::pair 或 std::vector 做 Key，因为标准库没有为它们提供 std::hash 特化。必须自定义哈希函数。

什么是”好”的哈希函数？#

1
// ❌ 坏的哈希函数——大量冲突
2
struct BadHash {
3
    std::size_t operator()(int key) const {
4
        return key % 10;  // 所有个位相同的数都冲突！
5
    }
6
};
7

8
// ❌ 更差的哈希函数——常数输出
9
struct TerribleHash {
10
    std::size_t operator()(int key) const {
11
        return 42;  // 所有 key 全冲突！退化成链表 O(n)
12
    }
13
};
14

15
// ✅ 好的哈希函数——均匀分布
16
struct GoodHash {
17
    std::size_t operator()(int key) const {
18
        std::size_t x = key;
19
        x = ((x >> 16) ^ x) * 0x45d9f3b;    // bit mixing
20
        x = ((x >> 16) ^ x) * 0x45d9f3b;
21
        x = (x >> 16) ^ x;
22
        return x;
23
    }
24
};

5.3.2 `std::unordered_map` 底层解析#

std::unordered_map 使用链地址法。底层核心是一个桶数组（bucket array），每个桶指向一个链表。

精简版实现#

1
template <
2
    typename Key, typename Value,
3
    typename Hash = std::hash<Key>,
4
    typename KeyEqual = std::equal_to<Key>
5
>
6
class HashMap {
7
    struct Node {
8
        std::pair<const Key, Value> kv;
9
        Node* next;
10
        std::size_t hash_cache;  // 缓存哈希值，rehash 时不用重算
11

12
        Node(const Key& k, const Value& v, std::size_t h, Node* n = nullptr)
13
            : kv(k, v), next(n), hash_cache(h) {}
14
    };
15

16
    std::vector<Node*> _buckets;   // 桶数组
17
    std::size_t        _size = 0;  // 元素总数
18
    float _max_load_factor = 1.0f; // 最大负载因子
19
    Hash      _hasher;
20
    KeyEqual  _equal;
21

22
    // 桶下标 = hash % bucket_count
23
    std::size_t _bucket_index(std::size_t hash) const {
24
        return hash % _buckets.size();
25
    }
26

27
public:
28
    HashMap(std::size_t initial_buckets = 16)
29
        : _buckets(initial_buckets, nullptr) {}
30

31
    ~HashMap() { clear(); }
32

33
    // ========== 查找 ==========
34
    Value* find(const Key& key) {
35
        std::size_t h = _hasher(key);
36
        std::size_t idx = _bucket_index(h);
37

38
        Node* cur = _buckets[idx];
39
        while (cur) {
40
            if (cur->hash_cache == h && _equal(cur->kv.first, key)) {
41
                return &cur->kv.second;
42
            }
43
            cur = cur->next;
44
        }
45
        return nullptr;  // 未找到
46
    }
47

48
    // ========== 插入 / 更新 ==========
49
    void insert(const Key& key, const Value& value) {
50
        // 先检查是否已存在
51
        if (Value* existing = find(key)) {
52
            *existing = value;  // 更新
53
            return;
54
        }
55

56
        // 检查是否需要 rehash
57
        if (load_factor() >= _max_load_factor) {
58
            _rehash(_buckets.size() * 2);
59
        }
60

61
        std::size_t h = _hasher(key);
62
        std::size_t idx = _bucket_index(h);
63

64
        // 头插法（新节点插到链表头部）
65
        _buckets[idx] = new Node(key, value, h, _buckets[idx]);
66
        ++_size;
67
    }
68

69
    // ========== 删除 ==========
70
    bool erase(const Key& key) {
71
        std::size_t h = _hasher(key);
72
        std::size_t idx = _bucket_index(h);
73

74
        Node* cur = _buckets[idx];
75
        Node* prev = nullptr;
76

77
        while (cur) {
78
            if (cur->hash_cache == h && _equal(cur->kv.first, key)) {
79
                if (prev) {
80
                    prev->next = cur->next;
81
                } else {
82
                    _buckets[idx] = cur->next;
83
                }
84
                delete cur;
85
                --_size;
86
                return true;
87
            }
88
            prev = cur;
89
            cur = cur->next;
90
        }
91
        return false;
92
    }
93

94
    // ========== operator[] ==========
95
    Value& operator[](const Key& key) {
96
        if (Value* v = find(key)) return *v;
97
        insert(key, Value{});  // 不存在则默认构造
98
        return *find(key);
99
    }
100

101
    // ========== Rehash ==========
102
    void _rehash(std::size_t new_bucket_count) {
103
        std::vector<Node*> new_buckets(new_bucket_count, nullptr);
104

105
        for (Node* head : _buckets) {
106
            Node* cur = head;
107
            while (cur) {
108
                Node* next = cur->next;
109
                // 用缓存的哈希值重新映射（不用重新计算！）
110
                std::size_t new_idx = cur->hash_cache % new_bucket_count;
111
                cur->next = new_buckets[new_idx];
112
                new_buckets[new_idx] = cur;
113
                cur = next;
114
            }
115
        }
116

117
        _buckets = std::move(new_buckets);
118
    }
119

120
    // ========== 辅助 ==========
121
    float load_factor() const {
122
        return static_cast<float>(_size) / _buckets.size();
123
    }
124

125
    std::size_t size() const { return _size; }
126
    std::size_t bucket_count() const { return _buckets.size(); }
127

128
    void clear() {
129
        for (Node*& head : _buckets) {
130
            while (head) {
131
                Node* next = head->next;
132
                delete head;
133
                head = next;
134
            }
135
        }
136
        _size = 0;
137
    }
138
};

负载因子与 Rehash#

负载因子 (Load Factor) = 元素数量 / 桶数量

1
std::unordered_map<std::string, int> map;
2

3
// 查看当前状态
4
map.load_factor();      // 当前负载因子
5
map.max_load_factor();  // 阈值（默认 1.0）
6
map.bucket_count();     // 当前桶数量
7

8
// 当 load_factor() >= max_load_factor() 时，自动 rehash
9
// rehash 过程：
10
// 1. 分配更大的桶数组（通常 2x，且取下一个质数）
11
// 2. 遍历旧桶中所有节点
12
// 3. 用 hash % new_bucket_count 重新映射每个节点
13
// 4. 释放旧桶数组
14

15
// 手动控制
16
map.reserve(10000);         // 预分配桶，避免多次 rehash
17
map.rehash(20000);          // 强制 rehash 到指定桶数
18
map.max_load_factor(0.5f);  // 降低阈值 → 更少冲突但更多内存

Rehash 的代价：

操作	不触发 rehash	触发 rehash
`insert`	O(1)	O(n)（搬运所有元素）
均摊	O(1)	O(1)（和 vector 扩容一样的均摊分析）

💡 面试中的表述：「unordered_map 的 insert 均摊 O(1)，但单次可能因 rehash 达到 O(n)。如果能预估元素数量，应该提前调用 reserve() 避免多次 rehash。这和 vector::reserve() 的思路完全一致。」

5.3.3 手写开放寻址哈希表#

开放寻址法在游戏引擎中更常见（缓存友好、无堆分配）。最简单的变体是线性探测 (Linear Probing)：

1
template <typename Key, typename Value, typename Hash = std::hash<Key>>
2
class OpenAddressMap {
3
    enum class State : uint8_t { EMPTY, OCCUPIED, DELETED };
4

5
    struct Slot {
6
        Key    key;
7
        Value  value;
8
        State  state = State::EMPTY;
9
    };
10

11
    std::vector<Slot> _slots;
12
    std::size_t _size = 0;
13
    std::size_t _capacity;
14
    Hash _hasher;
15

16
    static constexpr float MAX_LOAD = 0.7f;  // 开放寻址必须 < 1
17

18
    std::size_t _probe(std::size_t hash) const {
19
        return hash % _capacity;
20
    }
21

22
    std::size_t _next(std::size_t idx) const {
23
        return (idx + 1) % _capacity;  // 线性探测
24
    }
25

26
public:
27
    OpenAddressMap(std::size_t cap = 16)
28
        : _slots(cap), _capacity(cap) {}
29

30
    // ========== 查找 ==========
31
    Value* find(const Key& key) {
32
        std::size_t idx = _probe(_hasher(key));
33

34
        for (std::size_t i = 0; i < _capacity; ++i) {
35
            if (_slots[idx].state == State::EMPTY) {
36
                return nullptr;  // 碰到空位，说明不存在
37
            }
38
            if (_slots[idx].state == State::OCCUPIED && _slots[idx].key == key) {
39
                return &_slots[idx].value;
40
            }
41
            idx = _next(idx);
42
        }
43
        return nullptr;
44
    }
45

46
    // ========== 插入 ==========
47
    void insert(const Key& key, const Value& value) {
48
        if (static_cast<float>(_size + 1) / _capacity >= MAX_LOAD) {
49
            _grow();
50
        }
51

52
        std::size_t idx = _probe(_hasher(key));
53

54
        while (true) {
55
            if (_slots[idx].state != State::OCCUPIED) {
56
                // 空位或已删除位 → 放这里
57
                _slots[idx] = {key, value, State::OCCUPIED};
58
                ++_size;
59
                return;
60
            }
61
            if (_slots[idx].key == key) {
62
                // 已存在 → 更新
63
                _slots[idx].value = value;
64
                return;
65
            }
66
            idx = _next(idx);
67
        }
68
    }
69

70
    // ========== 删除（标记删除）==========
71
    bool erase(const Key& key) {
72
        std::size_t idx = _probe(_hasher(key));
73

74
        for (std::size_t i = 0; i < _capacity; ++i) {
75
            if (_slots[idx].state == State::EMPTY) return false;
76
            if (_slots[idx].state == State::OCCUPIED && _slots[idx].key == key) {
77
                _slots[idx].state = State::DELETED;  // 不能置 EMPTY！
78
                --_size;
79
                return true;
80
            }
81
            idx = _next(idx);
82
        }
83
        return false;
84
    }
85

86
    // ========== 扩容 ==========
87
    void _grow() {
88
        std::size_t new_cap = _capacity * 2;
89
        std::vector<Slot> new_slots(new_cap);
90

91
        // 搬运所有 OCCUPIED 的元素
92
        for (auto& slot : _slots) {
93
            if (slot.state == State::OCCUPIED) {
94
                std::size_t idx = _hasher(slot.key) % new_cap;
95
                while (new_slots[idx].state == State::OCCUPIED) {
96
                    idx = (idx + 1) % new_cap;
97
                }
98
                new_slots[idx] = {std::move(slot.key),
99
                                   std::move(slot.value),
100
                                   State::OCCUPIED};
101
            }
102
        }
103

104
        _slots = std::move(new_slots);
105
        _capacity = new_cap;
106
        // 注意：DELETED 标记在 rehash 后全部消失 → 自动"清洗"
107
    }
108

109
    std::size_t size() const { return _size; }
110
    float load_factor() const { return static_cast<float>(_size) / _capacity; }
111
};

线性探测的问题 —— Primary Clustering：

线性探测 (idx + 1) % N 会导致聚集效应——已有元素的区域越来越大，新元素更容易在附近堆积，查找时需要探测更长的序列。

改进方案：

探测策略	公式	特点
线性探测	`(h + i) % N`	最简单，但有 primary clustering
二次探测	`(h + i²) % N`	减少聚集，但可能跳过某些位置
双重哈希	`(h₁ + i * h₂) % N`	最均匀，但计算两个哈希
Robin Hood	线性探测 + “劫富济贫”	方差最小，现代首选

5.3.4 Robin Hood Hashing —— 现代高性能哈希表的首选#

Robin Hood Hashing 基于一个直觉：不应该有元素离自己的”家”太远，而另一些元素紧挨着”家”。当插入新元素时，如果新元素的探测距离 > 当前位置元素的探测距离，就抢占当前位置，把被抢的元素继续往后找位置。

1
// Robin Hood 插入的核心逻辑（概念性伪代码）
2
void robin_hood_insert(Key key, Value value) {
3
    size_t idx = hash(key) % capacity;
4
    size_t dist = 0;  // 当前元素的探测距离
5

6
    while (true) {
7
        if (slots[idx].empty()) {
8
            // 空位：直接放
9
            slots[idx] = {key, value, dist};
10
            return;
11
        }
12

13
        if (dist > slots[idx].probe_distance) {
14
            // "劫富济贫"：新元素离家更远 → 抢占这个位置
15
            std::swap(key, slots[idx].key);
16
            std::swap(value, slots[idx].value);
17
            std::swap(dist, slots[idx].probe_distance);
18
        }
19

20
        idx = (idx + 1) % capacity;
21
        ++dist;
22
    }
23
}

Robin Hood 的优势：

指标	普通线性探测	Robin Hood
最大探测距离	很长的尾部（少数元素极远）	所有元素的距离趋于均匀
查找成功的平均探测	O(1/(1-α))	同，但方差更小
查找失败的代价	可能遍历整个聚集区	可以提前终止（如果探测距离 > 最大可能距离）
缓存友好	✅	✅（仍然是纯数组）

💡 Robin Hood Hashing 被 Rust 的 HashMap（v1.36前）、absl::flat_hash_map（Google）等高性能实现采用。

5.3.5 `std::unordered_map` vs `std::map` —— 面试必考对比#

1
#include <map>
2
#include <unordered_map>
3

4
std::map<std::string, int> ordered_map;          // 红黑树
5
std::unordered_map<std::string, int> hash_map;   // 哈希表

维度	`std::map` (红黑树)	`std::unordered_map` (哈希表)
查找	O(log n)	O(1) 均摊
插入	O(log n)	O(1) 均摊
删除	O(log n)	O(1) 均摊
最坏情况	O(log n)	O(n)（极端冲突）
有序遍历	✅ 自然有序	❌ 无序
范围查询	✅ `lower_bound` / `upper_bound`	❌ 不支持
迭代器稳定性	✅ 插删不影响其他迭代器	❌ rehash 时全部失效
内存	每节点 3 指针 + 颜色 = ~40B	桶指针 + 链表节点 + 负载因子
Key 要求	`operator<`	`std::hash` + `operator==`
缓存友好	❌ 红黑树离散	❌ 链地址法链表离散
适合场景	需要有序、范围查询	只需要精确查找、追求速度

1
// 什么时候用 map？
2
// 1. 需要有序遍历
3
for (auto& [key, value] : ordered_map) {
4
    // key 按字典序遍历 ✅
5
}
6

7
// 2. 需要范围查询
8
auto it_lo = ordered_map.lower_bound("banana");
9
auto it_hi = ordered_map.upper_bound("mango");
10
// 遍历 [banana, mango] 范围内的元素 ✅
11

12
// 3. 什么时候用 unordered_map？
13
// 绝大多数情况！只要不需要有序性和范围查询。
14
hash_map["key"] = 42;       // O(1) 插入
15
if (hash_map.count("key"))  // O(1) 查找

5.3.6 自定义类型做 Key#

面试中经常遇到需要把自定义结构体放进 unordered_map 或 unordered_set：

1
struct Point {
2
    int x, y;
3

4
    // unordered_map 需要 operator==
5
    bool operator==(const Point& o) const {
6
        return x == o.x && y == o.y;
7
    }
8
};
9

10
// 方案一：提供哈希函数对象
11
struct PointHash {
12
    std::size_t operator()(const Point& p) const {
13
        auto h1 = std::hash<int>{}(p.x);
14
        auto h2 = std::hash<int>{}(p.y);
15
        return h1 ^ (h2 * 2654435761ULL + 0x9e3779b9 + (h1 << 6) + (h1 >> 2));
16
    }
17
};
18

19
std::unordered_map<Point, std::string, PointHash> point_map;
20
std::unordered_set<Point, PointHash> point_set;
21

22
// 方案二：特化 std::hash（更优雅）
23
namespace std {
24
    template <>
25
    struct hash<Point> {
26
        std::size_t operator()(const Point& p) const {
27
            auto h1 = hash<int>{}(p.x);
28
            auto h2 = hash<int>{}(p.y);
29
            return h1 ^ (h2 * 2654435761ULL + 0x9e3779b9 + (h1 << 6) + (h1 >> 2));
30
        }
31
    };
32
}
33

34
// 特化后可以直接用，无需传第三个模板参数
35
std::unordered_map<Point, std::string> point_map2;  // ✅

💡 0x9e3779b9 是什么？它是黄金比例 φ = (√5-1)/2 对应的 32 位整数表示。这个”魔法数”能帮助哈希值更均匀地分布，减少冲突。Boost 的 hash_combine 就是这个公式。

5.4 复杂度速查表#

`std::unordered_map` / `std::unordered_set` 操作复杂度#

操作	平均	最坏	说明
`operator[]` / `at`	O(1)	O(n)	哈希 + 桶内遍历
`find`	O(1)	O(n)	同上
`insert`	O(1) 均摊	O(n)	可能触发 rehash
`erase`	O(1)	O(n)	桶内链表删除
`count`	O(1)	O(n)	等价于 `find != end`
`size` / `empty`	O(1)	O(1)	维护内部计数器
`bucket_count`	O(1)	O(1)
`load_factor`	O(1)	O(1)
`reserve`	O(n)	O(n)	触发 rehash
`rehash`	O(n)	O(n)	重新分配所有元素
遍历全部元素	O(n + bucket_count)	同	需要跳过空桶

最坏 O(n) 只在所有元素全部冲突到同一个桶时发生。合理的哈希函数 + 适当的负载因子下，几乎不会出现。

`std::map` / `std::set` 操作复杂度（对比用）#

操作	时间复杂度	说明
`find` / `count`	O(log n)	红黑树查找
`insert`	O(log n)	红黑树插入 + 可能旋转
`erase`	O(log n)	红黑树删除 + 可能旋转
`lower_bound` / `upper_bound`	O(log n)	范围查询
有序遍历	O(n)	中序遍历

横向对比：查找结构大全#

结构	精确查找	范围查询	插入	删除	有序	内存
有序数组	O(log n)	O(log n + k)	O(n)	O(n)	✅	最紧凑
`std::map` (红黑树)	O(log n)	O(log n + k)	O(log n)	O(log n)	✅	高（3 指针/节点）
`std::unordered_map`	O(1)	❌	O(1)*	O(1)	❌	中高
跳表 (Skip List)	O(log n)	O(log n + k)	O(log n)	O(log n)	✅	中
B+ 树	O(log n)	O(log n + k)	O(log n)	O(log n)	✅	最适合磁盘
Trie	O(m)	前缀查询	O(m)	O(m)	✅*	高

* 均摊 O(1)
m = key 长度

5.5 面试高频题#

5.5.1 两数之和 (LeetCode 1) —— 哈希表面试第一题#

给定数组和目标值 target，找出数组中和为 target 的两个数的下标。

这道题是 LeetCode 的开山题，也是哈希表最经典的应用：把”从数组中找配对”从 O(n²) 降到 O(n)。

1
std::vector<int> twoSum(std::vector<int>& nums, int target) {
2
    // key = 数值, value = 下标
3
    std::unordered_map<int, int> seen;
4

5
    for (int i = 0; i < static_cast<int>(nums.size()); ++i) {
6
        int complement = target - nums[i];
7

8
        auto it = seen.find(complement);
9
        if (it != seen.end()) {
10
            return {it->second, i};  // 找到配对
11
        }
12

13
        seen[nums[i]] = i;  // 记录当前数
14
    }
15
    return {};
16
}
17
// 时间 O(n), 空间 O(n)

💡 核心思路：遍历数组的同时，把已遍历的元素存入哈希表。对每个新元素，检查它的”互补数”是否已在哈希表中。一次遍历搞定。

面试追问：

“如果数组已排序？” → 双指针 O(n)，不需要额外空间
“如果要找所有配对？” → 不能提前 return，需要继续遍历
“如果有重复元素？” → 哈希表存 index 就能处理

5.5.2 字母异位词分组 (LeetCode 49)#

把字母异位词（字母相同、顺序不同的单词）分到同一组。如 ["eat","tea","tan","ate","nat","bat"]。

核心洞察：异位词排序后相同。用排序后的字符串做 Key。

1
std::vector<std::vector<std::string>> groupAnagrams(
2
    std::vector<std::string>& strs)
3
{
4
    std::unordered_map<std::string, std::vector<std::string>> groups;
5

6
    for (auto& s : strs) {
7
        std::string key = s;
8
        std::sort(key.begin(), key.end());  // "eat" → "aet"
9
        groups[key].push_back(s);
10
    }
11

12
    std::vector<std::vector<std::string>> result;
13
    for (auto& [key, group] : groups) {
14
        result.push_back(std::move(group));
15
    }
16
    return result;
17
}
18
// 时间 O(n × k log k), k = 最长字符串长度
19
// 空间 O(n × k)

优化方案：用字符频率数组做 Key（避免排序）：

1
// 用 26 个字母的频率作为 key → O(n × k) 替代 O(n × k log k)
2
std::string freq_key(const std::string& s) {
3
    std::array<int, 26> freq{};
4
    for (char c : s) ++freq[c - 'a'];
5

6
    std::string key;
7
    for (int i = 0; i < 26; ++i) {
8
        key += std::to_string(freq[i]) + '#';
9
    }
10
    return key;  // "aet" → "1#0#0#0#1#...#1#0#..."
11
}

5.5.3 最长无重复子串 (LeetCode 3)#

找出字符串中不含重复字符的最长子串的长度。

核心模型：滑动窗口 + 哈希集合。用 unordered_set 记录窗口内的字符。

1
int lengthOfLongestSubstring(const std::string& s) {
2
    std::unordered_set<char> window;
3
    int left = 0, max_len = 0;
4

5
    for (int right = 0; right < static_cast<int>(s.size()); ++right) {
6
        // 收缩窗口直到没有重复
7
        while (window.count(s[right])) {
8
            window.erase(s[left]);
9
            ++left;
10
        }
11

12
        window.insert(s[right]);
13
        max_len = std::max(max_len, right - left + 1);
14
    }
15
    return max_len;
16
}
17
// 时间 O(n), 空间 O(min(n, charset))

更快的方案：用 unordered_map 记录字符最后出现的位置，遇到重复时直接跳转：

1
int lengthOfLongestSubstring_v2(const std::string& s) {
2
    std::unordered_map<char, int> last_pos;  // 字符 → 最后出现的下标
3
    int left = 0, max_len = 0;
4

5
    for (int right = 0; right < static_cast<int>(s.size()); ++right) {
6
        if (last_pos.count(s[right]) && last_pos[s[right]] >= left) {
7
            left = last_pos[s[right]] + 1;  // 直接跳！
8
        }
9
        last_pos[s[right]] = right;
10
        max_len = std::max(max_len, right - left + 1);
11
    }
12
    return max_len;
13
}
14
// 时间 O(n), 空间 O(min(n, charset))
15
// 比 set 版本更快：left 只跳不走

5.5.4 LRU Cache (LeetCode 146) —— 哈希表 + 双链表#

设计一个 LRU（最近最少使用）缓存。支持 get(key) 和 put(key, value)，容量满时淘汰最久未使用的。

这道题在第 2 章（链表）已经详细实现过。这里从哈希表的角度再回顾一下为什么需要哈希表：

1
如果只用双链表：
2
  get(key):  遍历链表找 key → O(n) ❌
3
  put(key):  遍历链表找 key → O(n) ❌
4

5
加上哈希表：
6
  get(key):  hash_map[key] → 定位到链表节点 → O(1) ✅
7
  put(key):  hash_map[key] → 定位或创建节点 → O(1) ✅

数据结构选型的本质：

需求	用什么	为什么
O(1) 精确查找 key	哈希表	key → node 的映射
O(1) 维护访问顺序	双链表	移动节点到头部、删除尾部节点
O(1) 移动链表节点	双链表节点指针	已知指针后，摘除 + 插入都是 O(1)

💡 面试金句：「LRU Cache = HashMap + Doubly Linked List。哈希表负责 O(1) 定位，双链表负责 O(1) 维护使用顺序。这是两种数据结构的经典组合。」

5.5.5 最长连续序列 (LeetCode 128)#

给定未排序的整数数组，找出最长连续元素序列的长度。要求 O(n)。

排序后扫一遍是 O(n log n)。用哈希集合可以做到 O(n)。

1
int longestConsecutive(std::vector<int>& nums) {
2
    std::unordered_set<int> num_set(nums.begin(), nums.end());
3
    int max_len = 0;
4

5
    for (int num : num_set) {
6
        // 关键优化：只从序列起点开始计数
7
        // 如果 num-1 存在，说明 num 不是起点，跳过
8
        if (num_set.count(num - 1)) continue;
9

10
        // num 是某个连续序列的起点
11
        int length = 1;
12
        while (num_set.count(num + length)) {
13
            ++length;
14
        }
15

16
        max_len = std::max(max_len, length);
17
    }
18
    return max_len;
19
}
20
// 时间 O(n)：每个元素最多被访问两次（一次外层循环，一次内层 while）
21
// 空间 O(n)

💡 关键优化：if (num_set.count(num - 1)) continue; 这行是 O(n) 的保证。没有这行，每个元素都可能触发内层 while 循环，复杂度退化为 O(n²)。有了这行，只有序列起点才会进入 while 循环，总计遍历次数 = n。

5.5.6 有效的数独 (LeetCode 36)#

判断一个 9×9 的数独棋盘是否有效。只需验证已填数字没有重复（不需要可解）。

1
bool isValidSudoku(std::vector<std::vector<char>>& board) {
2
    // 每行、每列、每个 3×3 宫各用一个 set
3
    std::array<std::unordered_set<char>, 9> rows, cols, boxes;
4

5
    for (int i = 0; i < 9; ++i) {
6
        for (int j = 0; j < 9; ++j) {
7
            char c = board[i][j];
8
            if (c == '.') continue;
9

10
            int box_idx = (i / 3) * 3 + (j / 3);  // 3×3 宫的编号
11

12
            // 任一集合中已存在 → 无效
13
            if (rows[i].count(c) || cols[j].count(c) || boxes[box_idx].count(c)) {
14
                return false;
15
            }
16

17
            rows[i].insert(c);
18
            cols[j].insert(c);
19
            boxes[box_idx].insert(c);
20
        }
21
    }
22
    return true;
23
}
24
// 时间 O(81) = O(1), 空间 O(81) = O(1)

5.5.7 一致性哈希 (Consistent Hashing) —— 系统设计加分项#

一致性哈希不是 LeetCode 题，但在系统设计面试中极为重要。

问题：分布式缓存有 N 台机器，数据按 hash(key) % N 分配。当一台机器宕掉（N → N-1），几乎所有 key 的映射都变了 → 缓存大规模失效（雪崩）。

一致性哈希的解决方案：

1
传统取模：hash(key) % N
2
  机器 3 台：key → hash → 42 % 3 = 0 (机器 A)
3
  机器 2 台：key → hash → 42 % 2 = 0 (机器 A) ← 碰巧没变
4
  但大部分 key 都会变！
5

6
一致性哈希：把机器和 key 都映射到一个"哈希环"上
7
  → 一台机器挂了，只影响它到下一台机器之间的 key
8
  → 平均只有 1/N 的 key 需要重新映射

1
#include <map>
2
#include <string>
3
#include <functional>
4

5
class ConsistentHash {
6
    // 用 std::map（有序！）存哈希环上的虚拟节点
7
    std::map<std::size_t, std::string> _ring;
8
    int _virtual_nodes;  // 每台机器的虚拟节点数
9

10
public:
11
    ConsistentHash(int virtual_nodes = 150,
12
                   std::vector<std::string> servers = {})
13
        : _virtual_nodes(virtual_nodes)
14
    {
15
        for (auto& srv : servers) add_server(srv);
16
    }
17

18
    void add_server(const std::string& server) {
19
        for (int i = 0; i < _virtual_nodes; ++i) {
20
            std::size_t h = std::hash<std::string>{}(
21
                server + "#" + std::to_string(i));
22
            _ring[h] = server;
23
        }
24
    }
25

26
    void remove_server(const std::string& server) {
27
        for (int i = 0; i < _virtual_nodes; ++i) {
28
            std::size_t h = std::hash<std::string>{}(
29
                server + "#" + std::to_string(i));
30
            _ring.erase(h);
31
        }
32
    }
33

34
    // 给定 key，找到负责它的机器
35
    std::string get_server(const std::string& key) const {
36
        if (_ring.empty()) return "";
37

38
        std::size_t h = std::hash<std::string>{}(key);
39
        // 在环上找到 >= h 的第一个节点
40
        auto it = _ring.lower_bound(h);
41
        if (it == _ring.end()) {
42
            it = _ring.begin();  // 环绕回环首
43
        }
44
        return it->second;
45
    }
46
};

💡 虚拟节点的作用：如果每台机器只在环上占一个位置，数据分布可能极不均匀。用 150 个虚拟节点（virtual nodes）可以让数据分布趋于均匀。

5.5.8 面试题速查表#

题号	题目	核心技巧	难度
LC 1	两数之和	哈希表记录互补数	Easy
LC 49	字母异位词分组	排序/频率做 key	Medium
LC 3	最长无重复子串	滑动窗口 + 哈希集合	Medium
LC 146	LRU Cache	哈希表 + 双链表	Medium
LC 128	最长连续序列	哈希集合 + 起点优化	Medium
LC 36	有效的数独	三组哈希集合	Medium
LC 242	有效的字母异位词	频率数组或哈希	Easy
LC 383	赎金信	频率数组	Easy
LC 202	快乐数	哈希集合检测循环	Easy
LC 205	同构字符串	双映射哈希	Easy
LC 290	单词规律	双映射哈希	Easy
LC 349	两个数组的交集	哈希集合	Easy
LC 454	四数相加 II	分组哈希	Medium
LC 560	和为 K 的子数组	前缀和 + 哈希	Medium
LC 438	找所有字母异位词	滑动窗口 + 频率	Medium

5.6 🎮 实战场景#

5.6.1 资源管理器 (Resource Manager)#

游戏引擎中最核心的管理器之一。所有资源（纹理、模型、音效、Shader）通过路径字符串索引，底层就是一个大号哈希表：

1
#include <unordered_map>
2
#include <memory>
3
#include <string>
4
#include <functional>
5
#include <iostream>
6

7
// 资源基类
8
class Resource {
9
public:
10
    virtual ~Resource() = default;
11
    virtual std::size_t memory_size() const = 0;
12
    virtual const std::string& type_name() const = 0;
13
};
14

15
// 具体资源类型
16
class Texture : public Resource {
17
    int _width, _height;
18
    std::vector<uint8_t> _pixels;
19

20
public:
21
    Texture(int w, int h) : _width(w), _height(h), _pixels(w * h * 4) {}
22
    std::size_t memory_size() const override { return _pixels.size(); }
23
    const std::string& type_name() const override {
24
        static std::string name = "Texture";
25
        return name;
26
    }
27
};
28

29
class AudioClip : public Resource {
30
    std::vector<float> _samples;
31

32
public:
33
    AudioClip(std::size_t sample_count) : _samples(sample_count) {}
34
    std::size_t memory_size() const override { return _samples.size() * sizeof(float); }
35
    const std::string& type_name() const override {
36
        static std::string name = "AudioClip";
37
        return name;
38
    }
39
};
40

41
// ===== 资源管理器 =====
42
class ResourceManager {
43
    // 核心：路径 → 资源的哈希表
44
    std::unordered_map<std::string, std::shared_ptr<Resource>> _cache;
45

46
    // 资源加载工厂（按扩展名分发）
47
    using LoaderFunc = std::function<std::shared_ptr<Resource>(const std::string&)>;
48
    std::unordered_map<std::string, LoaderFunc> _loaders;
49

50
public:
51
    // 注册加载器
52
    void register_loader(const std::string& extension, LoaderFunc loader) {
53
        _loaders[extension] = std::move(loader);
54
    }
55

56
    // 获取资源（懒加载 + 缓存）
57
    template <typename T>
58
    std::shared_ptr<T> get(const std::string& path) {
59
        // 1. 缓存命中 → O(1) 返回
60
        auto it = _cache.find(path);
61
        if (it != _cache.end()) {
62
            return std::dynamic_pointer_cast<T>(it->second);
63
        }
64

65
        // 2. 缓存未命中 → 加载并缓存
66
        std::string ext = path.substr(path.rfind('.'));
67
        auto loader_it = _loaders.find(ext);
68
        if (loader_it == _loaders.end()) {
69
            return nullptr;  // 不支持的格式
70
        }
71

72
        auto resource = loader_it->second(path);
73
        _cache[path] = resource;  // 缓存
74
        return std::dynamic_pointer_cast<T>(resource);
75
    }
76

77
    // 卸载指定资源
78
    void unload(const std::string& path) {
79
        _cache.erase(path);
80
    }
81

82
    // 卸载所有无引用的资源
83
    void gc() {
84
        for (auto it = _cache.begin(); it != _cache.end(); ) {
85
            if (it->second.use_count() == 1) {  // 只有 cache 持有引用
86
                it = _cache.erase(it);
87
            } else {
88
                ++it;
89
            }
90
        }
91
    }
92

93
    // 预加载（提前 reserve 减少 rehash）
94
    void preload(const std::vector<std::string>& paths) {
95
        _cache.reserve(_cache.size() + paths.size());
96
        for (auto& path : paths) {
97
            get<Resource>(path);  // 触发加载
98
        }
99
    }
100

101
    std::size_t cached_count() const { return _cache.size(); }
102

103
    std::size_t total_memory() const {
104
        std::size_t total = 0;
105
        for (auto& [path, res] : _cache) {
106
            total += res->memory_size();
107
        }
108
        return total;
109
    }
110
};

为什么用 unordered_map 而不是 map？

资源路径查找只需要精确匹配，不需要有序或范围查询
每帧可能有成百上千次资源查找（绘制每个物体都要查材质、纹理）
O(1) vs O(log n) 在高频调用下差距显著

5.6.2 Entity ID 映射 (Entity Registry)#

ECS（实体组件系统）架构中，每个实体有一个唯一 ID，需要 O(1) 根据 ID 查找实体信息：

1
#include <unordered_map>
2
#include <cstdint>
3

4
using EntityID = uint32_t;
5

6
struct Transform {
7
    float x, y, z;
8
    float rotation;
9
    float scale;
10
};
11

12
struct Sprite {
13
    uint32_t texture_id;
14
    int layer;
15
    float width, height;
16
};
17

18
struct Health {
19
    float current;
20
    float max;
21
    bool is_dead() const { return current <= 0; }
22
};
23

24
// 简化版 ECS：每种组件一个哈希表
25
class EntityRegistry {
26
    EntityID _next_id = 0;
27

28
    // 每种组件类型对应一个 EntityID → Component 的映射
29
    std::unordered_map<EntityID, Transform> _transforms;
30
    std::unordered_map<EntityID, Sprite>    _sprites;
31
    std::unordered_map<EntityID, Health>    _healths;
32

33
public:
34
    EntityID create() { return _next_id++; }
35

36
    void destroy(EntityID id) {
37
        _transforms.erase(id);
38
        _sprites.erase(id);
39
        _healths.erase(id);
40
    }
41

42
    // 添加组件
43
    void add_transform(EntityID id, Transform t) { _transforms[id] = t; }
44
    void add_sprite(EntityID id, Sprite s)       { _sprites[id] = s; }
45
    void add_health(EntityID id, Health h)        { _healths[id] = h; }
46

47
    // 查询组件——O(1)
48
    Transform* get_transform(EntityID id) {
49
        auto it = _transforms.find(id);
50
        return it != _transforms.end() ? &it->second : nullptr;
51
    }
52

53
    Health* get_health(EntityID id) {
54
        auto it = _healths.find(id);
55
        return it != _healths.end() ? &it->second : nullptr;
56
    }
57

58
    // 批量更新示例：移动所有有 Transform 的实体
59
    void update_movement(float dt) {
60
        for (auto& [id, transform] : _transforms) {
61
            // 只更新活着的实体
62
            if (auto* hp = get_health(id); hp && hp->is_dead()) continue;
63
            // transform.x += velocity.x * dt; ...
64
        }
65
    }
66
};

5.6.3 技能/Buff 冷却表 (Cooldown Manager)#

1
#include <unordered_map>
2
#include <string>
3

4
class CooldownManager {
5
    // key = 技能ID, value = 剩余冷却时间
6
    std::unordered_map<std::string, float> _cooldowns;
7

8
public:
9
    // 使用技能：设置冷却
10
    void use_skill(const std::string& skill_id, float cooldown_time) {
11
        _cooldowns[skill_id] = cooldown_time;
12
    }
13

14
    // 技能是否可用？——O(1) 查询
15
    bool is_ready(const std::string& skill_id) const {
16
        auto it = _cooldowns.find(skill_id);
17
        return it == _cooldowns.end() || it->second <= 0;
18
    }
19

20
    // 获取剩余冷却时间
21
    float remaining(const std::string& skill_id) const {
22
        auto it = _cooldowns.find(skill_id);
23
        return (it != _cooldowns.end()) ? std::max(0.0f, it->second) : 0.0f;
24
    }
25

26
    // 每帧更新所有冷却
27
    void update(float dt) {
28
        for (auto it = _cooldowns.begin(); it != _cooldowns.end(); ) {
29
            it->second -= dt;
30
            if (it->second <= 0) {
31
                it = _cooldowns.erase(it);  // 冷却完毕，移除
32
            } else {
33
                ++it;
34
            }
35
        }
36
    }
37
};

5.6.4 Spatial Hashing —— 碰撞检测优化#

朴素的碰撞检测是 O(n²)（每对实体都检查一次）。Spatial Hashing 把空间划分成网格，每个网格用哈希表索引，只检查同一网格内的实体——将碰撞检测从 O(n²) 降到接近 O(n)。

1
#include <unordered_map>
2
#include <vector>
3
#include <cmath>
4
#include <cstdint>
5

6
struct AABB {
7
    float x, y;  // 中心
8
    float w, h;  // 宽高
9
};
10

11
class SpatialHash {
12
    float _cell_size;
13

14
    // key = 网格坐标 (编码为 int64), value = 该网格内的实体 ID 列表
15
    std::unordered_map<int64_t, std::vector<uint32_t>> _grid;
16

17
    // 将 (gx, gy) 编码为单个 int64 key
18
    int64_t _encode(int gx, int gy) const {
19
        return (static_cast<int64_t>(gx) << 32) | static_cast<uint32_t>(gy);
20
    }
21

22
    // 世界坐标 → 网格坐标
23
    int _to_grid(float coord) const {
24
        return static_cast<int>(std::floor(coord / _cell_size));
25
    }
26

27
public:
28
    SpatialHash(float cell_size = 64.0f) : _cell_size(cell_size) {}
29

30
    // 每帧重建（清空 → 全部重新插入）
31
    void clear() { _grid.clear(); }
32

33
    // 插入实体的 AABB
34
    void insert(uint32_t entity_id, const AABB& aabb) {
35
        // 计算 AABB 覆盖的所有网格
36
        int min_gx = _to_grid(aabb.x - aabb.w / 2);
37
        int max_gx = _to_grid(aabb.x + aabb.w / 2);
38
        int min_gy = _to_grid(aabb.y - aabb.h / 2);
39
        int max_gy = _to_grid(aabb.y + aabb.h / 2);
40

41
        for (int gx = min_gx; gx <= max_gx; ++gx) {
42
            for (int gy = min_gy; gy <= max_gy; ++gy) {
43
                _grid[_encode(gx, gy)].push_back(entity_id);
44
            }
45
        }
46
    }
47

48
    // 查询与给定 AABB 可能碰撞的实体
49
    std::vector<uint32_t> query(const AABB& aabb) const {
50
        std::vector<uint32_t> candidates;
51

52
        int min_gx = _to_grid(aabb.x - aabb.w / 2);
53
        int max_gx = _to_grid(aabb.x + aabb.w / 2);
54
        int min_gy = _to_grid(aabb.y - aabb.h / 2);
55
        int max_gy = _to_grid(aabb.y + aabb.h / 2);
56

57
        for (int gx = min_gx; gx <= max_gx; ++gx) {
58
            for (int gy = min_gy; gy <= max_gy; ++gy) {
59
                auto it = _grid.find(_encode(gx, gy));
60
                if (it != _grid.end()) {
61
                    candidates.insert(candidates.end(),
62
                                     it->second.begin(),
63
                                     it->second.end());
64
                }
65
            }
66
        }
67

68
        // 去重（同一实体可能跨多个网格）
69
        std::sort(candidates.begin(), candidates.end());
70
        candidates.erase(std::unique(candidates.begin(), candidates.end()),
71
                        candidates.end());
72

73
        return candidates;
74
    }
75
};

碰撞检测流程：

1
SpatialHash spatial(64.0f);  // 网格大小 64 像素
2

3
// 每帧：
4
spatial.clear();
5

6
// 1. 所有实体插入空间哈希
7
for (auto& [id, aabb] : entities) {
8
    spatial.insert(id, aabb);
9
}
10

11
// 2. 对每个实体，只检查同一网格中的候选者
12
for (auto& [id, aabb] : entities) {
13
    auto candidates = spatial.query(aabb);
14
    for (uint32_t other_id : candidates) {
15
        if (other_id <= id) continue;  // 避免重复检查
16
        if (aabb_overlap(aabb, entities[other_id])) {
17
            handle_collision(id, other_id);
18
        }
19
    }
20
}

💡 网格大小的选择：cell_size 应约等于最大实体的尺寸。太小 → 大实体跨太多网格，插入开销大。太大 → 同一格内实体太多，失去过滤效果。

5.6.5 配置表热加载 (Hot Reload)#

开发阶段常需要不重启游戏就更新配置。哈希表是天然的热加载载体：

1
#include <unordered_map>
2
#include <string>
3
#include <fstream>
4
#include <sstream>
5
#include <filesystem>
6

7
class ConfigTable {
8
    struct ConfigEntry {
9
        std::unordered_map<std::string, std::string> fields;
10

11
        int get_int(const std::string& key, int default_val = 0) const {
12
            auto it = fields.find(key);
13
            return it != fields.end() ? std::stoi(it->second) : default_val;
14
        }
15

16
        float get_float(const std::string& key, float default_val = 0.0f) const {
17
            auto it = fields.find(key);
18
            return it != fields.end() ? std::stof(it->second) : default_val;
19
        }
20

21
        const std::string& get_string(const std::string& key) const {
22
            static std::string empty;
23
            auto it = fields.find(key);
24
            return it != fields.end() ? it->second : empty;
25
        }
26
    };
27

28
    std::unordered_map<std::string, ConfigEntry> _entries;  // ID → 配置项
29
    std::string _file_path;
30
    std::filesystem::file_time_type _last_modified;
31

32
public:
33
    void load(const std::string& path) {
34
        _file_path = path;
35
        _last_modified = std::filesystem::last_write_time(path);
36
        _entries.clear();
37
        _parse_csv(path);
38
    }
39

40
    // 每帧检查文件是否被修改
41
    bool check_and_reload() {
42
        auto current_time = std::filesystem::last_write_time(_file_path);
43
        if (current_time != _last_modified) {
44
            load(_file_path);  // 文件变了，重新加载
45
            return true;
46
        }
47
        return false;
48
    }
49

50
    const ConfigEntry* get(const std::string& id) const {
51
        auto it = _entries.find(id);
52
        return it != _entries.end() ? &it->second : nullptr;
53
    }
54

55
private:
56
    void _parse_csv(const std::string& path) {
57
        // 简化的 CSV 解析...
58
        // 第一行是 header（字段名），后续每行是一条记录
59
        // 第一列作为 ID（哈希表的 key）
60
    }
61
};

5.6.6 数据库索引概念 —— Hash Index vs B+ Tree Index#

维度	Hash Index	B+ Tree Index
精确查找	O(1)	O(log n)
范围查询	❌	✅ `WHERE price BETWEEN 10 AND 50`
排序	❌	✅ `ORDER BY` 利用索引
前缀匹配	❌	✅ `WHERE name LIKE 'John%'`
等值连接	✅	✅
内存效率	中	高（叶子节点连续）
代表	MySQL Memory 引擎、Redis	MySQL InnoDB（默认）

💡 为什么 MySQL 默认用 B+ Tree 而不是 Hash？ 因为实际业务中范围查询（如分页、时间范围、价格区间）极为常见，Hash Index 完全不支持。B+ Tree 虽然单次查找慢一点（O(log n) vs O(1)），但支持所有查询模式，是更通用的选择。

5.7 本章小结#

核心要点#

概念	要点
哈希函数	Key → 整数，要求确定性、均匀性、高效性
冲突解决	链地址法（STL 默认）vs 开放寻址法（高性能）
`unordered_map`	桶数组 + 链表，均摊 O(1)，rehash 时 O(n)
负载因子	`size / bucket_count`，达到 `max_load_factor` 时触发 rehash
`reserve`	预分配桶数避免多次 rehash，和 `vector::reserve` 同理
Robin Hood	现代开放寻址首选，“劫富济贫”使探测距离均匀
map vs unordered_map	精确查找用 unordered_map；范围/有序用 map
自定义 Key	需要 `operator==` + `std::hash` 特化或自定义哈希函数

面试 30 秒速答#

Q：哈希表的原理？时间复杂度？
A：哈希表通过哈希函数将 Key 映射到数组下标，实现均摊 O(1) 的增删查。当多个 Key 映射到同一位置（哈希冲突），用链地址法（桶挂链表）或开放寻址法（数组内探测）解决。最坏情况 O(n)（全部冲突），但合理的哈希函数下几乎不会发生。

Q：什么是 rehash？什么时候触发？
A：当负载因子（元素数 / 桶数）超过阈值（默认 1.0）时，哈希表会重新分配更大的桶数组，把所有元素重新映射。单次 rehash 是 O(n)，但均摊下来每次插入仍是 O(1)。可以用 reserve() 预分配来避免多次 rehash。

Q：unordered_map 和 map 怎么选？
A：绝大多数场景用 unordered_map（O(1) 查找）。只有在需要有序遍历或范围查询（lower_bound / upper_bound）时才用 map（O(log n)，但有序）。map 底层是红黑树，unordered_map 底层是哈希表。

Q：如何把自定义类型放进 unordered_map？
A：需要两样东西：operator==（判断 Key 相等）和哈希函数（可以是独立的函数对象，也可以特化 std::hash）。哈希函数推荐用 Boost 的 hash_combine 模式组合各字段的哈希值。

📖 下一章：第六章树：层级世界的骨架 —— 从二叉树遍历到 AVL 旋转，从红黑树到堆排序，再到游戏引擎中的场景树、骨骼动画与定时器管理。

音乐

音乐

第五章 哈希表：空间换时间的极致

第五章 哈希表 (Hash Table)#