ConcurrentHashMap 面试八股 vs 生产环境踩坑实录

叙事框架：面试题 → 标准答案验证 → 三个翻车现场 → 边界分析 → 升级版答案

上篇讲了线程池参数面试和生产场景的落差，这篇我们来看另一道高频面试题——ConcurrentHashMap。线程安全？标准答案背得滚瓜烂熟，但组合操作照样翻车。

面试题：ConcurrentHashMap 为什么线程安全？

Q：ConcurrentHashMap 和 HashMap 有什么区别？为什么 ConcurrentHashMap 线程安全？

这道题几乎每次 Java 面试都会出现，标准答案也高度统一：

JDK 7：分段锁（Segment 数组继承 ReentrantLock），默认 16 个 Segment，锁粒度粗 JDK 8+：CAS + synchronized 锁单个 bin（链表/红黑树头节点），锁粒度降到数组元素级

面试官听到 JDK 7 vs JDK 8 的差异，一般就满意了。这道题从《Java 并发编程实战》到各大公司的面试题库，答案几乎一字不差。

标准答案的隐含假设

但如果你把标准答案拆开看，它隐含了三个假设：

你只用单操作——只 put 一个 key、只 get 一个 key、只 remove 一个 key
你来决定 JDK 版本——JDK 8+ 默认，JDK 7 是历史
你只关心容器本身——不关心调用方怎么编排这些操作

三个假设在面试中都被认为是"理所当然"的。直到生产环境把它们一个个击穿。

生产事故：线程安全容器也翻车

事故一："卖了 5 件，只扣了 3 件"

陈姐维护的库存服务，核心逻辑只有两行：

标准答案写法：get + put 组合操作

int stock = cache.get(key);
cache.put(key, stock - 1);

100 个线程同时扣库存。上线第一周正常——并发量低。第二周大促流量进来，库存对不上了：账面显示还有 3 件，实际卖了 5 件。

生产日志：两个线程读到相同值，覆盖写入

这不是 ConcurrentHashMap 线程不安全——是 get 和 put 各自线程安全，但它们之间没有原子性。两个线程同时读到 stock = 3，各自减 1 写回 2——卖了两件，只扣了一件。两个 get() 之间没有 happens-before 关系，所以读到了相同值。

面试的标准答案是对的："put 和 get 是线程安全的。"——但你的业务代码不是 map.put(key, value)，你的代码是 map.put(key, map.get(key) - 1)。

事故二：CPU 100%，所有线程卡在 get() 上

如果事故一还算温和（数据错但服务还在跑），事故二是直接宕机。

某网关服务，JDK 7，上线一个月没出过问题。某天 CPU 突然 100%，jstack 显示所有线程全部停在 ConcurrentHashMap.get() 上。

jstack 输出：所有线程全部停在 ConcurrentHashMap.get()，状态 RUNNABLE

排查发现：服务需要定期刷新缓存，大量并发 put 触发了 ConcurrentHashMap 的 resize。JDK 7 的 resize 使用头插法迁移——多线程同时 resize，链表形成环，get() 遍历这个环永远停不下来。

JDK 8+ 换用了 ForwardingNode 做无锁迁移，不存在此问题。但问题在于：你的依赖 jar 可能还在用 JDK 7 编译的版本。Gateway 本身是 JDK 8，但引入的某个中间件客户端依赖了 JDK 7 版本的 ConcurrentHashMap 用法。

面试的标准答案也没错——JDK 8+ 确实没有这个问题。但它没告诉你：你的依赖可能悄悄拖着一个 JDK 7。

事故三：批量写入后 size 对不上

第三个事故最隐蔽——数据没丢、服务没挂，但报表对不上。

批处理任务批量写入 20 万条数据，写入完成后读 size()：

cache.putAll(batch);
log.info("写入完成，总数：{}", cache.size());  // 输出：156,842

期望 200,000，实际 156,842。差了 43,158 条。

不是 bug——size() 在 JDK 8 中使用 CounterCell[] + baseCount 做近似计数。高并发写入时，size() 返回的是"能快速拿到的最新近似值"，不是"精确的事务计数"。但业务方把它当精确值用了，下游系统按这个数做结算，差了 4 万多。

监控面板：size() 返回值与实际写入数的差距

面试的标准答案继续成立——"ConcurrentHashMap 线程安全"。但"线程安全"不意味着 size() 是实时精确的。

为什么标准答案不够？

标准答案对在哪

✅ 单操作原子性：put(k, v)、get(k)、remove(k) 各自是线程安全的——面试说的这个，完全正确
✅ 弱一致性迭代：迭代器不抛 ConcurrentModificationException——对，面试说的也正确
✅ JDK 8 的演进方向对：从 Segment 到 CAS + synchronized，粒度更细、并发度更高——正确

标准答案漏了哪

漏了什么	面试场景	生产场景
组合操作	只问单操作是否安全	业务代码全是组合：get+put、containsKey+put、putAll
版本差异	默认 JDK 8	依赖 jar 可能用 JDK 7 编译，间接拖入旧版本
size() 语义	"size 返回元素数量"	近似计数，高并发下不准
修复手段	不讨论	compute / putIfAbsent / mappingCount / 外部锁

ConcurrentHashMap 安全性的三层边界

安全级别 1：单操作原子性 ✅  ← 面试只问到这
  put(k, v) / get(k) / remove(k) 各自线程安全

安全级别 2：弱一致性迭代 ✅  ← 面试偶尔问到
  迭代器不抛 ConcurrentModificationException
  但不保证看到全部最新写入

安全级别 3：组合操作原子性 ❌  ← 生产踩坑全在这
  get + put、containsKey + put、putAll、size()
  需要外部同步或使用 compute() / merge()

面试升级版答案

第一层：基础答案（及格线）

ConcurrentHashMap 用 CAS + synchronized 保证线程安全。JDK 7 用分段锁，JDK 8+ 锁粒度降到 bin 级别。

大多数候选人到此为止。能答出 JDK 版本差异的，算合格。

第二层：推导+边界（拉开差距）

"但'线程安全'只保证单操作的原子性。组合操作（get+put、containsKey+put）没有跨操作保证。一个线程 put 完另一个线程 get 能读到——但一个线程 get 然后 put，这两个操作之间的窗口另一个线程也能进来。

真正的安全边界面试不会考：三层——单操作 ✅、弱一致性迭代 ✅、组合操作 ❌。"

这一步把"背结论"变成了"讲边界"。面试官会意识到你不只是刷了八股。

第三层：生产案例（面试加分项）

结合真实案例讲：

"我之前维护过一个库存服务，用 ConcurrentHashMap 做缓存，也是标准的 get + put 扣库存——上线前压测正常，大促流量进来库存对不上。排查发现是 read-modify-write 丢失更新。

修复方案：把裸 put 改成 compute() 或 merge()，保证 read 和 write 的原子性。同时补充了 JDK 版本检查——某个依赖 jar 的 ConcurrentHashMap 用法从 JDK 7 编译过来的，修改了依赖版本才解决。"

同步展示三个事故的修复方案对比：

面试写法 vs 生产修复方案对照

第四层：监控验证（真正的高阶）

面试官可能追问："修复完你就放心了？"

"不放心。加了三道防线： 1. 代码审查：grep 检查 ConcurrentHashMap.*\.get(.*put 模式——所有 RMW 都要改成 compute 2. JDK 版本审计：mvn dependency:tree 检查所有传递依赖的 JDK 版本 3. 数据校验：重要业务加对账——ConcurrentHashMap 的 size 不用来做业务判断，用 mappingCount 做参考"

生产中这么用

安全操作速查

场景	❌ 面试八股写法	✅ 生产正确用法
原子增减	`map.put(k, map.get(k) + 1)`	`map.compute(k, (k,v) -> v==null ? 1 : v+1)`
不存在时写入	`if (!map.containsKey(k)) map.put(k, v)`	`map.putIfAbsent(k, v)`
批量写入后计数	`map.putAll(batch); map.size()`	`map.putAll(batch); long n = map.mappingCount()`
遍历时删除	`for (Entry e: map.entrySet()) map.remove(...)`	`map.forEach(2, (k,v) -> { map.remove(k); })`

⚠ compute 内抛异常会删除该 key——短操作用 compute，长业务用外部锁。

grep 检查你的项目

# 检查 read-modify-write 模式（最常翻车）
grep -rn "ConcurrentHashMap.*\.get(" src/ | grep -E "put|remove"

# 检查裸 check-then-act
grep -rn "containsKey.*ConcurrentHashMap" src/

# 检查传递依赖的 JDK 版本
mvn dependency:tree | grep "concurrent"

# 检查 size() 做业务判断
grep -rn "ConcurrentHashMap.*\.size()" src/ | grep -v "log\|print"

"面试题的标准答案只是地图——只有到生产里走一次，才知道地图漏了哪条路。"

下篇我们聊强/软/弱/虚引用——面试全能背，生产 OOM 还是不会查。