K8s工程化：K8s中的Java应用出现OOM后怎么办？

Mon, 26 Feb 2024 00:00:00 +0000

完整代码在文末

背景

前段时间，线上系统出现了两次持续时间比较长的事故。这两次事故暴露我在某些方面的不足。同时，也意识到在SRE这个领域，经验的重要性。

事故过程中，我们发现大量的FullGC。当时，我们想到了要dump内存出来分析，可惜发现没有加-XX:HeapDumpPath参数。同时，我们也发现，如果dump出来了，我们也没法拿到dump出来的文件。因为我们的应用是跑在K8s中的。

方案调研

经复盘，我们得到一个action：在Java应用出现OOM时，将内存dump出来，并持久化，并且方便分析。

这个action可以细分为两个任务：

OOM时，dump内存出来；
提供一种途径方便分析。

经过权衡，任务2的优先级是可以降低的。puvad只要把任务1做好就可以。所以，这两个任务最终变成：在Java应用出现OOM时，将内存dump到NAS中。

笔者在网上搜索一通，看到的方案基本就是启动一个sidecar容器，与应用共享一个目录。然后监控这个目录，发现内容就上传到s3这类对象存储中。

这种方案的问题在于：

sidecar在传输过程，有出现问题的风险；
为了OOM这个小概率事件启动一个sidecar，资源有点浪费。

个人觉得，Java应用的Pod应该只负责将OOM时的内存dump到NAS即可，其它事情应该由其它Pod完成。

具体实现

以下方案是基于Helm自动化部署。如果你使用的是其它自动化部署工具，思路大体相同。

准备NFS服务

这部分不是本文范畴。

Java应用启动时参数配置

在Dockerfile中必须将变量$JAVA_OPTS加入到启动参数中。

FROM openjdk:11.0.12-jre-buster
COPY target/app.jar /app.jar
CMD java -jar $JAVA_OPTS /app.jar

加入InitContainers

作用：创建符合指定规则的Dump目录（注意DUMP_FOLDER变量的定义）。如下代码，在init容器启动后，它会创建目录：/nfs/dump/default/jvm-oom-example/10.233.66.38 。在应用出现OOM，内存文件会被dump在此目录下。

initContainers:
- name: init
  image: registry.cn-shenzhen.aliyuncs.com/aliacs-app-catalog/busybox:1.30.1
  command: ['sh', '-c', 'echo $DUMP_FOLDER;mkdir -p $DUMP_FOLDER']
  {{- with .Values.volumeMounts }}
  volumeMounts:
  {{- toYaml . | nindent 12 }}
  {{- end }}
  env:
  - name: MY_NODE_NAME
      valueFrom:
      fieldRef:
          fieldPath: spec.nodeName
  - name: MY_POD_NAME
      valueFrom:
      fieldRef:
          fieldPath: metadata.name
  - name: MY_POD_NAMESPACE
      valueFrom:
      fieldRef:
          fieldPath: metadata.namespace
  - name: MY_POD_IP
      valueFrom:
      fieldRef:
          fieldPath: status.podIP
  - name: DUMP_FOLDER
      value: "/nfs/dump/$(MY_POD_NAMESPACE)/{{ include "app.fullname" . }}/$(MY_POD_IP)"

配置应用容器

我们要做的，其实就是设置JAVA_OPTS环境变量。这里要注意的是JAVA_OPTS可以由三部分组成的：

Kubernetes包管理器Helm的本质

Mon, 26 Feb 2024 00:00:00 +0000

了解Helm的本质后，学习其它工具就很容易了

SRE-DevOps不得不懂的：Prometheus的配置工程化

Mon, 26 Feb 2024 00:00:00 +0000

优雅地管理Prometheus的配置

云原生部署之Helm最佳实践

Mon, 26 Feb 2024 00:00:00 +0000

Helm部署实践总结

可落地的云原生应用规范

Mon, 26 Feb 2024 00:00:00 +0000

这个规范可以让你的云原生实践更顺畅

云原生 on 翟志军 Jack Zhai

K8s工程化：K8s中的Java应用出现OOM后怎么办？

背景

方案调研

具体实现

准备NFS服务

Java应用启动时参数配置

加入InitContainers

配置应用容器

Kubernetes包管理器Helm的本质

SRE-DevOps不得不懂的：Prometheus的配置工程化

云原生部署之Helm最佳实践

可落地的云原生应用规范