本文档内容基于 flink-1.13.x,其他版本的整理,请查看本人博客的 flink 专栏其他文章。
该章描述如何原生地部署 flink 到 Kubernetes 上。
该入门指南章节会指导你在 Kubernetes 上安装一个完成功能的 flink 集群。
Kubernetes 是一个受欢迎的容器管理系统,它可以自动完成应用程序部署,扩容和管理。flink 的原生 Kubernetes 整合允许你直接将 flink 部署到一个正在运行的 Kubernetes 集群上。另外,取决于请求的资源,flink 也可以动态分配和清理 TaskManager,因为 flink 可以直接和 Kubernetes 对话。
入门指南章节驾驶已经运行的 Kubernetes 就能已经满足了以下要求:
~/.kube/config 配置的可以列出、创建、删除 pod 和服务的 KubeConfig,可以通过运行 kubectl auth can-i pods
命令来校验权限。如果有部署Kubernetes 集群的疑问,可以参考 如何部署 Kubernetes 集群。
一旦你有了一个正在运行的Kubernetes 集群,并且配置了 kubectl 来指向它,你就可以通过一下方式来启动一个 Session 模式 的 flink 集群:
# (1) 启动 Kubernetes 会话
$ ./bin/kubernetes-session.sh -Dkubernetes.cluster-id=my-first-flink-cluster# (2) 提交 flink 案例 job
$ ./bin/flink run \--target kubernetes-session \-Dkubernetes.cluster-id=my-first-flink-cluster \./examples/streaming/TopSpeedWindowing.jar# (3) 通过删除集群部署来停止 Kubernetes 会话
$ kubectl delete deployment/my-first-flink-cluster
在使用 Minikube 时,你需要调用
minikube tunnel以在Minikube 上暴露 Flink 的负载平衡服务
恭喜!你已经成功地通过在 Kubernetes 上部署 flink 来运行 flink 程序了。
对于生产案例,我们建议使用 Application 模式 来部署 flink 程序,该模式对程序提供了很好的隔离性。
请参考 部署模式概述 来获取 application 模式更高级的相关知识。
Application 模式 要求用户代码已经和 flink 镜像捆绑到一起了,因为该模式会在集群上运行用户代码的 main() 方法,application 模式会在程序终止后确保清除所有的 flink 组件。
flink 社区提供了一个可以被用于捆绑用户代码的 基础 Docker 镜像。
FROM flink
RUN mkdir -p $FLINK_HOME/usrlib
COPY /path/of/my-flink-job.jar $FLINK_HOME/usrlib/my-flink-job.jar
在使用**自定义镜像名称 custom-image-name **创建和发布了 Docker 镜像之后,你就可以通过如下命令来启动一个 application 集群了:
$ ./bin/flink run-application \--target kubernetes-application \-Dkubernetes.cluster-id=my-first-application-cluster \-Dkubernetes.container.image=custom-image-name \local:///opt/flink/usrlib/my-flink-job.jar
注:local 只支持 Application 模式 schema。
kubernetes.cluster-id 选项用来指定集群名称,并且是必选项。如果没有指定该选项,则 Flink 会生成一个随机名称。
kubernetes.container.image 选项指定启动 pod 的镜像。
application 集群一旦部署完毕,你就可以与它互动了:
# 列出集群上运行的 job
$ ./bin/flink list --target kubernetes-application -Dkubernetes.cluster-id=my-first-application-cluster
# 取消运行的 job
$ ./bin/flink cancel --target kubernetes-application -Dkubernetes.cluster-id=my-first-application-cluster
你可以通过在 bin/flink 后设置 -Dkey=value 格式的 key-value 对来覆盖 conf/flink-conf.yaml 中的配置。
请参考 部署模式概述 来获取 application 模式更高级的相关知识。
Flink on Kubernetes 不支持 Per-Job 集群模式。
请参考 部署模式概述 来获取 application 模式更高级的相关知识。
已经在上面的入门指南章节中描述了如何部署一个 Session 集群了。
Session 模式可以通过两种模式执行:
kubernetes-session.sh 脚本会在 Kubernetes 上部署 flink 集群,然后终止本地客户端。-Dexecution.attached=true):kubernetes-session.sh 本地客户端会保持运行,并且允许使用命令来控制运行的 flink 集群。比如通过 stop 命令来停止正在运行的 Session 集群,通过 help 命令来列出所有支持的命令。可以通过如下命令来重新附加正在运行的 Session 集群到 my-first-flink-cluster 集群 id 上:
$ ./bin/kubernetes-session.sh \-Dkubernetes.cluster-id=my-first-flink-cluster \-Dexecution.attached=true
你可以通过在运行 bin/kubernetes-session.sh 脚本时添加 -Dkey=value 格式的 key-value 对来覆盖 conf/flink-conf.yaml 文件中的配置。
你可以通过删除 Flink 部署 或使用如下命令来停止 cluster id 为 my-first-flink-cluster 的 Session 集群:
$ echo 'stop' | ./bin/kubernetes-session.sh \-Dkubernetes.cluster-id=my-first-flink-cluster \-Dexecution.attached=true
可以在配置页面 找到 Kubernetes 相关配置选项。
flink 通过 Fabric8 Kubernetes client 和 Kubernetes APIServer进行交互,以 创建/删除 Kubernetes 资源,比如:部署、Pod、ConfigMap、Service 等,同时也包括查看 Pod 和 ConfigMap。除了上面提到的 flink 配置选项,也可以通过系统属性或环境变量配置的专家选项来配置 Fabric8 Kubernetes 客户端。
比如,用户可以通过下面的 Flink 配置选项来设置最大的并发请求数,该配置允许 Kubernetes HA 服务在 session 集群上运行更多的 job。请注意,每个 Flink job 将会消耗 3 个并发请求。
containerized.master.env.KUBERNETES_MAX_CONCURRENT_REQUESTS: 200
env.java.opts.jobmanager: "-Dkubernetes.max.concurrent.requests=200"
可以通过 kubernetes.rest-service.exposed.type 配置选项来暴露 Flink 的 Web UI 和 REST 终端服务。
localhost:8081 来提交一个 flink job 到会话或查看 dashboard了。$ kubectl port-forward service/ 8081
NodePort)来暴露每个节点 IP 上的服务。可以通过 : 来连接 JobManager 服务,也可以通过 Kubernetes ApiServer 地址来代替 NodeIP。可以在 kube 配置文件中找到这个地址。NodePort。你可以使用命令 kubectl get services/-rest 来获取 EXTERNAL-IP,然后手动构造负载均衡的 JobManager Web 接口: http://:8081 请参考官网文档在 Kubernetes 上发布服务来获取更多信息。
取决于你的实际环境,通过
LoadBalancerREST 服务启动 flink 集群,可能会让集群公开访问,这通常会让集群可以执行任意代码。
Kubernetes 会整合 conf/log4j-console.properties 和 conf/logback-console.xml 为一个 ConfigMap,然后暴露给 pod。对这些文件的改变对新启动的集群是可见的。
默认情况下,JobManager 和 TaskManager 会将日志输出到控制台,同时写入到每个 pod 的 /opt/flink/log 目录下。STDOUT 和 STDERR 只会直接输出到控制台,可以通过下面的命令访问他们:
$ kubectl logs
如果 pod 正在运行,你也可以使用 kubectl exec -it 来查看日志或对运行进行 debug 调试。
为了不浪费资源,flink 会自动清除空闲的 TaskManager,该行为会导致访问每个 pod 的日志更加困难。你可以通过配置 resourcemanager.taskmanager-timeout 来增加 TaskManager 的空闲时间,以让自己有更多的时间来查看日志文件。
如果你已经配置你的日志记录器可以自动获取配置更改,则你可以通过更改单独的 ConfigMap 来动态调整日志级别,假设 Cluster id 为 my-first-flink-cluster,则可以使用如下命令进行更改:
$ kubectl edit cm flink-config-my-first-flink-cluster
为了使用插件,你必须将他们拷贝到 Flink JobManager/TaskManager pod 中的正确位置。你可以使用无需挂载卷的内置插件,或构建一个自定义 Docker 镜像。比如,使用如下命令对你的 Flink session 集群启用 S3 插件:
$ ./bin/kubernetes-session.sh-Dcontainerized.master.env.ENABLE_BUILT_IN_PLUGINS=flink-s3-fs-hadoop-1.13.6.jar \-Dcontainerized.taskmanager.env.ENABLE_BUILT_IN_PLUGINS=flink-s3-fs-hadoop-1.13.6.jar
如果你想使用自定义 Docker 镜像,则可以通过配置选项 kubernetes.container.image 来指定它,Flink 社区提供了一个非常好用的 Flink Docker 镜像 。通过如何自定义 Flink’s Docker 镜像查看如何启用插件,增加依赖,以及其他选项。
Kubernetes Secrets 是一个包括一些隐私数据的对象,比如密码,token,或 key。这些信息可能会放在一个 pod 或镜像中。Flink on Kubernetes 可以通过两种方式使用这些隐私:
下面的命令会将名为 mysecret 的隐私挂载到标准 pod 下的 /path/to/secret 目录:
$ ./bin/kubernetes-session.sh -Dkubernetes.secrets=mysecret:/path/to/secret
名为 mysecret 的隐私中的用户名和密码可以在 /path/to/secret/username 和 /path/to/secret/password 文件中找到。查看 Kubernetes 官网文档 获取更多细节。
下面的命令可以将标准 pod 中名为 mysecret 的隐私暴露为环境变量:
$ ./bin/kubernetes-session.sh -Dkubernetes.env.secretKeyRef=\env:SECRET_USERNAME,secret:mysecret,key:username;\env:SECRET_PASSWORD,secret:mysecret,key:password
环境变量 SECRET_USERNAME 包含用户名,SECRET_PASSWORD 包含密码。查看 Kubernetes 官网文档 获取更多细节。
For high availability on Kubernetes, you can use the existing high availability services.
对于 on Kubernetes 高可用,可以查看高可用服务。
Flink 使用 Kubernetes OwnerReference’s 来清理所有的集群组件。所有 Flink 创建的资源,包括 ConfigMap、Service 和 Pod,都有被设置到 deployment/ 中的 OwnerReference。当部署被删除时,所有相关联的资源都会被自动删除。
$ kubectl delete deployment/
目前,所有 >= 1.9 版本的 Kubernetes 都支持。
Kubernetes 命名空间通过资源配额在多个用户之间集群资源。Flink on Kubernetes 可以使用命名空间来启用 Flink 集群。可以通过 kubernetes.namespace 配置命名空间。
Role-based access control (RBAC) 是企业中基于角色的单个用户访问计算和网络资源的常规方法吗,用户可以配置用于 JobManager 访问 kubernetes 集群内的 Kubernetes API 服务的 RBAC 角色和服务账号。
每个命名空间都有默认的服务账号,但是默认的服务账号可能没有访问和删除 Kubernetes 集群内 pod 的权限,用户可能需要更新默认服务账号的权限,或指定其他绑定了正确角色的服务账号。
$ kubectl create clusterrolebinding flink-role-binding-default --clusterrole=edit --serviceaccount=default:default
如果你不想使用默认服务账号,可以使用如下命令创建一个新的名为 flink-service-account 的服务账号,并且设置角色绑定,然后使用配置选项 -Dkubernetes.service-account=flink-service-account 让 JobManager pod 使用 flink-service-account 服务账号来创建或删除 TaskManager pod 和 leader ConfigMap,新的账号也允许 TaskManager 查看 leader ConfigMap 来检索 JobManager 和 ResourceManager 的地址。
$ kubectl create serviceaccount flink-service-account
$ kubectl create clusterrolebinding flink-role-binding-flink --clusterrole=edit --serviceaccount=default:flink-service-account
请参考官网 Kubernetes 文档 RBAC Authorization 来获取更多信息。
Flink 允许通过模板文件来定义 JobManager 和 TaskManager pod,这种方式支持使用 Flink Kubernetes 配置选项 中没有直接支持的高级特性。使用 kubernetes.pod-template-file 来指定包含 pod 定义的本地文件,该文件将被用于初始化 JobManager 和 TaskManager。主要的容器名称应该被定义为 flink-main-container。请看考 pod 模板案例 来获取更多信息。
一些 pod 模板文件中的属性会被 flink 覆盖,解析有效属性值的算法如下:
Defined by Flink:用户无法配置这些属性。
Defined by the user:用户可以自由的指定这些属性值,Flink 框架不会设置任何源于配置选项和模板的额外值和有效值。
优先顺序:首先采用指定的配置选项中的值,然后取 pod 模板中的值,如果都没有指定,则最后采用配置选项的默认值。
Merged with Flink:Flink 会合并用户定义的值,遵循上面的优先顺序,在遇到同名字段的情况下,Flink 值具有优先级。
参考下面表中列出的所有可以被覆盖的 pod 属性,pod 模板中定义的所有未在下表列出的属性值都不会起作用。
Pod 元数据
| 键 | 种类 | 关联的配置选项 | 描述 |
|---|---|---|---|
| name | Defined by Flink | JobManager pod 名称将会被在部署中定义的 kubernetes.cluster-id 覆盖。TaskManager pod 名称将会被 Flink ResourceManager 生成的 覆盖。 | |
| namespace | Defined by the user | kubernetes.namespace | JobManager 部署和 TaskManager pod 都会在用户指定的命名空间中创建。 |
| ownerReferences | Defined by Flink | JobManager 和 TaskManager pod 的所有者参考经常被设置为 JobManager 部署,请参考 kubernetes.jobmanager.owner.reference 来控制何时删除部署。 | |
| annotations | Defined by the user | kubernetes.jobmanager.annotations kubernetes.taskmanager.annotations | Flink 将增加通过 Flink 配置选项指定的额外注释。 |
| labels | Merged with Flink | kubernetes.jobmanager.labels kubernetes.taskmanager.labels | Flink 会增加一些内置的标签到用户自定义的值上。 |
Pod 属性
| 键 | 种类 | 关联的配置选项 | 描述 |
|---|---|---|---|
| imagePullSecrets | Defined by the user | kubernetes.container.image.pull-secrets | Flink 会增加通过 Flink 配置选项指定的额外拉取到的隐私。 |
| nodeSelector | Defined by the user | kubernetes.jobmanager.node-selector kubernetes.taskmanager.node-selector | Flink 会增加通过 Flink 配置选项指定的额外的节点选择器。 |
| tolerations | Defined by the user | kubernetes.jobmanager.tolerations kubernetes.taskmanager.tolerations | Flink 会增加通过 Flink 配置选项指定的额外的容错。 |
| restartPolicy | Defined by Flink | 通常指定 JobManager pod ,从来不指定 TaskManager pod。JobManager pod 通常会被部署重启,TaskManager 不应该被重启。 | |
| serviceAccount | Defined by the user | kubernetes.service-account | JobManager 和 TaskManager pod 将会通过用户定义的服务账号来创建。 |
| volumes | Merged with Flink | Flink 会增加一些内置的 ConfigMap 卷,比如:flink-config-volume,hadoop-config-valute,以用来传递 Flink 配置和 hadoop 配置。 |
主容器属性
| 键 | 种类 | 关联的配置选项 | 描述 |
|---|---|---|---|
| env | Merged with Flink | containerized.master.env.{ENV_NAME} containerized.taskmanager.env.{ENV_NAME} | Flink 会增加一些内置的环境变量到用户自定义的值上。 |
| image | Defined by the user | kubernetes.container.image | 容器镜像将根据用户自定义值的优先顺序进行解析。 |
| imagePullPolicy | Defined by the user | kubernetes.container.image.pull-policy | 容器镜像拉取策略将根据用户自定义值的优先顺序进行解析。 |
| name | Defined by Flink | 容器名称将会被 Flink 的 “flink-main-container” 值覆盖。 | |
| resources | Defined by the user | Memory: jobmanager.memory.process.size taskmanager.memory.process.size CPU: kubernetes.jobmanager.cpu kubernetes.taskmanager.cpu | 内存和 cpu 资源(包括请求和限制)将会被 Flink 的配置选项覆盖,所有其他的资源(比如临时存储)将会被留下。 |
| containerPorts | Merged with Flink | Flink 会增加一些内置的容器端口号,比如:rest、jobmanager-rpc、blob、taskmanager-rpc。 | |
| volumeMounts | Merged with Flink | Flink 会增加一些内置的卷挂载,比如:flink-config-volume、hadoop-config-volume,这对于传递 flink 配置和 hadoop 配置是很有必要的。 |
pod-template.yaml
apiVersion: v1
kind: Pod
metadata:name: jobmanager-pod-template
spec:initContainers:- name: artifacts-fetcherimage: artifacts-fetcher:latest# 使用 wget 或其他工具从远程存储获取用户 jarcommand: [ 'wget', 'https://path/of/StateMachineExample.jar', '-O', '/flink-artifact/myjob.jar' ]volumeMounts:- mountPath: /flink-artifactname: flink-artifactcontainers:# 不要修改主容器名称- name: flink-main-containerresources:requests:ephemeral-storage: 2048Milimits:ephemeral-storage: 2048MivolumeMounts:- mountPath: /opt/flink/volumes/hostpathname: flink-volume-hostpath- mountPath: /opt/flink/artifactsname: flink-artifact- mountPath: /opt/flink/logname: flink-logs# 使用 sidecar 容器推送日志到远程存储或做一些其他的 debug 事情- name: sidecar-log-collectorimage: sidecar-log-collector:latestcommand: [ 'command-to-upload', '/remote/path/of/flink-logs/' ]volumeMounts:- mountPath: /flink-logsname: flink-logsvolumes:- name: flink-volume-hostpathhostPath:path: /tmptype: Directory- name: flink-artifactemptyDir: { }- name: flink-logsemptyDir: { }
该入门指南章节会指导你在 YARN 上配置一个完整的 Flink 集群。
Apache Hadoop YARN 是很多数据处理框架爱用的资源提供者,Flink 服务可以提交到 YARN 的 ResourceManager,然后通过 YARN 的 NodeManager 来提供容器,然后 Flink 会部署他的 JobManager 和 TaakManager 示例到这些容器上。
Flink 可以基于在 JobManager 上运行的 job 所需要的 slot 来动态收集和清理 TaskManager 资源。
入门指南章节假定已经有一个可用的 YARN 环境了,并且版本号 ≥ 2.4.1。YARN 环境可以通过 Amazon EMR、Google Cloud DataProc 或 Cloudera 产品来很方便的提供。该入门指南并不要求手动部署本地 YARN 环境 或 集群部署 。
yarn top 来确定你的 YARN 集群已经准备好接收 Flink 程序了,该命令应该不展示任何错误信息。HADOOP_CLASSPATH 环境变量,可以通过运行 echo $HADOOP_CLASSPATH 命令来检查。如果没有设置,请通过以下命令来设置:export HADOOP_CLASSPATH=`hadoop classpath`
确保设置了 HADOOP_CLASSPATH 环境变量之后,就可以启动 YARN session 了,并且提交案例 job:
# 假定在 root 目录下解压了 Flink 分布式文件# (0) export HADOOP_CLASSPATH
export HADOOP_CLASSPATH=`hadoop classpath`# (1) 启动 YARN Session
./bin/yarn-session.sh --detached# (2) 你可以通过命令行输出打印的最有一行中的 URL 或通过 YARN ResourceManager web UI 来访问 Flink web 页面# (3) 提交案例 job
./bin/flink run ./examples/streaming/TopSpeedWindowing.jar# (4) 停止 YARN session,请将下面的 application id 替换为 yarn-session.sh 命令输出的 application id
echo "stop" | ./bin/yarn-session.sh -id application_XXXXX_XXX
恭喜!你已经成功的通过部署 Flink on YARN 来运行 Flink 程序了。
对于生产案例,我们监建议使用 Per-job 或 Application 模式 来部署 Flink 程序,这些模式对程序有更好的隔离性。
请参考 deployment 模式概述 来获取 application 模式的高级知识。
Application 模式将在 YARN 上启动一个 Flink 集群,然后运行在 YARN 中的 JobManager 执行应用程序中的 main() 方法。集群将会在程序运行完成后马上关闭,也可以使用 yarn application -kill 或通过取消 Flink job 来停止集群。
./bin/flink run-application -t yarn-application ./examples/streaming/TopSpeedWindowing.jar
一旦部署了 Application 模式的集群,你就可以与它进行交互操作,比如取消或触发 savepoint。
# 列出集群中运行的 job
./bin/flink list -t yarn-application -Dyarn.application.id=application_XXXX_YY
# 取消运行的 job
./bin/flink cancel -t yarn-application -Dyarn.application.id=application_XXXX_YY
注意,取消 Application 集群中的 job 将会停止集群。
为了发挥 application 模式的所有潜力,可以考虑使用 yarn.provided.lib.dirs 配置选项并且提前上传你的应用程序 jar 到一个可以被集群所有节点访问的位置,具体命令如下:
./bin/flink run-application -t yarn-application \-Dyarn.provided.lib.dirs="hdfs://myhdfs/my-remote-flink-dist-dir" \hdfs://myhdfs/jars/my-application.jar
上述命令可以让 job 提交更加轻量,因为需要的 Flink jar 和应用程序 jar 可以通过指定的远程位置获取,而不是通过客户端上传到集群。
请参考 deployment 模式概述 来获取 application 模式的高级知识。
Per-job 集群模式会在 YARN 上启动一个 Flink 集群,然后在本地运行提供的程序 jar 包,最后将 JobGraph 提交到 YARN 中的 JobManager。如果你指定了 --detached 参数,本地客户端会在提交被接受之后马上停止。
YARN 中的 per-job 集群会在 job 停止之后马上停止。
./bin/flink run -t yarn-per-job --detached ./examples/streaming/TopSpeedWindowing.jar
Per-job 集群一旦部署完毕,你就可以进行和它进行交互操作了,比如取消 job ,或触发一个 savepoint。
# 列出集群运行的 job
./bin/flink list -t yarn-per-job -Dyarn.application.id=application_XXXX_YY
# 取消运行的 job
./bin/flink cancel -t yarn-per-job -Dyarn.application.id=application_XXXX_YY
注意,取消 per-job 集群中的 job,将会停止 per-job 集群。
请参考 deployment 模式概述 来获取 application 模式的高级知识。
我们已经在上面的入门指南中说明了 Session 模式的部署。
Session 模式有两种操作模式:
yarn-session.sh 客户端提交 Flink 集群到 YARN,但是本地客户端依然会保持运行,并且追踪集群的状态。如果集群运行失败,则客户端会展示错误信息。如果客户端被终止,它也会给集群发送关闭信号。-d or --detached):yarn-session.sh 客户端提交 Flink 集群到 YARN,然后客户端返回。要停止 Flink 客户端,则需要调用其他的客户端,比如 YARN tools。session 模式会在 /tmp/.yarn-properties- 中创建一个隐藏的配置文件,该配置文件会在提交 job 时被通过命令行接口集群获取。
你也可以在提交 Flink job 的命令行接口中手动指定目标 YARN 集群,示例如下:
./bin/flink run -t yarn-session \-Dyarn.application.id=application_XXXX_YY \./examples/streaming/TopSpeedWindowing.jar
你可以通过下面的命令重新附加到一个 YARN session 集群:
./bin/yarn-session.sh -id application_XXXX_YY
除了通过 conf/flink-conf.yaml 文件指定 配置 之外,你也可以在使用 ./bin/yarn-session.sh 提交时使用 -Dkey=value 参数来指定任何配置。
YARN session 客户端也有一些“短参数”用于设置,可以通过运行 ./bin/yarn-session.sh -h 命令来列出他们。
在 配置页面 可以找到 YARN 的所有配置。
下面的配置参数通过 Flink on YARN 来管理,他们可以在框架运行时被覆盖:
jobmanager.rpc.address :被动态设置为 Flink on YARN 中运行 JobManager 容器的地址io.tmp.dirs:如果没有设置,Flink 将会设置为通过 YARN 定义的临时目录high-availability.cluster-id:在 HA 服务中会自动生成 ID 来区分多个集群你可以通过 HADOOP_CONF_DIR 环境变量将额外的 Hadoop 配置文件传递给 Flink,该变量接收一个包含 Hadoop 配置文件的目录。默认情况下,所有需要的 Hadoop 配置文件都是通过 HADOOP_CLASSPATH 环境变量来获取并加载的。
如果无法使用已获取到的资源运行提交的 job,则运行在 YARN 上的 JobManager 会请求额外的 TaskManager 资源。在指定的 session 模式下运行时,如果需要,则 JobManager 会收集额外的 TaskManager 资源来运行提交的其他 Job。不再使用的 TaskManager 将会在超时之后被清理。
YARN 实现了 JobManager 和 TaskManager 的 process 内存配置,上报的 VCore 数量默认等于每个 TaskManager 配置的 slot 数量。yarn.containers.vcores 允许指定自定义值来覆盖 vcore 的数量,为了让这个参数生效,需要开启 YARN 集群的 CPU 调度。
失败的容器(包括 JobManager)将会被 YARN 换下。可以通过 yarn.application-attempts(默认为1)来配置 JobManager 容器重启的最大次数。一旦耗尽所有的尝试,则 YARN 程序将会失败。
on YARN 高可用可以通过 YARN 和 高可用服务 组合实现。
一旦配置了 HA 服务,它将会持久化 JobManager 元数据,并执行 leader 选举。
YARN 会进行失败 JobManager 的重启工作。JobManager 的重启最大次数通过两个配置参数定义:
注意,当部署为 on YARN 时,Flink 会管理 high-availability.cluster-id 配置参数,Flink 会设置该值为默认的 YARN application id。在 YARN 上部署高可用集群时不要覆盖该参数。存储到 HA 后端(比如 zookeeper)的 cluster ID 被用于区分不同的高可用集群。覆盖该配置参数会导致多个 YARN 集群影响彼此。
Hadoop YARN 2.4.0 有个大 bug(已经在 2.5.0 中修复):YARN 会阻止从一个已经启动的 Application Master/JobManager 容器上重启容器。查看 FLINK-4142 来获取更多细节。我们建议至少使用 Hadoop 2.5.0 来部署 YARN 高可用。
Flink on YARN 从 Hadoop 2.4.1 开始支持,支持所有 >= 2.4.1 版本的 Hadoop,包括 Hadoop 3.x。
为了提供 Flink 需要的 Hadoop 依赖,我们建议设置在入门指南章节提到的 HADOOP_CLASSPATH 环境变量。
如果无法进行上述设置,也可以将依赖放到 Flink 的 lib/ 目录下。
Flink 也提供了预打包的 Hadoop fat jar,可以将他们放到 lib/ 目录下,可以在 Downloads / Additional Components 页面找到他们。这些预打包的 fat jar 通过 shade 打包方式,避免了公共库的依赖冲突。Flink 社区没有测试这些预打包 jar 和 YARN 的整合。
一些 YARN 集群会使用防火墙来控制集群和外网的通信,在这种配置下,Flink job 只能通过集群内网提交到 YARN session。如果在生产上不可行,Flink 允许对 REST 端点配置一个端口号范围,用于客户端与集群之间通信。通过配置端口号范围,用户就可以通过防火墙来提交 job 到 Flink 上了。
通过 rest.bind-port 配置参数来指定 REST 端点的端口号,该配置选项接受单个端口号(比如:50010)、范围(比如 50000-50025)、或同时使用两者。
默认情况下,Flink 在运行单个 job 时会将用户的 jar 放到系统 classpath 中,该行为可以通过 yarn.per-job-cluster.include-user-jar 参数控制。
当设置该参数为 DISABLED 时,Flink 会将 jar 放到用户的 classpath 中。
用户 jar 在 classpath 中的位置可以通过设置 yarn.per-job-cluster.include-user-jar 参数为下面的某个值来控制:
ORDER:默认值,将 jar 按照字段序放到系统 classpath。FIRST:将 jar 放到系统 classpath 开头。LAST:将 jar 放到系统 classpath 最后。