Spark: Pi サンプルがクラスター k8s モードで SocketTimeoutException をスローする

Spark: Pi サンプルがクラスター k8s モードで SocketTimeoutException をスローする

Kubernetes 上に Spark 2.3.1 クラスターをセットアップしましたが、サンプルの SparkPi ジョブを送信する際に問題が発生します。

私が使用している送信スクリプト:

bin/spark-submit \
    --master k8s://https://10.0.15.7:7077 \
    --deploy-mode cluster \
    --name spark-pi \
    --class org.apache.spark.examples.SparkPi \
    --conf spark.kubernetes.container.image=gcr.io/my-project/spark:spark-test \
    --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark \
    --conf spark.executor.instances=3 \
    local:///opt/spark/examples/jars/spark-examples_2.11-2.3.1.jar 1000

しかし、

Exception in thread "main" io.fabric8.kubernetes.client.KubernetesClientException: Failed to start websocket
at io.fabric8.kubernetes.client.dsl.internal.WatchConnectionManager$2.onFailure(WatchConnectionManager.java:194)
...
Caused by: java.net.SocketTimeoutException: timeout
    at okio.Okio$4.newTimeoutException(Okio.java:230)
    ... 
Caused by: java.net.SocketException: Socket closed
    at java.net.SocketInputStream.read(SocketInputStream.java:204)
...

私の推測では、k8s apiserver にアクセスできないようです。しかし、その理由はわかりません。私は--conf serviceAccountNameRBAC を使用しており、上記の URL のように完全に構​​成されています。

すべてのSparkポッドはsparkserviceAccountNameを使用します。これは次のように定義されます。

apiVersion: v1
kind: ServiceAccount
metadata:
  name: spark
  namespace: default
---
apiVersion: rbac.authorization.k8s.io/v1
kind: ClusterRoleBinding
metadata:
  name: spark-role
roleRef:
  apiGroup: rbac.authorization.k8s.io
  kind: ClusterRole
  name: edit
subjects:
- kind: ServiceAccount
  name: spark
  namespace: default

関連情報