PySpark完美安装
创始人
2024-06-03 16:19:04

一、hadoop版本号确认

1. hadoop ==> 2.7.2

[root@dm46 TDH-Client]# hadoop version

Hadoop 2.7.2-transwarp-6.2.0

Subversion http://xxxx:10080/hadoop/hadoop-2.7.2-transwarp.git -r f31230971c2a36e77e4886e0f621366826cec3a3

Compiled by jenkins on 2019-07-27T11:33Z

Compiled with protoc 2.5.0

二、下载spark

注意:选择 Pre-built for Apache Hadoop 2.7

https://dlcdn.apache.org/spark/spark-3.2.3/spark-3.2.3-bin-hadoop2.7.tgz

三、准备pyspark环境

1. 创建虚拟环境

conda create -n pyspark_env python=3.8

conda activate pyspark_env

2. 安装pyspark

注意:确保spark版本与pyspark版本一致

pip install pyspark==3.2.3 -i http://pypi.douban.com/simple/ --trusted-host pypi.douban.com

3.测试

cd /home/xxx/kdh/spark/bin

./spark-submit --master local[*] /home/xxx/kdh/spark/examples/src/main/python/pi.py 30

四、常见报错

1. RuntimeError: Python in worker has different version 3.8 than that in driver 3.6

原因:local模式下,此时使用的是当前环境的python。如果代码里指定了pyspark_env,当前环境也应该是pyspark_env。

conda activate pyspark_env

cd /home/xxx/kdh/spark/bin

./spark-submit --master local[*] /home/xxx/workspace/pyspark_learn/02_pyspark_core/main/02_Wordcount_hdfs.py

五、其它

1. arrow安装

pip install pyspark[sql] -i https://pypi.tuna.tsinghua.edu.cn/simple

相关内容

热门资讯

猫咪吃了塑料袋怎么办 猫咪误食... 你知道吗?塑料袋放久了会长猫哦!要说猫咪对塑料袋的喜爱程度完完全全可以媲美纸箱家里只要一有塑料袋的响...
demo什么意思 demo版本... 618快到了,各位的小金库大概也在准备开闸放水了吧。没有小金库的,也该向老婆撒娇卖萌服个软了,一切只...
世界上最漂亮的人 世界上最漂亮... 此前在某网上,选出了全球265万颜值姣好的女性。从这些数量庞大的女性群体中,人们投票选出了心目中最美...
北京的名胜古迹 北京最著名的景... 北京从元代开始,逐渐走上帝国首都的道路,先是成为大辽朝五大首都之一的南京城,随着金灭辽,金代从海陵王...