龙岗高端网站设计专家,网站备案如何查询,国际网站浏览器,信阳建设企业网站目录windows 10 下 搭建 pyspark所需要的工具过程与步骤windows 10 下 搭建 pyspark
所需要的工具
Java JDK 1.8.0 spark-2.2.0-bin-hadoop2.7 hadoop-2.7.3 winutils.exe 还需要有python环境#xff0c;我用的是Anaconda 3#xff08;默认你已经装好此环境#xff09;。…
目录windows 10 下 搭建 pyspark所需要的工具过程与步骤windows 10 下 搭建 pyspark
所需要的工具
Java JDK 1.8.0 spark-2.2.0-bin-hadoop2.7 hadoop-2.7.3 winutils.exe 还需要有python环境我用的是Anaconda 3默认你已经装好此环境。
所需工具下载链接 链接https://pan.baidu.com/s/1e7YQO1UErH9QFQ90pncAeA 提取码ohv8
过程与步骤
安装 Java JDK这里默认安装就好一直下一步下一 步直到完成。解压 HadoopSpark并到所需要的目录下这两个只需要解压就好目录不要有中文与空格等字符。配置JavaSparkHadoop环境变量。 JAVA 环境变量 先在用户变量新建然后变量名为JAVA_HOME变量名为你的JDK的安装路径如下图。下面的Path添加 %JAVA_HOME%\bin这样就设置好啦。 Spark 环境变量 跟JAVA环境变量设置一样只不过变量名与路径名要变成SPARK_HOME与你的Spark的路径。 Hadoop 环境变量 跟JAVA环境变量设置一样只不过变量名与路径名要变成HADOOP_HOME与你的HADOOP的路径。
详细的配置请参考下图。 4. 把winutils.exe 复制到hadoop 的bin下并用管理员打开cmd跟着现在第二个图操作利用winutils.exe 修改写入的权限。
winutils.exe chmod 777 C:\tmp\hive一般都没有什么问题。
可能会出现的问题 ChangeFileModeByMask error (2): ??? 解决方法 在C盘下创建tmp\hive的文件夹如C盘下已经有tmp文件夹了可以在文件夹下添加hive的文件夹如下图 修改后再试一下上面winutils.exe的命令。
修改完后权限后就是安装pyspark。这里也可以会翻车。因为现在pyspark更新到3.x啦。pip install pyspark 应该是安装最新的。安装完后在终端应该输入pyspark应该也会SPARK的图案了如下图。 但是可能用的还是会报如下错误解决办法就是安装pyspark对应的版本后面加的链接是阿里云这样下载就会快很多。
pip install pyspark2.2.1 -i https://mirrors.aliyun.com/pypi/simple/java.util.NoSuchElementException: key not found: _PYSPARK_DRIVER_CALLBACK_HOST 安装完后应该就没有什么问题啦运行如下。