专业官方网站建设,医疗网站建设行情,东莞网络推广哪家公司好,免费学编程国内网站Python连接Hive 1、Python如何连接Hive#xff1f;2、Python连接Hive数据仓库 1、Python如何连接Hive#xff1f; Python连接Hive需要使用Impala查询引擎
由于Hadoop集群节点间使用RPC通信#xff0c;所以需要配置Thrift依赖环境
Thrift是一个轻量级、跨语言的RPC框架2、Python连接Hive数据仓库 1、Python如何连接Hive Python连接Hive需要使用Impala查询引擎
由于Hadoop集群节点间使用RPC通信所以需要配置Thrift依赖环境
Thrift是一个轻量级、跨语言的RPC框架主要用于服务间的RPC通信。由Facebook于2007年开发2008年进入Apache开源项目
sasl模块是Python中用于实现SASLSimple Authentication and Security Layer认证的第三方库提供了对各种SASL机制的支持例如与Kafka、Hadoop等进行安全通信
经过验证以下模块都是Python连接Hive的环境依赖
pip install bitarray
pip install bit_array
pip install thrift
pip install thriftpy
pip install pure_sasl
pip install --no-deps thrift-sasl0.2.1安装Impyla模块
pip install impyla如果安装Impyla报错
ERROR: Failed building wheel for impyla则需要下载对应的whl文件安装
Python扩展包whl文件下载https://www.lfd.uci.edu/~gohlke/pythonlibs/
CtrlF查找需要的whl文件点击下载对应版本
安装
pip install whl文件绝对路径2、Python连接Hive数据仓库 1 启动Hadoop集群 2 使用hiveserver2开启Hive的JDBC服务 3 基本使用
from impala.dbapi import connect
from impala.util import as_pandas# 连接Hive
conn connect(hostbd91, port10000, auth_mechanismPLAIN, userroot, password123456, databasedefault)
# 创建游标
cursor conn.cursor()
# 执行查询
cursor.execute(select * from stu)
# 结果转换为DataFrame
df as_pandas(cursor)
print(df.to_string())
# 关闭连接
cursor.close()
conn.close()