网站毕业设计图怎么做,手机网站引导页,网页动画是如何制作出来的,wordpress 创建网站Kettle简介
Kettle(现也称为Pentaho Data Integration#xff0c;简称PDI)是一款非常受欢迎的开源ETL工具软件#xff0c;主要用于数据整合、转换和迁移。Kettle除了支持各种关系型数据库#xff0c;HBase MongoDB这样的NoSQL数据源外#xff0c;它还支持Excel、Access这类…Kettle简介
Kettle(现也称为Pentaho Data Integration简称PDI)是一款非常受欢迎的开源ETL工具软件主要用于数据整合、转换和迁移。Kettle除了支持各种关系型数据库HBase MongoDB这样的NoSQL数据源外它还支持Excel、Access这类小型的数据源。并且通过这些插件扩展kettle可以支持各类数据源。
下图显示了Kettle和ADB for PostgreSQL之间的关系数据源通过Kettle进行ETL或数据集成操作以后可以和ADB for PostgreSQL进行交互
Kettle支持的数据来源非常丰富主要包括以下分类
表输入文本文件输入生成记录/自定义常量获取系统信息各类格式文件输入Json输入以及其他输入
更详细的输入可以从界面中的“核心对象”的“输入”分类中查看。
Kettle支持的表输入来源自数据库连接中使用SQL语句获取其中数据库连接支持非常丰富的连接方式包括
Native(JDBC)连接ODBC连接OCI连接JNDI连接
通过这些连接方式可以支持连接大多数主流数据库如Oracle, SQL Server, MySQL, DB2, PostgreSQL, Sybase, Teradata等等更详细的连接信息可以参考官方文档https://help.pentaho.com/Documentation/8.2/Setup/Configuration/Define_Data_Connections
Kettle导入到ADB for PostgreSQL
Kettle支持导入到ADB for PostgreSQL的方式
目前Kettle支持的数据导入到ADB for PostgreSQL的方式有
导入方式说明表输出 (INSERT方式)采用JDBC作为导入方式 支持批量插入批量插入使用JDBC的batch insert方法批量加载 (COPY方式)采用COPY作为导入方式 对于大表COPY方式性能达到批量插入性能的10倍左右
表输出(INSERT方式)导入会流过Master节点并做解析之后分布到对应的Segment节点上这种方式相对较慢并且不适合导入大量数据。批量加载(COPY方式)导入方式比INSERT语句插入多行的效率更高。
以下将分别介绍如何通过这两种方式将外部数据迁移到AnalyticDB for PostgresSQL。
准备工作
使用Kettle将外部数据导入AnalyticDB for PostgresSQL之前需要完成以下准备工作。
在本地主机中安装kettle在AnalyticDB for PostgreSQL中创建目标数据库、模式和表。
表输出方式导入数据到ADB for PostgreSQL
Kettle采用表输出方式支持使用通用的JDBC接口从各种数据库源导入到ADB for PostgreSQL中。以下就以MySQL为例说明如何通过JDBC接口导入数据到ADB for PostgreSQL中。
1.在Kettle中新建一个转换。 2.在转换中新建一个MySQL数据库连接作为输出源详细的参数配置如下表所示。 配置参数时不要勾选Use Result Streaming Cursor。
配置项说明连接名称数据连名连接类型选择MySQL连接方式选择NativeJDBC主机名MySQL的连接地址数据库名称MySQL的数据库名端口号连接地址对应的端口号用户名用户名密码用户密码
3.完成上述参数配置后单击测试测试连通性测试通过后单击确认。 4.在转换中新建一个Greenplum数据库连接作为输入源详细的参数配置如下表所示。
配置项说明连接名称数据连名连接类型选择Greenplum连接方式选择NativeJDBC主机名AnalyticDB for PostgreSQL的连接地址数据库名称AnalyticDB for PostgresSQL的数据库名端口号连接地址对应的端口号用户名用户名密码用户密码
5.完成上述参数配置后单击测试测试连通性测试通过后单击确认。 6.在kettle左侧核心对象的输入中找到表输入并将其拖动入到工作区。 7.双击工作区的表输入在表输入对话框中进行参数配置。 8.在Kettle左侧核心对象的输出中找到表输出并将其拖动入到工作区。 9.双击工作区的表输出在表输出对话框中进行参数配置。 10.新建一条表输入到表输出的连接线。 11.单击白色三角箭头运行转换观察运行日志和运行状态。
待MySQL数据成功导入AnalyticDB for PostgreSQL后您就可以使用AnalyticDB for PostgreSQL进行数据分析。
批量加载方式导入数据到ADB for PostgreSQL
Kettle支持使用批量加载方式COPY方式导入数据到ADB for PostgreSQL中。下面步骤举例说明通过从外部文件中批量加载数据到ADB for PostgreSQL中。
在Kettle中新建一个转换。在转换中新建一个文本文件输入作为输出源。双击文本文件输入的图表选择输入的文本文件。在“内容”选项卡中配置输入文件的分隔符。在“字段”选项卡定义输入文件表中的字段。在转换中新建一个Greenplum数据库连接作为输入源详细的参数配置如下表所示。完成上述参数配置后单击测试测试连通性测试通过后单击确认。在Kettle左侧核心对象的批量加载中找到PostgreSQL批量加载并将其拖动入到工作区。新建一条文件输入到PostgreSQL批量记载的连接线。双击工作区的PostgreSQL批量加载图表在批量加载对话框中进行参数配置单击白色三角箭头运行转换观察运行日志和运行状态 待数据成功导入AnalyticDB for PostgreSQL后您就可以使用AnalyticDB for PostgreSQL进行数据分析。
原文链接 本文为云栖社区原创内容未经允许不得转载。