友汇网站建设一般多少钱,优秀手机网站设计,湖北在线网站建设,广州番禺区严格控制人员流动摘要#xff1a; 昨天#xff0c;DataWorks推出了PYODPS任务类型#xff0c;集成了Maxcompute的Python SDK#xff0c;可在DataWorks的PYODPS节点上直接编辑Python代码操作Maxcompute#xff0c;也可以设置调度任务来处理数据#xff0c;提高数据开发效率。昨天#xff…摘要 昨天DataWorks推出了PYODPS任务类型集成了Maxcompute的Python SDK可在DataWorks的PYODPS节点上直接编辑Python代码操作Maxcompute也可以设置调度任务来处理数据提高数据开发效率。
昨天DataWorks推出了PYODPS任务类型集成了Maxcompute的Python SDK可在DataWorks的PYODPS节点上直接编辑Python代码操作Maxcompute也可以设置调度任务来处理数据提高数据开发效率。效果如下图适用region只有华东2上海region 支持了 PYODPS 节点。注底层的 Python 版本为 2.7 。新建 PYODPS 节点新建 PYODPS 节点具体操作如下1 单击数据开发页面工具栏中的 新建 新建任务。2 填写新建任务弹出框中的各配置项。3 单击创建编辑 PYODPS 节点ODPS入口DataWorks 的 PyODPS 节点中将会包含一个全局的变量 odps 或者 o 即 ODPS 入口。用户不需要手动定义 ODPS 入口。print(odps.exist_table(pyodps_iris))执行SQLPyODPS支持ODPS SQL的查询并可以读取执行的结果。 execute_sql 或者 run_sql 方法的返回值是 运行实例 。注解并非所有在 ODPS Console 中可以执行的命令都是 ODPS 可以接受的 SQL 语句。 在调用非 DDL / DML 语句时请使用其他方法例如 GRANT / REVOKE 等语句请使用 run_security_query 方法PAI 命令请使用 run_xflow 或 execute_xflow 方法。 o.execute_sql(select * from dual) # 同步的方式执行会阻塞直到SQL执行完成 instance o.run_sql(select * from dual) # 异步的方式执行 print(instance.get_logview_address()) # 获取logview地址 instance.wait_for_success() # 阻塞直到完成设置运行参数有时我们在运行时需要设置运行时参数我们可以通过设置 hints 参数参数类型是dict。 o.execute_sql(select * from pyodps_iris, hints{odps.sql.mapper.split.size: 16})我们可以对于全局配置设置sql.settings后每次运行时则都会添加相关的运行时参数。 from odps import options options.sql.settings {odps.sql.mapper.split.size: 16} o.execute_sql(select * from pyodps_iris) # 会根据全局配置添加hints读取SQL执行结果运行 SQL 的 instance 能够直接执行 open_reader 的操作一种情况是SQL返回了结构化的数据。 with o.execute_sql(select * from dual).open_reader() as reader: for record in reader: # 处理每一个record另一种情况是 SQL 可能执行的比如 desc这时通过 reader.raw 属性取到原始的SQL执行结果。 with o.execute_sql(desc dual).open_reader() as reader: print(reader.raw)使用调度参数PYODPS节点使用调度参数需要注意一下系统定义的调度参数可以直接通过此方法获取。自定义参数的使用需要使用单独的方法获取。在全局包括一个 args 对象可以在这个中获取它是一个dict类型。测试运行结果如下请注意在数据开发下使用了自定义调度参数页面上直接触发运行PYODPS节点时需要写死时间PYODPS节点无法像SQL一样直接替换。调度请参考https://help.aliyun.com/document_detail/30298.html文章作者隐林原文链接