服装行业网站建设方案,中企网站案例,附近的代理记账公司有哪些,百度高级搜索引擎入口文章目录 第一章#xff1a;SQL基础入门1.1 数据库数据库如何存储数据 1.2 数据库和SQL的关系1.3 MySQL版本1.4 命令提示符内使用MySQL1.5 SQL概述1.5.1 SQL语言分类1.5.2 SQL语言特性 1.6 DDL库管理表管理 1.7 DML - 数据操作1.8 DQL - 查询和计算数据1.8.1 基础数据查询1.8.… 文章目录 第一章SQL基础入门1.1 数据库数据库如何存储数据 1.2 数据库和SQL的关系1.3 MySQL版本1.4 命令提示符内使用MySQL1.5 SQL概述1.5.1 SQL语言分类1.5.2 SQL语言特性 1.6 DDL库管理表管理 1.7 DML - 数据操作1.8 DQL - 查询和计算数据1.8.1 基础数据查询1.8.2基础数据查询 - 过滤1.8.3 分组聚合1.8.4 结果排序1.8.5 结果分页限制 1.9 Python - MySQL1.9.1 pymysql1.9.2 数据插入 第二章PySpark基础入门2.1 PySpark库的安装2.2 PySpark编程步骤2.3 PySpark编程模型2.4 数据输入2.4.1 RDD对象2.4.2 Python数据容器转RDD对象2.4.3 读取文件转RDD对象 2.5 数据计算2.5.1 map方法 第一章SQL基础入门
1.1 数据库 数据库如何存储数据 1.2 数据库和SQL的关系
数据库用来存储数据在该过程中将会涉及 新增数据 删除数据 修改数据 查询数据 数据库、数据表的管理 等
SQL语言是一种对数据库、数据进行操作、管理、查询的工具。
1.3 MySQL版本 社区版(免费) 集群版(免费) 商业版(收费) 高级集群版(收费)
1.4 命令提示符内使用MySQL
打开命令提示符程序输入mysql -uroot -p回车输入密码即可进入命令行环境 show database; //查看有哪些数据库 use 数据库名 //使用某个数据库 show tables //查看数据库内有哪些表 exit //退出MySQL的命令行环境
1.5 SQL概述
SQL结构化查询语言用于访问和处理数据库的标准的计算机语言
1.5.1 SQL语言分类 数据定义DDL 库的创建删除、表的删除创建等数据操纵DML 新增数据、删除数据、修改数据等数据控制DCL 新增用户、删除用户、密码修改、权限管理等数据查询DQL 基于需求查询和计算数据1.5.2 SQL语言特性 大小写不敏感 可单行或多行书写;号结束 支持注释 单行注释 – 注释内容(–后面要有一个空格) 单行注释# 注释内容 多行注释/* 注释内容 */1.6 DDL
库管理 查看数据库SHOW DATATBASES; USE 数据库名; CREATE DATABASE 数据库名 [CHARSET UTF8]; DROP DATABASE 数据库名; SELECT DATABASE(); 表管理 查看表SHOW TABLES; # 使用前需先选择数据库 删除表DROP TABLE 表名; DROP TABLE IF EXISTS 表名;创建表CREATE TABLE 表名( 列名称 列类型 列名称 列类型 … ); 列类型说明int整数float浮点数varchar(长度)文本长度为数字为最大长度限制date日期timestamp时间戳 1.7 DML - 数据操作 插入INSERTINSERT INTO表[(列1列2…列N)] VALUES(值1值2…值N) [(值1值2…值N)…(值1值2…值N)]; 删除DELETEDELETE FROM 表名 [WHERE 条件判断]; 更新UPDATEUPDATE 表名 SET 列值 [WHERE 条件判断]; 1.8 DQL - 查询和计算数据
1.8.1 基础数据查询
语法SELECT 字段列表 |* FROM 表
1.8.2基础数据查询 - 过滤
语法SELECT 字段列表 |* FROM 表 WHERE 条件判断 1.8.3 分组聚合
语法SELECT 字段| 聚合函数 FROM 表 [WHERE 条件] GROUP BY 列
聚合函数 SUM(列) 求和 AVG(列) 求平均值 MIN(列) 求最小值 MAX(列) 求最大值 COUNT(列|*) 求数量 1.8.4 结果排序
语法
SELECT 列|聚合函数|* FROM 表
WHERE …
GROUP BY …
ORDER BY … [ASC | DESC]
1.8.5 结果分页限制
语法
SELECT 列|聚合函数|* FROM 表
WHERE …
GROUP BY …
ORDER BY … [ASC | DESC]
LIMIT n[, m] 执行顺序FROM-WHERE-GROUP BY与聚合函数 - SELECT - ORDER BY - LIMIT
1.9 Python - MySQL
1.9.1 pymysql
基础使用
安装pip install pymysql
创建到MySQL的数据库链接
from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn Connection(hostlocalhost, # 主机名port3306, # 端口userroot, # 账户名password123456 # 密码
)print(conn.get_server_info()) # 打印MySQL数据库信息conn.close() # 关闭到数据库的链接执行SQL语句
from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn Connection(hostlocalhost, # 主机名port3306, # 端口userroot, # 账户名password123456 # 密码
)cursor conn.cursor() # 获取游标对象
conn.select_db(world) # 选择数据库
cursor.execute(select * from student) # 用游标对象执行SQL语句
results: tuple cursor.fetchall() # 获取查询结果
for r in results:print(r)
conn.close() # 关闭到数据库的链接1.9.2 数据插入
commit提交
pymysql在执行数据插入或其他产生数据更改的SQL语句时默认是需要提交更改的通过代码确认该更改行为
链接对象.commit()即可确认此行为
from pymysql import Connection
# 获取到MySQL数据库的链接对象
conn Connection(hostlocalhost, # 主机名port3306, # 端口userroot, # 账户名password123456 # 密码
)cursor conn.cursor() # 获取游标对象
conn.select_db(world) # 选择数据库
cursor.execute(insert into student values(7, 小东, 20)) # 用游标对象执行SQL语句
conn.commit() # 确认
conn.close() # 关闭到数据库的链接自动commit
conn Connection(hostlocalhost, # 主机名port3306, # 端口userroot, # 账户名password123456, # 密码autocommit True # 设置自动提交
)第二章PySpark基础入门
Spark:Apache Spark是用于大规模数据处理的同一分析引擎。
Spark是一款分布式的计算框架用于调度成百上千的服务器集群计算海量数据
PySpark是由Spark官方开发的Python语言第三方库
2.1 PySpark库的安装
安装pip install pyspark
构建PySpark执行环境入口对象
执行环境入口对象类 SparkContext的 类对象
from pyspark import SparkConf,SparkContext # 导包conf SparkConf().setMaster(local[*]).setAppName((test_spark)) # 创建SparkConf类对象sc SparkContext(confconf) # 基于SparkConf类对象创建SparkContext类对象print(sc.version) # 打印PySpark的运行版本sc.stop() # 停止SparkContext对象的运行SparkContext类对象是PySpark编程中一切功能的入口
2.2 PySpark编程步骤
PySpark编程主要分三大步骤 数据输入通过SparkContext类对象的成员方法完成对数据的读取操作读取后获得RDD类对象 数据处理计算通过RDD类对象的成员方法完成各种数据计算的需求 数据输出将处理完的RDD对象调用各种成员方法完成写出文件、转换为list等操作
2.3 PySpark编程模型 通过SparkContext对象完成数据输入 输入数据后得到RDD对象对RDD对象进行迭代计算 最终通过RDD对象的成员方法完成数据输出
2.4 数据输入
2.4.1 RDD对象
RDD全称为弹性分布式数据集
PySpark针对数据的处理都以RDD对象作为载体 数据存储在RDD内 各类数据的计算方法也都为RDD的成员方法 RDD的数据计算方法返回值依然是RDD对象
2.4.2 Python数据容器转RDD对象
通过SparkContext对象的parallelize成员方法将list\tuple\set\dict\str转为PySpark的RDD对象
在转换时需注意字符串会被拆成一个个的字符存入RDD对象中字典仅有key会被存入RDD对象中。
from pyspark import SparkConf,SparkContext # 导包
conf SparkConf().setMaster(local[*]).setAppName((test_spark)) # 创建SparkConf类对象
sc SparkContext(confconf) # 基于SparkConf类对象创建SparkContext类对象rdd1 sc.parallelize([1, 2, 3])
rdd2 sc.parallelize((1, 2, 3))
rdd3 sc.parallelize(hello)
rdd4 sc.parallelize({1, 2, 3})
rdd5 sc.parallelize({key1:1, key2: 2})print(rdd1.collect()) # 输出RDD内容
print(rdd2.collect()) # 输出RDD内容
print(rdd3.collect()) # 输出RDD内容
print(rdd4.collect()) # 输出RDD内容
print(rdd5.collect()) # 输出RDD内容sc.stop() # 停止SparkContext对象的运行2.4.3 读取文件转RDD对象
通过SparkContext入口对象读取文件构建出RDD对象
from pyspark import SparkConf,SparkContext # 导包
conf SparkConf().setMaster(local[*]).setAppName((test_spark)) # 创建SparkConf类对象
sc SparkContext(confconf) # 基于SparkConf类对象创建SparkContext类对象
rdd sc.textFile(E:/learn - coding/Python/2024_04_13/hello.txt)
print(rdd.collect())
sc.stop() # 停止SparkContext对象的运行2.5 数据计算
2.5.1 map方法
PySpark的数据计算都基于RDD对象进行的依赖于RDD对象中内置丰富的成员方法(算子)
map算子将RDD的数据一条条处理返回新的RDD
语法
rdd.map(func)
# func: f:(T) - U
# f表示这是一个函数或方法
# (T) - U 表示的是方法的定义
# () 表示传入参数(T)表示传入1个参数()表示没有传入参数
# T 泛型的代称在这表示任意类型
# U 泛型的代称在这表示任意类型
# - U 表示返回值
# (T) - U 表示这是个方法该方法接受一个参数传入传入参数类型不限返回一个返回值返回值类型不限
# (A) - A 表示这是个方法该方法接受一个参数传入传入参数类型不限返回一个返回值返回值类型和传入参数类型一致