如何把网站加入白名单,做啥网站赚钱?,机械英文网站,开发公司计算实际成本含土地费的税金吗一、关于sql语句(常问#xff09;
1#xff09;sql写过的复杂的运算
聚合函数#xff0c;case when then end语句进行条件运算#xff0c;字符串的截取、替换#xff0c;日期的运算#xff0c;排名等等#xff1b;行列转换#xff1b;
eg#xff1a;行列转换
SELE…一、关于sql语句(常问
1sql写过的复杂的运算
聚合函数case when then end语句进行条件运算字符串的截取、替换日期的运算排名等等行列转换
eg行列转换
SELECT userid,
SUM(CASE WHEN subject语文 THEN score END) as 语文,
SUM(CASE WHEN subject数学 THEN score END) as 数学,
SUM(CASE WHEN subject英语 THEN score END) as 英语,
SUM(CASE WHEN subject政治 THEN score END) as 政治
FROM tb_score
GROUP BY userid
2sql的逻辑执行顺序
From—on—join—where--group by—with—having—select—distinct—orderby
3如何优化sql语句
1 避免 select *只取需要的列
2 连接列或where子句创建索引提高读取速度写的速度变慢
3 Update不要写成deleteinsert功能相同但是性能差别很大
4 减少数据类型的转换
5 减少不必要的子查询和连接操作如果要使用子查询not in 、not exist改成left join写法in 和 exist可以改写 inner join
6 综合多个表的数据或连接多个表时可以考虑用临时表分布汇总结果
7 不要对索引字段进行一些操作函数、模糊查询、数据类型转换、数学运算会失去索引的效果
8 多表连接条件on where order by(排序)
4外连接、全连接、左连接、右连接的区别
INNER JOIN返回两个表之间共同满足连接条件的行交
Left join左边表中的所有行以及右边表中与左表中的行匹配的行
Right join右边表中的所有行以及左边表中与右表中的行匹配的行
FULL OUTER JOIN返回左表和右表中的所有行
取出A、B表连接之后A表中不符合条件的行
SELECT ### FROM A
Left join
SELECT ### FROM B
ON A.column1 B.column2
Where B. column2 IS NULL
二、Hadoop、Spark和Hive
1Hadoop
(核心Hbase分布式数据库—-管理MapReduce分布式计算框架HDFS分布式文件系统—存储)批处理框架适用于大规模数据的离线处理Java编程
2Spark
基于内存的并行计算框架快解决了Hadoop中MapReduce计算模型延迟过高的问题
可以批处理、交互式处理、流处理更加灵活地处理离线和实施任务
多种编程语言Python、Java、R等
3Hive
数据仓库工具允许用户查询和分析存储在Hadoop上的数据
三、数据仓库和数据库的区别
1设计目标前者支持数据分析和决策制定存储大量历史数据后者用于管理和维护操作性数据
2数据类型前者多种维度历史数据、汇总数据、维度数据和事实数据后者主要包含事务性数据用户信息、订单、交易信息等
3数据结构前者星型或雪花型数据模型包括事实表和维度表支持复杂的多维数据分析后者通常是关系型数据模型表格存储表格通过关系链接
4数据量前者大规模后者存储量级相对较小的数据集
5更新频率前者批处理更新频率低后者通常实施更新适用交互性操作
四、数据库常见数据结构
1关系型数据表是基本数据单元主键唯一标识外键建立表之间的关联关系
2星形数据结构事实表和维度表事实表通常是一些指标例如营业额、库存量维度表是描述事实表的信息如时间、位置、产品查询性能比较高但因为只有一个维度无法处理复杂的多维关系且维度表的数据冗余比较多
3雪花型数据结构星型进一步规范化维度表进一步分解成多个子维度表层次结构减少数据冗余处理多维数据关系查询起来更复杂多表链接没那么快
五、非结构化数据的处理和分析
1数据收集爬虫、抓取
2文本分析、图像处理、音频处理
3数据转换数据标准化、特征向量
六、NLP一般步骤
1收集和清洗文本数据删除不需要的字符、停用词、标点符号
2特征提取向量化TF-IDF词嵌入、词袋模型
TF(t,d) 词项 t在文档 d 中出现的次数/文档 d 中的总词项数
IDF(t)log(文档集合的总文档数/包含词项 t 的文档数1) 评价重要性
3选择模型svm、RNN、CNN等
4训练和评估
七、评价分类常见的指标和公式
准确率正确的样本数/总样本数
精确度 (真正例) / (真正例 假正例) 预测为正中实际为正的比例
召回率 (真正例) / (真正例 假负例) 实际为正中预测为正的比例
F1 分数F1 Score综合评价准确率和召回率2准确率*召回率/准确率召回率
ROC 曲线真正例率与假正例率之间的关系值越大性能越好
PR 曲线不同的分类阈值绘制精确度与召回率之间的关系图AUC 是 PR 曲线下的面积用于衡量分类器在不同精确度和召回率下的性能
八、分类问题中样本类别不均衡怎么办
1欠采样、过采样;
2设置样本权重;
3使用不同的指标评估(精确度、召回率、F1 分数、ROC-AUC等);
4集成学习方法处理不均衡的问题
九、假设检验原理
原假设和备择假设一般原假设没有显著差异备择假设有显著差异
基于样本数据计算统计量设定显著性水平alpha落在拒绝阈拒绝原假设
两类错误
第一类原假设为真拒绝原假设alpha越低第一类风险越小第二类风险越大
第二类备择假设为真但是接受原假设
P值小于显著性水平拒绝原假设接受备择。
十、LSTM门控机制
1遗忘门Forget Gate
遗忘门决定了在当前时间步骤应该保留多少过去的信息。它接收当前输入和上一个时间步骤的隐藏状态作为输入并输出一个0到1之间的值表示要保留的信息比例。具体来说遗忘门的计算包括一个Sigmoid激活函数它的输出乘以上一个时间步骤的细胞状态以确定要保留的信息。
2输入门Input Gate
输入门决定了要更新细胞状态的哪些部分。它接收当前输入和上一个时间步骤的隐藏状态作为输入并输出一个0到1之间的值表示每个部分的更新比例。输入门的计算包括一个Sigmoid激活函数以确定要更新的部分以及一个Tanh激活函数用于生成新的候选值。
3输出门Output Gate
输出门决定了当前时间步骤的隐藏状态应该是什么。它接收当前输入和上一个时间步骤的隐藏状态作为输入并输出一个0到1之间的值表示要输出的信息比例。输出门的计算包括一个Sigmoid激活函数以确定要输出的部分以及一个Tanh激活函数用于生成最终的隐藏状态。
十一、Pyecharts的一些可视化函数
Liquid、gauge、Funnel、heatmap、wordcloud、Bar条形图、Line折线图、scatter散点图、EffectScatter涟漪散点图、boxplot箱型图、Pie饼图、Radar雷达图