资料填写网站类型怎么做,网站建设评审会简报,福州网站建站,什么网站做一件代发AI应用开发相关目录 本专栏包括AI应用开发相关内容分享#xff0c;包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群
AI应用开发流程概…AI应用开发相关目录 本专栏包括AI应用开发相关内容分享包括不限于AI算法部署实施细节、AI应用后端分析服务相关概念及开发技巧、AI应用后端应用服务相关概念及开发技巧、AI应用前端实现路径及开发技巧 适用于具备一定算法及Python使用基础的人群
AI应用开发流程概述Visual Studio Code及Remote Development插件远程开发git开源项目的一些问题及镜像解决办法python实现UDP报文通信python实现日志生成及定期清理Linux终端命令Screen常见用法python实现redis数据存储python字符串转字典python实现文本向量化及文本相似度计算python对MySQL数据的常见使用一文总结python的异常数据处理示例 文章目录 AI应用开发相关目录一、前言二、代码示例 一、前言
数据是一切应用开发的基础异常数据处理可以保障数据质量。 本文总结了基于数据分布、聚类算法、树、距离以及概率的异常数据处理算法及其示例。
二、代码示例
数据 基于数据分布的异常处理算法
# 基于箱线图的异常数据检测
KW_data data[线路长度].tolist()
Q1 np.quantile(KW_data,0.25,interpolationlower)#下四分位数
Q3 np.quantile(KW_data,0.75,interpolationhigher)#上四分位数
QE Q3-Q1max_value Q31.5*QE
min_value Q3-1.5*QE
error_index []
for i in range(len(KW_data)):if (KW_data[i] min_value) and (KW_data[i] max_value):passelse:error_index.append(i)基于聚类算法的异常处理算法
# DBSCAN聚类
import numpy as np
from sklearn.cluster import DBSCAN
from sklearn.preprocessing import StandardScaler# 创建数据集
X np.array(data[[线路长度,导线长度,塔材,挂线金具,混凝土,土石方熨,本体投资]])# 对数据进行标准化处理
X StandardScaler().fit_transform(X)# 使用DBSCAN算法进行聚类
dbscan DBSCAN(eps0.3, min_samples2)
dbscan.fit(X)# 获取异常数据的索引
outliers_mask dbscan.labels_ -1
outliers_indices np.where(outliers_mask)[0]# 输出异常数据的索引
print(异常数据的索引, outliers_indices)基于树的异常处理算法
# 基于孤立森林的异常数据检测import numpy as np
from sklearn.ensemble import IsolationForest
import matplotlib.pyplot as plt # 生成示例数据
X np.array(data[[塔材,本体投资]])# 可多# 使用孤立森林算法进行异常检测
clf IsolationForest(contaminationauto)
pred clf.fit_predict(X) # 将预测结果可视化
plt.scatter(X[:, 0], X[:, 1], cpred)
plt.show()基于数据间距的异常处理算法
# 基于局部异常因子的异常检测算法import numpy as np
from sklearn.neighbors import LocalOutlierFactor # 生成示例数据
X np.array(data[[塔材,本体投资]])# 可多# 使用局部异常因子算法进行异常检测
clf LocalOutlierFactor(n_neighbors20, contaminationauto)
pred clf.fit_predict(X) # 将预测结果可视化
plt.scatter(X[:, 0], X[:, 1], cpred)
plt.show()基于概率的异常处理算法
# 示例数据集
db_path os.getcwd()\\db.sqlite3
# 数据读取
gradedb sqlite3.connect(db_path)
cursorgradedb.cursor()
cursor.execute(SELECT * FROM returning_files_table;)
Tablescursor.fetchall()
raw_data []
for i in Tables:raw_data.append([i[0],i[1],i[2],i[3],i[4],i[5],i[6],i[7],i[8]])
raw_data pd.DataFrame(raw_data, columns[标段, 线路长度, 导线长度, 塔材, 挂线金具, 盘型绝缘子, 混凝土, 土石方熨, 本体投资])
a0 raw_data[标段].tolist()
a1 [float(i) for i in raw_data[线路长度]]
a2 [float(i) for i in raw_data[导线长度]]
a3 [float(i) for i in raw_data[塔材]]
a4 [float(i) for i in raw_data[挂线金具]]
a5 raw_data[盘型绝缘子].tolist()
a6 [float(i) for i in raw_data[混凝土]]
a7 [float(i) for i in raw_data[土石方熨]]
a8 [float(i) for i in raw_data[本体投资]]
data []
for i in range(len(a0)):data.append([a0[i],a1[i],a2[i],a3[i],a4[i],a5[i],a6[i],a7[i],a8[i]])
data pd.DataFrame(data, columns[标段, 线路长度, 导线长度, 塔材, 挂线金具, 盘型绝缘子, 混凝土, 土石方熨, 本体投资])
# 从数据集中删除PassengerIdName变量
data.drop([标段], axis1, inplaceTrue)
data data[[线路长度,导线长度,塔材,挂线金具,混凝土,土石方熨,本体投资]]
data.head()import pandas as pd
from sksos import SOSX np.array(data[[塔材,本体投资]]) # 两个维度
detector SOS()
data[score] detector.predict(X)
data.sort_values(score, ascendingFalse).head(10)