当前位置：首页 > news >正文

做网站常用的小语种有哪些织梦可以做论坛网站

news 2025/11/14 14:33:21

做网站常用的小语种有哪些,织梦可以做论坛网站,网站建设免费教程,网站建设技能培训文本分析是指对文本信息的表示及特征项的选取#xff0c;商品文本的描述能够反映特定立场、观点、价值和利益。考虑到网上海量的商品数量#xff0c;对产品的定价难度很大#xff0c;因此可以使用商品描述帮助商户定价。比如#xff0c;服装具有较强的季节性价格趋势#… 文本分析是指对文本信息的表示及特征项的选取商品文本的描述能够反映特定立场、观点、价值和利益。考虑到网上海量的商品数量对产品的定价难度很大因此可以使用商品描述帮助商户定价。比如服装具有较强的季节性价格趋势受品牌影响很大而电子产品则根据产品规格波动。因此根据商品提供的文本信息进行合理地定价能够有效地帮助商家进行商品的销售。 01、问题描述及数据挖掘目标本案例给出物品的商品描述、商品类别和品牌等信息并结合之前的商品价格来给新商品定价格。 02、数据导入和预处理导入数据处理阶段使用的库函数numpy和pandas用于数据处理 import numpy as np import pandas as pd 使用pandas库的read_csv函数导入数据示例代码中的csv路径和本地csv路径保持一致。 1 数据导入 train datapd.read csv( ../data/4/train.csvsep\t) test data pd.read csv(../data/4/test.csv, sep\t) 可以观察数据的信息得到当前数据的字段含义观察可知数据由8个字段构成其中train_id表示训练序号name表示商品名称item_condition_id表示当前的物品状态category_name表示商品类别brand_name表示品牌名称price表示商品价格shipping表示是否需要邮费和item_description表示商品描述。 2 数据预处理首先观察数据中的缺失值和异常值然后针对不同字段数据进行预处理操作。 In[4]:train data.info() Out[4]:RangeIndex: 2009 entries, to 199999Data columns (total 8 columns):train id 200009 non-null int64 name 20gga9 non-null object item condition id 200a09 non-null int64 199148 non-null object category name brand name 114600 non-null object price 20a99 non-null float64 shipping 20g099 non-null int64 200009 non-null objectitem description 观察数据发现category_name和brand_name两个特征不足200000即存在缺失值因此需要对缺失值进行处理。同理测试集合也存在类似缺失值问题需要拼接训练集合和测试集合对数据进行数据预处理。拼接代码如下所示 In[5]: df pd.concat([train data, pre data], axis0) 两个缺失值字段都为字符串类型的字段给缺失值填充标识符的代码如下所示。 In[6] dfdf.drop([pricetrain id], axis1)test iddf[category_name]df[category_name].fillna( MISs).astype(st df[brand name]df[brand name].fillna( MISS).astype(str)df[shipping]df[shipping].astype(str)dfritem condition iddfritem condition id].astype(str) 对category_name和brand_name两个特征填充缺失值标志同时将整数的字符数据变成相应的字符串数据表示并提取训练过程中需要的预测值。 In[7]: y train np.log1p(train datalprice]) 03、数据探索和模型构建通过前面的数据预处理过程数据都变成了字符串数据类型因此可以采用自然语言处理的相关方法处理。首先构建方法让文本信息向量化为进一步分析提供依据代码如下所示。 In[8]:from sklearn.feature extraction.text import CountVectorizer TfidfVectorizer default preprocessor CountVectorizer().build preprocessor() def build preprocessor 1(field): field_idx list(df.columns).index(field) return lambda x: default preprocessor(x[field idx7) 上面的方法可以对相应特征字段的文字内容向量化同时需要使用各个字段的向量信息变成产品的表示因此直观地将所有的特征信息表示拼接成最后的商品表示。我们调用sklearn中的FeatureUnion来拼接商品的特征代码如下所示。 In[9]:from sklearn.pipeline import FeatureUnion vectorizerFeatureUnion([ (name,CountVectorizer(ngram range(1,2),max features50000, preprocessorbuild preprocessor 1(name))), (category name,CountVectorizer(token pattern. preprocessorbuild preprocessor 1(category name))) (brand name,CountVectorizer(token pattern. preprocessorbuild preprocessor 1(brand name))). (shipping,CountVectorizer(token pattern d preprocessorbuild preprocessor 1(shipping))) (item condition id,CountVectorizer(token pattern d preprocessorbuild preprocessor 1(item condition id)))(item description,TfidfVectorizer(ngram range(1,3), max features100000,preprocessorbuild preprocessor_1(item description))), )] 上述操作将每个对应字段的文字信息变成向量表示考虑到产品的描述信息往往会很多因此我们在处理的过程中为了过滤掉部分无用信息使用tfidf对文本进行向量化处理保证了文本表示的质量。得到商品的向量表示后通过岭回归线性模型来对商品特征进行分析拟合下面引入岭回归算法。 In[10]: from sklearn.linear model import Ridge ridgeClf Ridge(solverauto,fit interceptTrue,alpha0.5. max_iter100,normalizeFalse,tol0.05) alpha对应岭回归正则化项的大小alpha越大对向量表示的正则化越强。我们使用FeatureUnion得到的对象vectorizer再将商品信息转换为向量表示。同时按照数据原始划分将数据变成的训练数据和测试数据。 In[11]: X vectorizer.fit transform(df.values) nrow train train data.shape[0] X train X[:nrow train] X test XInrow train:] 使用岭回归算法对数据进行拟合学习模型中相应的参数。 In[11]: ridgeClf.fit(X train, y train) 同时我们使用训练好的模型分析测试数据预测商品的价格大小。 In[12]: test price ridgeClf.predict(x test) 预测结果评价通过MSLE进行评估使用sklearn.metrics中的mean_squared_log_error来实现。 In[13]:from sklearn.metrics import mean squared log error true_pricepd.read csv(../data/4/label test.csvsep\t).price.tolist() mean squared log error(true price, test price) 0ut[13]: 3.006566863415081数据输出得到的test_price是模型对测试商品的预测价格得到的预测价格越精确对于商家定价的帮助就越大。该模型是相对简单的模型对于文本信息没有考虑文本本身的性质只是简单考虑特征的统计信息。并且将每个特征信息进行拼接取得的效果不会很好。更进一步的方法可以使用神经网络对文本进行建模。商品定价回归不同于文本分类并不是截取单个关键字就可以对价格进行分析并且关键词之间有较强的关联比如苹果手机产生的价格远远高于他们各自价格相加。同时对于拥有大量信息的冗长文本使用神经网络在输入端提取特征是一个很好的选择。同时商品信息中有普通的数值特征、商品分类特征、商品名称商标的短文本以及商品详细长文本的信息。相较于将所有特征都转换为文字类特征普通数字特征可以使用多层全连接网络形成数字特征表示并且结合注意力机制得到有意义的文本内容表示。同时对商品名称和商品品牌的文本内容拼接起来能够防止商品名称和商品品牌内容过短的问题并能够有效抑制特征缺失的问题形成统一的文本表示特征。 04、文末赠书 ClickHouse是大数据实时分析领域的主流选择之一。ClickHouse的目标是向人们提供世界上最快的分析型数据库。在各种OLAP查询引擎评测中ClickHouse的查询性能横扫各大OLAP数据库引擎尤其是Ad Hoc即席查询性能一直遥遥领先。因此ClickHouse被广泛应用于即席查询业务场景中。 ClickHouse的设计思想非常优秀代码和架构都值得深入研究。ClickHouse团队精益求精的精神更值得我们每个人学习。虽然要快速迭代ClickHouse但是ClickHouse团队依然不会放低要求比如为了使用1个算法会至少尝试10个算法而且在选择了某个算法后后续还会继续尝试其他更多算法以便下次迭代时使用。正是由于这种精益求精、追求极致的态度才有了ClickHouse的极致性能。为你推荐一本ClickHouse领域集大成之作《ClickHouse入门、实战与进阶》本书从基础知识、实现原理、项目实战、扩展应用4个维度全面展开表述简练清晰、案例丰富实用既可以作为入门的标准参考书又适合作为案头速查手册。书中内容是作者在阿里巴巴、字节跳动多年实战经验的总结得到了字节跳动和阿里巴巴9位大数据专家的高度评价。参与方式文章三连并任意评论参与抽奖48小时后程序自动抽取5本送出包邮到家

查看全文

http://www.zqtcl.cn/news/983912/