潍坊网站搜索引擎优化,制作网站的列子,网络企业,用vs2010做网站教程本专题共10篇内容#xff0c;包含淘宝APP基础链路过去一年在用户体验数据科学领域#xff08;包括商详、物流、性能、消息、客服、旅程等#xff09;一些探索和实践经验。 在商详页基于用户动线和VOC挖掘用户决策因子带来浏览体验提升#xff1b;在物流侧洞察用户求助时间与… 本专题共10篇内容包含淘宝APP基础链路过去一年在用户体验数据科学领域包括商详、物流、性能、消息、客服、旅程等一些探索和实践经验。 在商详页基于用户动线和VOC挖掘用户决策因子带来浏览体验提升在物流侧洞察用户求助时间与实际物流停滞时长的关系制订表达策略带来物流产品满意度提升在性能优化域构建主客观关联模型找到启动时长与负向反馈指标的魔法数字以明确优化目标构建多源VOC标签体系综合运用用户行为和用户VOC洞察、落地体验优化策略并总结出一套用户体验分析方法论。 前言 本文为此系列第六篇文章前五篇见—— 第一篇淘宝用户体验分析方法论 第二篇VOC数据洞察在淘宝详情页的应用与实践 第三篇物流产品体验诊断与优化 第四篇BPPISE数据科学案例框架 第五篇数据驱动性能体验优化 ▐ 什么是VOC标签 VOC数据指淘宝电商的用户原声数据是消费者在进行电商业务过程中产生的咨询、沟通、评价、吐槽、投诉等非结构化数据VOC标签建设即基于NLP技术对海量的VOC数据进行语义挖掘对用户原声进行整理、分类将VOC数据反映出来的问题体系化地呈现出来帮助洞察消费者在淘宝的消费体验问题落地驱动生意正向增长的体验数据解决方案。 ▐ 淘宝VOC标签的特点与问题 当前淘宝的VOC原声数据基本特点为源头分散形态多样。首先在原声来源上分散在商家客服、心声库、千牛、小蜜、评价、吐槽吧等不同的端不同来源的文本数据在处理上分别有各自的策略给数据整合工作带来一定挑战。同时文本包含会话、单条评价、长文本、机器人知识性聊天文本等模态由于文本产生的源头不同文本本身的特征也多有不同对语义挖掘带来了技术挑战。 同时对于淘宝的VOC标签各业务部门多年来已积攒下多批标签但多为各独立业务解决自身问题而设计在设计上存在严重的异构问题可复用性较低很少开放给公域同时各行业下的行业化标签基本处于供给盲区。 淘宝用户体验VOC标签解决方案 针对淘宝用户VOC标签存在的问题我们由业务需求驱动建设了定义统一、丰富易用的淘宝VOC标签体系解决了VOC标签来源、定义不统一造成的找标签难、用标签难的问题在长期的标签生产实践中沉淀了稳定的标签设计-标签评估-算法生产-服务开放的SOP批量标签生产周期缩短至一周标签生产准确率均保持在90%以上。 ▐ VOC标签体系设计 在项目实施过程中针对不同行业的实际场景诉求每套行业标签结构的设计方法不尽相同设计原则主要参照不同标签之间的对比跨度。因而在最终的标签体系设计中需要结合不同行业标签结构的特点进行统一的设计。由此我们将VOC标签体系整体结构设计为四级标签结构其中一级至三级标签结构为通用型结构在此基础上允许进行行业视角下的特色标签的定制为定制型结构即第四级标签第四级标签以KV形式存储允许为空。同时四级标签和无子节点的三级标签定义为叶子标签标签生产和维护聚焦叶子标签允许用户根据业务场景自行定制标签结构只需自行维护KV关系即可。 例如一级标签按照淘宝消费者消费行为动线设计为商品咨询、活动价格、发货物流、服务咨询等域二、三级标签基于一级标签域下钻形成商品咨询-商品属性咨询-品牌的标签层级结构四级标签为行业定制如美妆保湿补水。 ▐ VOC标签结构评估 为什么要进行标签结构评估 在项目过程中初版标签树需求产出的方式主要分为两种一种是业务没有清晰标签结构定义针对该情况通常先基于VOC文本聚类的结果产出大致的标签结构业务需求方在此基础上确定最终标签需求具体技术方案见【VOC标签主动发现】章节另一种是业务有清晰的标签结构定义本节主要针对该情况下的标签评估方案进行叙述。业务基于体验洞察场景的诉求梳理提出所需标签后需要对提出的标签体系作出技术侧的评估。即业务侧的输入通常不考虑标签结构设计的合理性和实际的VOC原声数据的分布往往会直接影响到标签生产的质量。 例如在茶类目标签的初版设计中有关茶香和口味的标签本属于不同层面的语义描述但是在茶类目背景下这些标签对应的VOC原声文本几乎都集中在高香、回甘、特浓等关键词为核心的描述上即在茶这一领域该类标签应当合并为同一标签再如有关适用人群和商品功效的标签对应的VOC原声文本又集中在脾虚、便秘、养胃、清火等关键词为核心的描述上即该类标签也应当合并为同一标签。 除此之外存在标签定义粒度过粗等问题。因而技术侧需要基于对VOC数据的分析和探查判断提来的标签结构设计是否合理给出专业的合理性评估和调整策略。 标签结构评估面临的核心问题 对于标签结构的评估工作最初时依靠人工对样本集中每个标签对应的VOC数据进行人工分析具体方法为根据样本数据构建关键词词典对标签对进行1V1对比。该方法人力成本高且主观因素影响较大需要多方确认。对于n个标签需要人工对比次效率低下。因而需要建立起对标签结构评估的自动化流程提高生产效率。由此标签结构评估工作面临的两个核心问题为 标签结构质量的衡量标准标签结构评估的提效 标签结构评估解决方案 标签结构设计自动化评估的整体方案为基于VOC样本集按照标签进行分层采样对文本进行向量化后计算不同标签之间的文本距离输出文本距离矩阵。之后对出先聚集情况的标签做重点分析对需要重新设计的标签按照不同的合并方案进行调整给出最优的标签结构。最后引入人工词典作最后校正评估策略和调整方案的可靠性。 标签结构质量的衡量标准经过对大量标签设计进行结构分析后发现标签设计的主要问题是设计过程中经常出现设计粒度过细部分标签区分度小。而一个好的标签体系结构应当尽肯能少的出现标签语义聚集现象即整体标签对应的语义分布应当尽可能是均匀的语义分布离散度尽可能小的。由此确定了标签结构质量的定性衡量标准以形式化语言对该标准进行描述并将其转换为定量的数学问题即为标签设计寻优的目标函数 其中n为标签数量为不同标签的组合dist为不同标签对应样本的文本向量距离为方差计算。即用方差衡量分布离散度因此标签结构设计的目标为令上述函数取值最小。 VOC文本采样策略本节采用的策略为基于标签的分层采样保证每个标签下的样本量一致。 VOC文本表示对于文本表示在标签结构质量评估中经过对照实验同时结合下文标签主动发现章节中进行的大量实验确定基于文本向量距离矩阵做语义聚集分析的场景下TF-IDF做文本向量化表示的计算结果最优。本阶段基于《电商评价分词词典》《电商搜索分词词典》TD-IDF计算输出m维文本向量。 标签文本向量距离矩阵及其分析计算个标签对之间的欧式距离形成标签距离矩阵。 在得到距离矩阵后进行标签语义聚集现象的分析首先是聚集的判定。在项目过程中经过多组实验得到经验值选择下四分位点的标签对作为待优化的标签候选集候选集中标签对数量为k。 标签结构优化策略基于进行标签重组的优化。优化的策略为 遍历所有二元重组方案共2k次搜索引入数据信息熵计算每次重组方案下对标签结构全局的信息增益率完成第一轮遍历取信息增益率最大的重组方案并将对应的标签对从中移除基于为空进行下一轮遍历直至完成所有遍历后计算标签结构全局分布离散度即目标函数取最优方案重组标签为k-基于词典作最后确认只需确认发生重组的k-个标签对比工作量由降为 词典的构建在项目过程中构建了《淘宝电商评论词典》、《淘宝搜索词典》、《行业专业词典》等词典的构建过程为 ▐ VOC行业标签生产 算法路线选择 项目过程中VOC行业标签的每次迭代都是百以上量级的标签VOC文本标签生产的本质是判定式的分类模型训练。在标签数量过多的时候存在两种算法路线 对n个标签训练n个二分类模型基于n个二分类模型做标签结果判定该路线优点是二分类模型准确率高标签质量好且兼容多标签场景缺点是效率太低。对n个标签训练一个n分类模型直接判定标签结果该路线优点是在大规模标签生产中效率高缺点是多分类随着类别数增加准确率会不可避免的损失且不兼容多标签场景。 算法架构方案 经过大量调研与比实验最终确定自研标签生产的算法架构为基于标签分组训练多个多分类模型保障标签生产的质量与效率。 VOC训练样本的获取和处理 构建标签生产模型的第一步为构建带label的训练样本。整体方案如图 样本获取最佳的方案应当是基于人工做数据集的标注但基于项目迭代速度快、缺乏标注人力的现状样本的原始获取手段为基于能够获得到的淘内存量VOC数据及标签直接构造样本集该方法优点为可以快速获得所需样本缺点是本身各源头标签样本本身存在标注错误基于该样本进行训练不可避免的存在质量损失。为尽可能保证样本质量只选择置信度0.99的标签数据做样本同时对于不同来源、不同模态的标签及数据做整合整合策略见《VOC全量标签整合》章节。 采样策略针对在标签数量多、同时要保障标签生产质量的问题最终确定了基于标签分组训练多个多分类模型因而在样本的采样策略上也是以分组作为基础方案同时重点解决样本集不平衡的问题。 首先对原始样本中所有标签对应VOC原声进行清洗过滤噪声之后观察其分布尽可能的将原声量级相近的标签样本分到同组即一个Group同时限定减少后续模型训练的复杂度。进行完上一步操作后依然存在无法分组的标签通常是存在原声量过多或过少的问题是造成样本集不平衡的核心因素针对存在这两个问题的标签分别进行降采样和过采样缓解样本不平衡问题。经过采样处理后分组后的样本集。 VOC文本的向量化表示 完成训练样本构造后需要对文本进行向量化计算本项目根据不同的场景选择不同的方法进行文本表示具体为 在标签结构评估场景下的文本距离计算、分类场景下的FT训练、 文本相似度计算中首先使用之前构造的淘宝电商词典进行软干预分词之后基于word2vec或tf-idf产出文本的词向量表示。在深度训练中基于BERT预训练模型无需分词直接输入文本产出文本的句子向量表示。 VOC分类模型的训练与预测 算法训练及预测的框架如图 训练阶段 整体采用stacking集成框架针对每个分组样本训练最终模型基于FastText和txtCNN做stacking的基学习器分别为和。 在stacking基学习器的内部采用Boosting集成方法通过参数扰动针对每个样本生成n个弱学习器队列每个弱学习器队列中包含m个弱学习器形成2个弱学习器矩阵。基于Boosting融合最终得到两个强学习器队列分别为以下两个 基于线性回归对两个强学习器队列做stacking融合最终的模型队列 预测阶段 将经过文本表示处理的待预测打标的VOC原声数据分别输入队列中的每个模型模型输出预测结果队列 和预测的置信分数队列 取分数最高的预测结果作为最终的标签预测结果。 VOC全量标签整合 对于淘内存量VOC标签的整合工作核心解决数据和标签的多源问题在项目过程中遇到的问题主要是会话session和单聊、单评论的冲突通常一段会话中包含多个语义即多个标签同时多处源头的原声数据为黑盒其标签并未打到原声粒度以轻度汇总形式存在都对标签数据整合带来了挑战。具体的整合策略为 对于商家客服的session首先将其按照时间分拆为不同的touch进一步去除废话、黄暴等文本分拆成单条关键message在粒度上和其他文本进行统一。对分散的数据按照一个buyer_id在一个time_stamp就一个item_id向一个seller_id的发起文本沟通的用户行为动线进行原声的关联。需注意当用户是从详情页进入客服页面item_id值不为空当用户是从消息页进入客服页面且session中不包含商品链接时item_id为空。对所有来源的VOC文本数据基于生成的message_id加上seller_id和时间戳生成MD5编码做弹内全局唯一标识primary_key。标签整合对淘内存量的VOC原声数据-标签进行分析后发现不同源头的标签原声数据交集比例极低即各方都是基于全量VOC原声中的某一子集做生产。因而对于不存在交集VOC原声-标签可直接做拼接。存在交集的部分以行业需求为最高优先级进行去重计算。标签结构的维护 标签体系的结构以ODPS维表的形式维护后续的项目迭代及整合均以该维表的变更为准淘内各存量源头与标签体系的映射关系分别维护ODPS维表供原始查询使用。 VOC标签主动发现 ▐ 为什么要做标签主动发现 上文章节所述都是基于设计好的标签体系对淘内的VOC数据进行标签生产基于生产后的VOC原声进行分析发现用户体验问题。而在实际的业务场景中往往存在大量的未被定义、未被发现的问题以体验平台产品为例多个业务类别下无法归档至已有标签的原声量占比高达40%-60%。同时在实际需求对接过程中也存在业务对所需的标签结构没有清晰定义的情况此时也需要基于问题的主动发现结果给业务做选择题。对未被发现的体验问题做主动发现与定义对于体验问题的洞察有巨大价值。 ▐ 标签主动发现当前的技术路线 标签主动发现能力建设的主要技术路线为基于VOC文本聚类做问题发现然后进行定义。以【详情】、【支付】等业务场景为试点进行落地已初步具备规模化生产与交付的能力。 当前存在主要难点 聚类效果衡量指标业务侧衡量指标难以确定技术侧采用纯度、兰德系数与F值来来衡量但业务侧对聚类效果的衡量在聚类簇数、聚簇分割的粗细程度上完全基于主观判断不同的场景其判断标准并不一致例如在【详情】业务的聚类过程中前后交付的版本中20簇和40簇的分割均为正确分割但业务侧实际使用过程中认为20簇太粗40簇太细之后采用DBSCAN、Brich等方法进行实验无需指定簇数但仍需输入半径等其他相关启动参数且自动簇数的方式结果与需求方预期颗粒度并不匹配。我们基于现有场景做了大量技术调研并进行了40余组对照实验后确定了当前的技术路线。 当前实施的技术路线 主要探索了两条技术路线 对于聚类算法启动时需要的eps、 min_samples、簇数等关键参数以实验得到的经验值为基础在做实际场景的聚类计算时基于经验值做微调该路线优点是计算速度快缺点是以存量实验为基础在面对越来越多的下游场景时经验值往往“不靠谱”。对于聚类算法启动时需要的eps、 min_samples、簇数等关键参数进行大范围的参数策略搜索得到最优启动参数值该路线的优点是保证参数策略最优解缺点是需要消耗大量ODPS队列计算资源运行速度慢。 在实际的项目中暂时确定第二种路线作为主要的聚类实施方案同时考虑到聚类项目中存在大量基于场景的一次性计算的现象为了保障聚类效果及提升开发效率具体实施的方案为 通过实验确定在聚类中文本表示的最佳方案为TFIDF和基于BIOCRF生成的二元关键短语的方法。算法选型综合考虑确定DBSCAN和层级聚类作为基本聚类算法。对于DBSCAN启动所需的半径、最小样本数参数组层次聚类所需的簇数参数基于全量VOC数据在大跨度范围内进行暴力搜索得到最佳参数组并进行存储。将分词TFIDF最佳参数组封装为UDF函数提供给下游使用仅支持DBSCAN和层级聚类下游基于UDF中的最佳参数做一次性计算快速得到聚类结果允许进行小范围的参数微调。下游完成一次性计算后会将下游场景下进行聚类的文本数据及聚簇结果通过函数insert到线上VOC数据表中次周将基于合并后的新数据集进行暴力搜索计算得出新的最佳参数组。 VOC标签服务优化 交付模式优化 对于需要进行批量大规模训练生产的标签需求如【详情行业化】以标签生产结果ODPS表交付对于轻量的标签需求提供代码/成熟model/算法框架实验策略供下游快速产出分析对于聚类等需求将动态参数的寻优、基础模型训练等复杂计算封装提供UDF、D2工作流两种模式供下游做一次性计算。 总结 我们以淘宝用户体验项目为驱动建设了淘宝用户体验VOC标签体系同时在生产过程中沉淀了一套稳定的标签生产SOP行业标签生产周期缩短至一周左右。在支持用户体验项目及产品上发挥了VOC原声挖掘的价值。我们也会持续在VOC大模型应用、VOC标签服务化等方向上持续探索优化欢迎大家多多交流。 团队介绍 我们是大淘宝技术行业数据技术团队是集团内离业务最近的数据团队团队深耕数据技术多年在数据研发、数据挖掘、数据治理等方面都有丰富的经验致力于围绕商家、商品、消费者、营销、行业等电商全域要素面向淘宝天猫最复杂的业务场景提供全方位、多层次的数据服务。当前团队正在招聘中欢迎拥有数据技术背景的同学加入。有兴趣可将简历发送至lyf222310taobao.com。 ¤ 拓展阅读 ¤ 3DXR技术 | 终端技术 | 音视频技术 服务端技术 | 技术质量 | 数据算法