临沂营销型网站建设,wordpress游客变注册用户,空间商网站,如何做好商务网站的运营怎么做背景挑战
全面个性化、内容化的淘宝#xff0c;构造了基于内容的丰富的导购场景#xff0c;包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、头条、洋葱盒子….。个性化#xff0c;给消费者带来更精准的货品分发。内容化为消费者带来更多惊喜和好的体验…
背景挑战
全面个性化、内容化的淘宝构造了基于内容的丰富的导购场景包括猜你喜欢、有好货、每日好店、必买清单、哇哦视频、微淘、买家秀、头条、洋葱盒子….。个性化给消费者带来更精准的货品分发。内容化为消费者带来更多惊喜和好的体验“好的商品应该以更好的形式展现给消费者”。 不同于传统测试业务导购业务非确定性的输入输出给质量工作带来的两大挑战接下来会从这两个方面介绍
用户侧--千人千面导购推荐系统如何评估平台侧--多来源多类型高标准下如何高效管控素材质量
个性化评测
1.多维评估体系
推荐系统模型研发过程包含离线特征处理--模型网络设计--离线训练--离线预估--在线部署-- ab 实验--模型优化。
通常的评估手段包含两类
离线预估从算法模型视角包含 auc、f1score、precision、recall、NDCG 等指标在线评估从业务效果视角包含点击率、转化率、互动率、pv、uv 等指标
以上两类评估手段在用户体验方面存在不足会产生中长期用户体验诟病比如买了还推全域趋同等。基于此我们从五个维度定出了对于导购推荐全局评估指标体系 丰富度包含打散度、多样性、覆盖率等指标打散度为例指同一坑位或者同一页面图片主体商品主体是否过于同质是否有更丰富的商品推荐。友好度包含曝光过滤、购买过滤等指标买了还推等问题也是用户对电商类推荐系统诟病比较集中的地方。用户有比较比价等相关延展性的消费诉求但相比纯内容推荐用户对电商类推荐疲劳度会更低。相关度包含相关性、发现性等指标。推荐系统普遍基于协同过滤策略相关性对于短期匹配效率和发现性对于中长期兴趣、货品挖掘各有优劣需要整体平衡。可信度除涉黄、涉政等红线标准淘宝对于素材是否真实准确描述货品要求极高。包含标题党主体糅杂主体模糊不完整切割等。美观度牛皮藓、构图布局恶心主体等比如特写牙齿病皮肤病等素材不适合在首页、会场等公域场景透出。
2.统计学习评估流程
确定了评估标准评估流程包含以下几大步骤通过模型测试集输出推荐结果利用统计学习方法进行指标自动计算各指标相关性分析进行整体业务评估度量。 为什么采用统计学习方法
更精准的指标刻画比如推荐商品打散度服饰和箱包vs服饰和家装从传统规则类目、标签等分类他们是一样的差异但运用word2vec映射到高维向量空间能更精准地去刻画距离用于打散度和多样性等指标计算。多维度的全局评估整体指标好坏是一个非凸优化的问题各指标间有相互的平衡关系每一个场景在不同业务阶段关注的核心指标也会存在差异。需要通过统计学习的方法进行相关性分析因子分析等在几十个指标基础上形成置信基线的全局评估。
例下图为某导购场景评测指标相关性矩阵横纵分别为各评测指标例如在某一个阶段A指标和X指标正线性强相关却和Y指标负线性强相关。需要对评测指标进行综合统计分析才能对导购系统做出合理性的评估。 3.当前结果
基于5个维度建立多评测指标计算服务产出指标合理性置信区间基线运用于日常导购和大促会场等个性化评测。在淘宝大促个性化会场及时发现打散不足、推荐不足、重复推荐、推荐趋同、视觉同图等5类250个性化会场问题。提前优化第一次评测整体通过率90%通过多轮轮评测验证会场上线前整体通过率提升到99%。
素材质量管控
1.淘宝素材质量标准
电商平台素材包含商家商品发布、招商报名、导购选品、达人创作等来源文本、图像、商品、内容类等类型。素材质量对于用户体验、增长转化、平台质量都起到重要作用。而在这其中图像图片、视频作为体验表达的重要媒介是我们重点管控对象。
电商类业务在素材质量标准上有以下三个特点以某会场商品白底图部分基础规范为例 1素材信息表达要求准确避免图片与实物不符误导用户包含主体完整单主体无模特等要求。
2高质量图片转化效率更高feeds流下用户视觉输入的信息量大精美布局合理的图片更能脱颖而出有更好的转化平台也能提供更好的用户体验包含牛皮藓、纯白底、无阴影和抠图等。
3不同场景颗粒度差异比如商品主图的牛皮藓在公域会场和性价比营销场景标准颗粒度不一样轻微可接受、轻微不可接受。
2.素材质量管控方案
所以素材质量管控方案需要考虑不同场景检测能力能够快速生成甚至是能够让业务运营同学参与进来。基于此淘宝内容导购质量团队与淘宝基础算法团队合作基于多任务共享特征网络模型构建图像质量检测服务方案--水滴。通过快速图像检测能力生成解决不同场景劣质素材质量运营的问题提升素材质量和用户体验。
整体方案
将模型训练研发过程样本获取特征处理构建训练模型网络参数调优等工作通过共享模型训练和统一平台方式消减。快速、复用、灵活泛化的多模型产生。例牛皮癣检测模型1牛皮癣检测模型2牛皮癣检测模型n…并通过持续样本调整构建运营业务标准和建模桥梁。 共享模型策略特点
多任务共享特征提高识别效率多任务迁移学习网络模型各个任务共享基础特征减少基础特征重复计算提高预测效率多任务网络模型各个任务共享基础特征可以减少深度网络模型对各个任务的训练数据量需求比如对于牛皮癣、logo、水印等高度相似任务特征具有高度相似性可以显著提高各任务识别精度。但当任务间相似程度不是很⼤情况会增加模型的拟合难度为此我们采⽤ CurriculumLearning 训练策略、从简到难逐步进行网络学习同时模型上也结合半监督正则项充分利用了海量无标签数据进一步提高精度。噪声样本识别提高模型精度循环学习策略识别噪声标签样本提高训练数据质量进而提高模型最终识别精度详见论文《O2U-Net: ASimple Noisy Label Detection Approach for Deep Neural Networks》已被 ICCV (国际计算机视觉大会)采录。
为了提高模型最终精度深度网络对于训练数据精度要求很高然而很多图像质量任务都存在边界定义模糊、难标注等问题导致训练数据往往存在噪声标签为了解决图像质量数据难标注、噪声问题我们提出一种噪声标签识别方法通过采用循环学习策略方法使得模型反复在 overfifitting 和 underfifitting 之间相互转换网络在这种学习过程中干净标签样本和噪声标签样本会出现明显的区分性特征利用这种方法可以帮助我们很快找到那些训练数据集中的噪声标签样本提高训练数据质量最终保证模型精度。 工程架构和运转机制 3.当前结果
建立牛皮癣、多主体、模特衣架、低俗情趣、水印、二维码等 40 劣质素材检测模型提供离在线检测服务周均 2 亿服务运行对导购业务各类商品、内容劣质素材从供给端进行质量检测卡口治理累计检测出劣质素材 7500 万并下线过滤。
扩展—无线CVT测试
除了用于素材质量整体管控我们也在思考是否能将视觉技术引入测试领域构造检测断言用计算机代替测试人员的眼睛这样高效精准像素级发现问题自动回归。基于此构造了CVT--基于计算机视觉技术的自动化测试方案并落地实施。
基于feeds流的无线测试通常涉及到这些方面工作
多机多版本下适配测试容灾测试当服务端或模型产生异常兜底数据方案是否会正确透出异常检测是否出现空窗白屏错误提示框等视觉布局检测文字截图重叠布局留白等视觉要求像素级标准检测性能测试我们需要准确采集各机型毫秒级真实体感的渲染时间、可交互时间等
通过目标检测、轮廓提取、ocr、以及快速机器学习多任务模型生成能力全面运用到以上上线前内部的测试工作中。
例CVT适配自动化测试 例CVT视觉异常检测(空窗、白屏、错误框、模糊、截断等...) 3.当前结果
覆盖淘系大促会场、导购、二三方小程序、拍卖、阿里众筹等业务场景运行总任务数5500个发现问题近100个包括视觉还原像素级、空坑、多余留白、文本覆盖、文本截断、服务异常等问题。
总体展望
大数据系统质量评估需要业务、算法、体验目标三位一体综合衡量。数学思想、统计方法与质量工作结合很好提升测试效率和科学性。我们今年会持续在更多质量领域比如数据质量素材质量运营无线测试驱动去深化演进质量体系为用户带来极致的体验。
原文链接 本文为云栖社区原创内容未经允许不得转载。