当前位置: 首页 > news >正文

西安企业网站建设高新区造价工程师网

西安企业网站建设高新区,造价工程师网,现代农业园网站建设方案,阿里云建设网站费用2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛B题 解题全流程#xff08;持续更新#xff09; -----基于多模态特征融合的图像文本检索 一、写在前面#xff1a; ​ 本题的全部资料打包为“全家桶”#xff0c; “全家桶”包含#xff1a;模型数据、全套代码、训练好的模…2024 年(第 12 届)“泰迪杯”数据挖掘挑战赛B题 解题全流程持续更新 -----基于多模态特征融合的图像文本检索 一、写在前面 ​ 本题的全部资料打包为“全家桶” “全家桶”包含模型数据、全套代码、训练好的模型权重、结果csv、教程、详细实验过程PPT、教学视频、成品论文(还在写作中后续跟新至文件中)、 (赠品)基于正式数据的毕设级项目多模态图文互检系统达到“以赛促学”的目的从0到1从环境配置开始到模型构建、数据准备、模型训练、模型recall_TOP1、5、10召回验证、文到图预测、图到文预测、预测结果后处理为result.csv。全流程教学良心制作。本题基于Chinese Clip 多模态图文互检模型进行微调模型、知识蒸馏根据赛题示例数据进行模型训练。对比A题B题C题B题C题偏难相对选择人少容易获奖并且论文非常好写出创新和模型对比优化等核心部分。 二、结果展示 2.1 任务一 构建图文互检多模态大模型以及评价指标展示 本题模型的验证集就是附件一的全部数据1k个对图文分别构成了训练集和验证集在验证集上的召回验证结果 2.2 任务二文到图检索结果展示 展示问题二 利用附件 2 中“word_test.csv”文件的文本信息 对附件 2 的 ImageData 文件夹的图像进行图像检索并罗列检索相似度较高的前五张图像预测结果的样例展示 result2.csv 任务三 图到文检索结果展示 result2.csv: 三、解题流程 3.1 【样例数据】附件一 1k个图文对 数据分析与预处理 1、查看文本数据句子长度根据句子长度与句子的特征进行文本处理 针对短文本可以不用做处理一般表示的就是这张图片的主体意思针对长文本需要使用句子特征(如【】、《》)进行提取再根据命名实体识别、句子“主题式概括”进行罗列该图片的主体意思 再对图id与文本id进行重新id编码 处理结果如下所示 2、进行模型构建训练的数据本着样例数据少1k个图文对就不划分训练集和验证集数据了直接训练集是1k个图文对验证集也是1k个图文对分别处理为对应的clip模型数据jsonltsv格式 其中tsv数据格式 不是将图片以大量的小文件方式存放而是将训练/验证/测试图片以base64形式分别存放在${split}_imgs.tsv文件中。文件每行表示一张图片包含图片idint型与图片base64以tab隔开 最后经过序列化代码对模型数据进行序列化转换为模型训练的输如数据。进行模型训练 3.2 模型训练 1、根据序列化的训练数据选择模型合适的预训练权重进行模型训练主要的坑在于该Chinese Clip模型的库文件配置不详、环境配置不详并且训练的方式只能是分布式就是一个机子没有分布式都得填入伪分布式配置就会导致训练失败模型的训练环境要求、以及所需库文件版本在教学视频和教程中有详细描述并且整理为clipenv_requirements.txt。 3.3 任务二的结果预测 1、针对任务二的“文到图检索”首先需要对附件二的图数据、文本数据依旧需要处理如上3.1的文本数据处理。针对长短文本的处理进行制作为tsv、jsonl格式 2、送入模型进行特征提取输出每个图片的特征矩阵、每个文本的特征矩阵数据 3、根据特征数据进行预测对每个文本id进行预测近似的5个图片id 4、根据预测结果将文本id与图片id根据前期处理的对照表进行名称配对使用pands进行表格处理得到result1.csv 3.4 任务三的结果预测 1、针对任务二的“图到文检索”如任务二流程一样数据准备 2、模型特征提取 3、根据特征数据进行预测对每个图片id进行预测近似的5个文本id 4、配对、result2.csv 四、全家桶内容展示 正式数据出来后也会更新全家桶的内容。 五、tips 获取全家桶 “https://afdian.net/item/8cc7f3dae8d111eeb7b05254001e7c00“历时5天晚上抽空制作精心打磨保证物有所值 后续时间不定可能比赛结束后用时一周时间全家桶赠品后续跟新会基于这个写一个可以做毕设或者课题申请、大创等展示作品基于streamlit开发展示界面效果类似于如下你完全可以收集一些专业领域的图文对、例如旅游、科研器材等进行模型训练然后填入该训练的模型权重基于你的训练数据进行图文互检的功能这不又省了一个毕设了吗2333创新点就可以是模型迁移、模型知识蒸馏等对比实验提高了一点评价指标。
http://www.zqtcl.cn/news/742366/

相关文章:

  • 长辛店网站建设手机评测网站
  • 网站建设公司选哪个好软件开发
  • 隐形眼镜网站开发的经济效益莘县网站开发
  • 开创集团网站建设如何在学校网站上做链接
  • 上海优秀网站设计百度投诉中心人工电话号码
  • 卖建材的网站有哪些跨境电商工具类产品的网站
  • 做毕业网站的周记网站开发项目书
  • 门户网站价格仿站工具下载后咋做网站
  • 国外优秀ui设计网站常州网站建设电话
  • 大连手机网站建设做外贸无网站如何做
  • 做旅游门票网站需要什么材料人工智能培训机构哪个好
  • 免费的网站程序个人网站可以做论坛么
  • ps中网站页面做多大的wordpress cdn 阿里
  • 深圳整站创意设计方法有哪些
  • 浙江做网站多少钱江门市网站开发
  • 保定建站价格dw软件免费安装
  • 在建设部网站上的举报凡科网怎么建网站
  • wordpress做小说网站工作期间员工花钱做的网站
  • 婚介网站方案小说网站架构
  • 英文在线购物网站建设湖北建设厅举报网站
  • 漯河网络推广哪家好宁波网站seo公司
  • 网站设计ppt案例做物流用哪个网站好
  • 做网站官网需多少钱天元建设集团有限公司财务分析
  • 一般网站建设用什么语言网络规划设计师历年考点
  • 做网站卖菜刀需要什么手续江苏网站优化
  • 花生壳内网穿透网站如何做seo优化鞍山58同城网
  • 怎么为一个网站做外链跨境电商app
  • 医疗网站不备案seo技巧课程
  • 网页和网站有什么区别湖南省郴州市邮编
  • 公考在哪个网站上做试题武威做网站的公司