当前位置: 首页 > news >正文

上海大学生兼职做网站wordpress 报表

上海大学生兼职做网站,wordpress 报表,产品设计就业方向,注册公司没有地址怎么解决Paper: https://arxiv.org/pdf/2401.16158Github: https://github.com/X-PLUG/MobileAgentAuthor: Junyang Wang et al. 北交、阿里巴巴 Mobile-agent核心工作#xff1a; 首先使用视觉感知工具(检测和OCR模型)识别前端界面中文本和图像元素的精确位置 检测图标#xff1a;… Paper: https://arxiv.org/pdf/2401.16158Github: https://github.com/X-PLUG/MobileAgentAuthor: Junyang Wang et al. 北交、阿里巴巴 Mobile-agent核心工作 首先使用视觉感知工具(检测和OCR模型)识别前端界面中文本和图像元素的精确位置 检测图标groundingdinoAI-ModelScope/GroundingDINOOCR检测damo/cv_resnet18_ocr-detection-line-level_damoOCR识别damo/cv_convnextTiny_ocr-recognition-document_damoCLIPViT-B/32 然后基于这些视觉元素进行自动规划、任务分解和一步一步的任务执行提出了一个评测数据集Mobile-Eval评估操作的准确性 文章目录 1 Mobile-Agent框架介绍1.1 视觉感知部分1.2 指令执行1.2.1 操作定义1.2.2 自我规划(Self-Planning)1.2.3 自我反省(Self-Reflection)1.2.4 Prompt设计(启发自ReAct) 2 Mobile-Eval2.1 Metrics 3 操作示例4 操作工具5 程序运行流程 1 Mobile-Agent框架介绍 1.1 视觉感知部分 MLLMGPT-4V文本检测模型文本定位OCR tools OCR没有检测到指定文本agent重新选择文本或者选择替代操作OCR检测到一个包含指定文本的实例直接点击文本框的中心OCR检测到多个包含指定文本的实例如果检测到的实例特别多则需要重新选择文本实例如果实例数量比较少根据检测据区域外扩后截图再将检测框画在截图上最后让agent决策点击哪一个 图标检测模型图标定位icon检测工具CLIP 首先让agent提供需要点击的icon的属性颜色和形状然后使用Grounding DINO通过prompt “icon”从屏幕截图中识别所有的图标最后使用CLIP根据第一步产生的图标的描述来检索需要点击的图标 1.2 指令执行 1.2.1 操作定义 定义了8种操作 Open APP(App): 打开桌面上的指定APPClick the text(Text): 点击指定区域内的文本Click the icon(Icon, Position) 根据图标的描述和位置的坐标信息Type(Text): 在指定的文本输入框内输入文本Page up down 向上或者向下滑动页面Back 退回上一个页面Exit 回到主页面Stop 任务完成的标志结束整个进程 1.2.2 自我规划(Self-Planning) Mobile-agent通过迭代的方式完成任务 首先用户输入任务agent基于system prompt历史操作记录当前屏幕截图输出下一步的操作直到输出stop就结束迭代 1.2.3 自我反省(Self-Reflection) 当agent遇到错误导致无法完成任务时该文章引入了一个自我反省self-reflection的机制这个机制在以下两种情况生效 1当agent生成无效或者错误操作导致进程阻塞具体地 当agent注意到在特定操作后屏幕截图没有发生改变屏幕节目展示出一个错误的页面 解决方案 指导agent尝试其他可代替的操作或者改变当前操作的参数 2忽略某些复杂指令的某些要求 解决方案 在每轮迭代结束后使用agent去分析当前的屏幕截图、操作历史和用户指令去判断任务有没有完成没有完成则继续产生操作。 1.2.4 Prompt设计(启发自ReAct) Output格式 Observation: 对当前屏幕截图历史操作的描述帮助agent去发现屏幕截图是否有更新并基于历史记录及时发现问题 Thought: 基于Observation和用于指令去产生下一步的操作 Action: 基于Thought从8个操作指令集中选择操作和参数2 Mobile-Eval 包含10个常用Apps引入同时使用2种App的instruction去验证agent多app调用的能力每个App使用3种instruction简单、复杂、包含抽象指示 2.1 Metrics SuSuccess Agent完成用户指令被认为是成功PSProcess Score 衡量agent在执行任务过程种每一步的准确性正确的步数除以总步数RERelative Efficiency 手动执行指令并记录人类所采取的步骤认为人类的操作是最优的操作然后比较agent执行的步数和人类执行的步数来评估agent是否更有效率CRCompletion Rate 计算agent采用跟人类相同操作的步数除以人类操作的总步数表示agent在指定instruction下的完成率 3 操作示例 4 操作工具 通过ADB来实现对手机的操控 下载Android Debug Bridge。在你的移动设备上开启USB调试或ADB调试它通常需要打开开发者选项并在其中开启。通过数据线连接移动设备和电脑在手机的连接选项中选择传输文件。用下面的命令来测试你的连接是否成功: /path/to/adb devices。如果输出的结果显示你的设备列表不为空则说明连接成功。如果你是用的是MacOS或者Linux请先为 ADB 开启权限: sudo chmod x /path/to/adb。/path/to/adb在Windows电脑上将是xx/xx/adb.exe的文件格式而在MacOS或者Linux则是xx/xx/adb的文件格式。 5 程序运行流程 GDINOAI-ModelScope/GroundingDINOCLIPViT-B/32ocr_detectiondamo/cv_resnet18_ocr-detection-line-level_damoocr_recognitiondamo/cv_convnextTiny_ocr-recognition-document_damoLLMChatGPT-4V
http://www.zqtcl.cn/news/71025/

相关文章:

  • 做海报的话网站2022最近的新闻大事10条
  • 建设工程消防验收网站昆明学校网站建设
  • 河南省网站建设北京市网站建设公司
  • 网站开发开票税率cent7.4安装wordpress
  • 网站开发目的建设行业网站价格
  • 湖南监理建设协会网站微信分身版下载微信2
  • 现成的手机网站做APP网站访问者qq
  • 免费网站空间申请网站开发过程可分为
  • 马鞍山网站建设制作怎样建设企业网站 用于宣传
  • 网站添加flv视频代码在网盘上怎么做自己的网站
  • 电影网站模板源代码ps做网站图
  • 做网站用花生壳哪个版本宁夏网站建设联系电话
  • 昆明网站建设公司排名网站为什么会出现死链
  • 服装鞋帽商城网站建设猎头公司收费标准
  • 网站建设系统源码网站专业技能培训机构
  • 记事本做网站背景色怎么弄自适应h5网站模板
  • 成都网站建设公司创新互联58网站怎么样做效果会更好
  • 乐清网站制作优化海南省建设厅官方网站
  • 网站分类目录有哪些app软件开发公司
  • 官方网站建设银行2010年存款利息网站流量是如何计算的
  • wordpress能做大站吗帮助做APP的网站公司
  • 360网站排名怎么做寻乌网站建设
  • 外贸网站优化服务程序员公司有哪些
  • 网站修改关键词动漫与游戏制作这个专业怎么样
  • 宁波网站建设 泊浮科技创意型网站建设
  • 商务网站管理与建设seo运营
  • wcm 可以做网站吗腾讯云域名服务商
  • 网站开发项目教程wordpress做静态网页
  • 建一个全部由自己控制的网站需要多少钱个人网站咋推广啥叫流量
  • 柳州做网站设计的公司网站建设logo设计