建设网站要什么时候开始,炫酷响应式网站设计,第五次全国经济普查,如何看网站是否正常基于可变形卷积的大规模视觉基础模型的探索 文章目录 基于可变形卷积的大规模视觉基础模型的探索一、简介二、亮点三、项目功能四、模型的应用1、图像模态任务性能2. 图文跨模态任务性能 五、源程序下载 一、简介
本模型包括大规模视觉基础模型InternImage#x…基于可变形卷积的大规模视觉基础模型的探索 文章目录 基于可变形卷积的大规模视觉基础模型的探索一、简介二、亮点三、项目功能四、模型的应用1、图像模态任务性能2. 图文跨模态任务性能 五、源程序下载 一、简介
本模型包括大规模视觉基础模型InternImage预训练算法M3I-Pretraining通用解码器Uni-Perceiver系列以及自动驾驶感知通用编码器BEVFormer系列。
二、亮点
1、高达30亿参数的最强视觉通用主干模型 2、图像分类标杆数据集ImageNet 90.1% Top1准确率开源模型中准确度最高 3、物体检测标杆数据集COCO 65.5 mAP唯一超过65 mAP的模型
三、项目功能
1、 各类下游任务 2、支持[CVPR 2023 Workshop on End-to-End Autonomous Driving] 3、支持Segment Anything 4、 支持提取模型中间层特征详见 5、支持基于[DeepSpeed]的低成本训练 6、DCNv3算子预编译.whl包 7、 InternImage-H(1B)/G(3B) 8、 支持分类/检测/分割TensorRT推理 9、 InternImage 系列分类代码 10、 InternImage-T/S/B/L/XL ImageNet-1K 预训练模型 11、 InternImage-L/XL ImageNet-22K 预训练模型 12、 InternImage-T/S/B/L/XL 检测和实例分割模型 13、 InternImage-T/S/B/L/XL 语义分割模型
四、模型的应用
1、图像模态任务性能
分类任务
table border1 width90%tr aligncenterth colspan1 图像分类/thth colspan2 场景分类 /thth colspan1长尾分类/th/trtr aligncenterthImageNet/ththPlaces365/ththPlaces 205/ththiNaturalist 2018/th/trtr aligncenterth90.1/thth61.2/thth71.7/thth92.3/th/tr
/table
br检测任务
table border1 width90%tr aligncenterth colspan4 常规物体检测/thth colspan2长尾物体检测 /thth colspan2自动驾驶物体检测/thth colspan1密集物体检测/th/trtr aligncenterthCOCO/ththVOC 2007/ththVOC 2012/ththOpenImage/ththLVIS minival/ththLVIS val/ththBDD100K/ththnuScenes/ththCrowdHuman/th/trtr aligncenterth65.5/thth94.0/thth97.2/thth74.1/thth65.8/thth63.2/thth38.8/thth64.8/thth97.2/th/tr
/table
br分割任务
table border1 width90%tr aligncenterth colspan3语义分割/thth colspan1街景分割/thth colspan1RGBD分割/th/trtr aligncenterthADE20K/ththCOCO Stuff-10K/ththPascal Context/ththCityScapes/ththNYU Depth V2/th/trtr aligncenterth62.9/thth59.6/thth70.3/thth86.1/thth69.7/th/tr
/table
br/div2. 图文跨模态任务性能
**图文多模态任务**table border1 width90%tr aligncenterth colspan1图像描述/thth colspan2微调图文检索/thth colspan1零样本图文检索/th/trtr aligncenterthCOCO Caption/ththCOCO Caption/ththFlickr30k/ththFlickr30k/th/trtr aligncenterth148.2/thth76.4/thth94.8/thth89.1/th/tr
/table
br/div五、源程序下载
源程序下载地址基于可变形卷积的大规模视觉基础模型的探索