网站mp3播放器代码,怎么创建一个博客网站,wordpress 获取分类别名,做网站原创要多少钱来源#xff1a;机器学习研究会订阅号【导读】深度学习模型#xff0c;尤其是卷积神经网络的计算成本问题主要是由于卷积层和全连接层中大量进行乘法运算造成的。华为异构实验室的研究人员提出#xff0c;用移位和求反运算代替乘法#xff0c;可有效缓解计算成本过高的问题… 来源机器学习研究会订阅号【导读】深度学习模型尤其是卷积神经网络的计算成本问题主要是由于卷积层和全连接层中大量进行乘法运算造成的。华为异构实验室的研究人员提出用移位和求反运算代替乘法可有效缓解计算成本过高的问题同时精度与传统模型差距很小。深度学习模型尤其是深度卷积神经网络已在多种计算机视觉应用中获得了很高的准确性。但是对于在移动环境中进行部署事实证明高计算量和功耗预算是主要瓶颈。卷积层和完全连接的层由于它们大量使用乘法是此计算预算的主要贡献者。本文建议通过引入两个新的运算来解决该问题卷积移位和全连接移位这两种运算替换了乘法并执行按位移位和按位求反操作。这套使用这两种运算代替乘法的神经网络体系结构称为DeepShift。 利用无需乘法即可实现的DeepShift模型研究人员在CIFAR10数据集上的准确度高达93.6在Imagenet数据集上的Top-1 / Top-5准确度高达70.9/ 90.13。在将所有卷积层和完全连接的层转换为按比特移位的对应层后研究人员对各种著名的CNN架构进行了广泛测试结果发现在一些架构中Top-1的准确性下降了不到4Top-5的准确度下降了不到1.5。实验在PyTorch框架上进行培训和运行代码与论文一起提交并将在线提供。深度学习模型尤其是DCNN已在多种计算机视觉应用达到了很高精度。但是对于在移动环境中的实例大计算量和高功耗带来的高成本仍然是主要瓶颈。对于卷积层和全连接层由于大量使用乘法成为推高计算成本预算的主要因素。本文通过引入两个新的运算来解决这个问题及卷积移位和全连接移位这两种运算代替乘法并用按位移位和按位求反。这套神经网络体系结构称为DeepShift模型。 DeepShift模型在CIFAR10数据集上的准确度高达93.6在Imagenet数据集上的Top-1/ Top-5准确度高达70.9/ 90.13。将所有卷积层和完全连接的层转换为按比特移位的对应层后对各个知名CNN架构进行了广泛测试结果发现在某些架构中Top-1的准确性下降了不到4Top-5的准确性下降不到1.5。实验在PyTorch框架上进行训练和运行代码与论文一起呈现并将在Github上给出相关资源。DeepShift原理与结构如图1所示本文的目的是用按位移位和位取反来代替乘法。如果输入数字的基本二进制表示形式A为整数或固定点格式则向左或右的逐位移位在数学上等效于将其乘以2的正s或负s次幂按位移位只能等效于乘以一个正数因为对于任何s值2的s次方 0。但是在神经网络中训练必须在其搜索空间中将其乘以负数尤其是在卷积神经网络中具有正值和负值的滤波器都有助于检测边界。因此我们还需要使用求反运算。求反运算在数学上等效于使用PyTorch的AutoGrad工具生成反向传递。为了模拟实际按位移位硬件实现的精度在应用前向通过之前LinearShift和ConvShift运算符的输入数据会四舍五入为定点格式精度。 MNIST和CIFAR 10测试结果图2 MNIST和CIFAR 10数据集测试结果对比 ImageNet数据集对比测试结果 使用随机梯度下降优化器对模型进行训练动量为0.9重量衰减为1×10−4。 使用的损失标准是分类交叉熵。 用于从头开始训练的学习率是0.1表3中为每个模型指定了用于训练预训练的转换模型的epoch数和学习率。可以通过查看前几批训练的准确性来手动调整训练每个转换模型的学习率如果准确性下降到未训练的DeepShift模型以下或者准确性比未训练的模型还低则说明权重“无法学习”因此学习率太高需要调低。图3 ImageNet数据集测试结果对比论文链接https://arxiv.org/pdf/1905.13298.pdf未来智能实验室是人工智能学家与科学院相关机构联合成立的人工智能互联网和脑科学交叉研究机构。未来智能实验室的主要工作包括建立AI智能系统智商评测体系开展世界人工智能智商评测开展互联网城市云脑研究计划构建互联网城市云脑技术和企业图谱为提升企业行业与城市的智能水平服务。 如果您对实验室的研究感兴趣欢迎加入未来智能实验室线上平台。扫描以下二维码或点击本文左下角“阅读原文”