网站开发流程,广州哪家网站建设好,做网站公司汉狮,行业网站建设优化案例文 | Qs.Zhang张拳石知乎可解释性研究一直有两副嘴脸#xff0c;一副烈火烹油繁花似锦#xff0c;一副如履薄冰零丁洋里叹零丁。在2018年我开始发知乎是为了“活着”——被刷榜为王的风气屡屡打击之后#xff0c;一朝中稿#xff0c;倒过一口气来#xff0c;终于可以跟大家… 文 | Qs.Zhang张拳石知乎可解释性研究一直有两副嘴脸一副烈火烹油繁花似锦一副如履薄冰零丁洋里叹零丁。在2018年我开始发知乎是为了“活着”——被刷榜为王的风气屡屡打击之后一朝中稿倒过一口气来终于可以跟大家说一声看在可视化之外这也是可解释性也是一个研究方向。可我没想到两年后我需要继续为了“活着”而继续发知乎——如果研究仅仅停留在自圆其说的直觉层面如果每种解释都可以自圆其说那么就不存在正确的解释了而且据我观察这样的文章的中稿率是很低的。在这方面只有个别的扎实的研究比如Shapley value它为“正确的归因热图”列出了看似不证自明但又很难实现的四大数学标准它通过满足这些性质或标准来体现其解释的严谨性。如果没有理论保证其严谨性和客观性不把技术变成科学那么解释性研究迟早进退失据砸了牌子覆巢之下无完卵。当然了在各种学术邀请报告上还是需要端着第一副嘴脸。不要误会这篇不是可解释性劝退文相反我对其有一半的信心有可能一事无成到头来空发一些论文也可能真正做出少许扎实的工作。这种半生半死的不成熟方向有时候是最精彩的最有潜力的。可能因为我在学术方面还不够刻薄所以在自信和自省的人肉对抗训练中前者还没有败还会坚持。说到可解释性的“客观严谨性”往往意味着“一般性”和“唯一性”即“唯一标准的解释”。“一般性” 比较容易理解就是说算法的建模方法要看上去更加标准与前人理论有更多的连接而不是针对特定情景的ad-hoc技术。相比之下解释的 “唯一性” 很少有人提及或者有人不仅反问“凭什么是唯一的呢”这里我们就要对“什么是好的解释”提出一些限定性的要求比如好的解释必须满足怎样的条件并对这些条件进行建模这时“唯一性”就体现在满足这些条件下的唯一解。往小了说对解释性的要求条件可以是Shapley value对应的四大公理往大了说对解释性的要求也可以是解释性指标的适用范围比如同一个指标可以“即解释语义又解释泛化还解释迁移”。跳出刚才的话题现在让我们面对整个解释性领域。一个研究方向是否“活着”或者是否“以后依然可持续活着”不在于这个领域里面发表了多少篇论文也不在于有多少引用而是某个研究方向上还有多少本质的问题点没有被数学建模没有被解决当然这里指的是扎实的建模而不是刻意挂着某个新概念去炒作。归根到底我还是绕不开老朱的前瞻和影响战略科学家2015年一句“深度学习已经xx了”足够我消化十几年——当一个人帮你把灌水的捷径全部都堵死的时候你需要从泥巴里硬刨出一条路这可能才是学术要走的——虽然很可能死在半道上早有了“自己的笑话自己看”的心理准备了。前段臭文艺了现在回到解释性问题的原点。神经网络可解释性研究的初衷其实非常简单就是让调参或炼丹式的神经网络训练和设计得到理论指导让神经网络所建模的信息得到可靠性的检验。但是这样的初衷所带来的研究难度也是非常大的简要来说一个可靠的可解释性研究需要同时满足以下几个要求。需要对解释目标进行直接的理论建模而不是基于直觉提出间接的解释算法。需要定量的解释结果而非定性的解释结果。需要对解释结果的客观性或严谨性给出评测或者证明。而不是仅仅要求解释结果从直觉上看上去好看。对于很多新兴解释性问题有时候我们无法给出直接的评测或者神经网络的ground-truth。这时需要通过更加扎实的理论体系来证明数学建模的严谨性。比如Shapley value的严谨性是通过它满足四大公理来保证的。类似地你的建模方法也需要满足大量的公理或者展现出很好的性质来体现此解释性建模方法的严谨性。再比如不同解释性算法或者解释性指标之间如果可以做到相互印证这样的解释往往是更加严谨的。解释性理论需要有外延应用上的推导需要在现实应用中解释各种现象或者可以直接反馈指导神经网络的设计和训练。简单总结一下可解释性不仅仅需要“实验评测”语义更需要“理论解释并建模”语义背后的“信息处理机理”打通“直觉上的语义”与“数学建模”的壁垒打通“数学上的泛化边界”与“符号化语义/知识表达”间的壁垒。让解释性变成扎实一些的研究。不把基础打扎实了领域的声誉就坏掉了。“数学上的泛化边界”或叫“神经网络的表达能力”都是目前学界研究的新突破口只可惜大部分研究没有把现有理论和语义解释统一构建在同一个体系。目前在可解释性领域中各种算法理论往往都是零丁洋里一个个破碎零丁小点没有连接起来没有相互印证。没多少人叹零丁更没多少人填海。另一方面上述要求都是让人崩溃的需要从头学从头补漫无边际拍脑袋。这两年失败了不知多少次。如果做不出来我可以去工业界“不如回家卖红薯”但是学生们都要发论文毕业的我就没有后退的理由了。虽然常常被我批评但是很多学生都是非常优秀的很多自觉跟随的学生一直996经历了很多失败的尝试即使做出些东西也未必会被主流认可。这些不是他们的年纪必须承受的我也无法补偿所以希望大家关注一下他们的成果。我感觉几年后他们中一些人是可以成长起来的。当然了后面讲的一些研究都是学生们最近刚刚做的理论还不牢固证明中还是需要很多的近似假设离真正的目标还差得很远。总的来说《神经网络的交互可解释性》主要介绍了我们课题组近期五篇论文中的研究内容基于博弈论来定义、建模、量化神经网络所建模的变量交互效应推导相应的定理体系并基于此博弈交互作用来定量解释神经网络所建模的不同语义类型在知识表达层面解释对抗攻击的效用和神经网络的泛化能力。神经网络可解释性研究需要更多的数学工具和丰富的证明需要新的体系需要体系中不同研究间的相互印证需要在数学层面将网络结构与知识表达关联起来需要将知识表达与模型性能关联起来。以上种种都是这些研究的初衷但远远不是几篇文章可以解决的问题。目前的成果只是前期的探索还远远称不上什么体系。寄蜉蝣于天地渺沧海之一粟。哀吾生之须臾羡长江之无穷。独上高楼望尽天涯路。文章体系一、前言漂在零丁洋里的体系二、博弈交互概念、定义、定理、推论、与计算动机建模知识连接性能背景基础Shapley value双变元博弈交互多变元博弈交互及其近似计算多阶博弈交互相关定理与推论自然语言交互树三、博弈交互与知识表达的关系为何要对视觉语义进行建模局部纹理特征、全局纹理特征、组成部分半信息特征组成部分全信息特征的建模语义特征的泛化性四、博弈交互与对抗攻击的关系推导证明与实验证明博弈交互与对抗迁移性的负相关关系推导证明多个前人迁移性增强算法可近似归纳解释为对博弈交互的抑制交互损失函数与迁移性的增强五、博弈交互与泛化能力的关系推导证明与实验探索交互强度与泛化能力的关系证明Dropout对交互强度的抑制交互强度损失函数与泛化能力的提升下面仅介绍第四、第五两章博弈交互与对抗攻击的关系大家好我们是王鑫和任洁是张拳石老师Qs.Zhang张拳石 的博二、博一的学生。“博弈交互与对抗攻击的关系”的研究是在张老师的指导下我们共同牵头领导完成的。对应论文 Xin Wang, Jie Ren共一, Shuyun Lin, Xiangming Zhu, Yisen Wang, Quanshi Zhang, “A Unified Approach to Interpreting and Boosting Adversarial Transferability” in ICLR 2021本研究包括以下三个方面。我们提出并验证了对抗扰动单元间博弈交互与对抗迁移性的负相关关系。我们推导证明了前人的多种迁移性增强算法可以近似归纳解释为对这种博弈交互的抑制。我们提出一个损失函数在攻击过程中直接抑制博弈交互从而增强对抗迁移性。实验证明该损失函数在各种设定下均能够显著提高对抗扰动的可迁移性。在大多数情况下相对于对比组加上抑制博弈交互损失函数后所产生的对抗样本的可迁移性提升一般都在10%以上。进一步地我们将能降低博弈交互的攻击方法进行组合。在我们的实验中该方法将所产生的对抗样本的可迁移性由48.9%~98.5%提升至了69.8%~99.1%。博弈交互与对抗迁移性的负相关关系近年来深度神经网络的对抗训练越来越受到关注很多研究使用在源DNN上生成的扰动攻击其他目标DNN探讨了对抗扰动的可迁移性并提出了许多方法增强对抗扰动的可迁移性。但是在前人研究中这些方法提高迁移性的内在机理仍不清楚。本研究从对抗扰动内部的博弈交互这一新的角度解释对抗扰动的可迁移性基本思路如下首先我们定义了对抗扰动内部的博弈交互值。其次我们推导证明了多步对抗攻击得到的对抗扰动往往比单步攻击得到的对抗扰动显示出更强的博弈交互作用。根据文献[1]比起单步攻击的对抗扰动多步攻击产生的对抗扰动往往更容易过拟合源DNN的参数且可迁移性较低。我们认为复杂的博弈交互反映了对抗扰动对源DNN的过拟合从而损伤了其在目标网络中的可迁移性。因此我们提出假设对抗扰动的迁移性与其内部的博弈交互是负相关的。我们进一步通过理论近似证明和比较实验验证了这一假设。交互值的定义我们定义了对抗扰动内部的博弈交互即基于Shapley Value量化对抗扰动不同单元间的博弈交互值。给定一个输入x用δ表示对抗攻击在样本x上生成的扰动。δ往往通过优化下面的损失函数得到。其中 表示分类损失函数。对于扰动向量δ我们用Ω{1,2, …, n}表示其中的元素全集δi表示第个像素上的扰动值称为扰动单元。对抗扰动δ的对抗效用被定义为我们基于博弈论中的沙普利值Shapley value定义两两对抗扰动单元之间的博弈交互作用对博弈交互的详细的定义与讨论请见第二章。对于每个对抗扰动单元 基于Shapley Value计算其对对抗效用Transfer Utility的贡献度表示为 。进一步定义扰动单元和之间的博弈交互为其中第一项表示将i, j视为一个整体 时对对抗效用的总贡献值, 这时δi和δj总是同时存在或同时不存在因此可以认为此时共有n-1个对抗单元即 。第二项为对抗扰动 不存在时对抗扰动单元对对抗效用的总贡献值。第三项为对抗扰动不存在时对抗扰动单元对对抗效用的总贡献值。如果 说明ij在一起能获得比各自单独贡献时更大的贡献值。这是一种112的效应代表ij之间存在正的交互作用。如果说明在一起能获得贡献值反而比各自单独贡献时更小。这是一种112的效应代表ij之间存在负的交互作用。提出假设基于上述定义我们提出并近似证明了以下proposition。Proposition 1 表明一般情况下与单步攻击相比多步攻击产生的对抗扰动倾向于表现出更强的博弈交互。直观来看较强的博弈交互意味着扰动单元之间的紧密联系这表明扰动向量对源DNN存在明显的过拟合。文献[1]指出多步攻击往往使产生的对抗扰动更容易过拟合从而导致可迁移性较低。因此我们提出假设对抗扰动的可迁移性与其内部的博弈交互呈负相关。验证一 我们通过实验比较了可迁移性较弱的对抗扰动和可迁移性较强的对抗扰动的博弈交互, 验证了这一负相关关系。基于ImageNet数据集我们在ResNet-34/152(RN-34/152)和DenseNet-121/201(DN-121/201)上分别产生对抗扰动并将ResNets上产生的扰动迁移到DenseNets中将DenseNets上产生的扰动迁移到ResNets中。图1显示了对抗迁移性与博弈交互之间的负相关关系其中横轴表示对抗扰动内部的博弈交互强度纵轴表示该对抗扰动在目标DNN上的的对抗效用。推导证明多个前人迁移性增强算法可近似归纳解释为对博弈交互的抑制验证二 对抗扰动的可迁移性与博弈交互之间的负相关性可以视为一种统一的角度去解释目前的迁移性增强算法的内在机理。即我们分析并近似证明了以下三种迁移性增强算法实质上降低了对抗扰动内的博弈交互。与此同时这些研究也间接验证了对抗扰动的可迁移性与博弈交互之间的负相关性。1Variance-Reduced Attack (VR Attack) [2]详细内容和证明可见论文以及附加材料。2Momentum Iterative Attack (MI Attack) [3]详细内容和证明可见论文以及附加材料。Proposition 2 和 Proposition 3 证明了一般情况下VR Attack 和MI Attack 相较于普通的多步攻击都能够降低对抗扰动的博弈交互。3Skip Gradient Method (SGM Attack) [4]SGM Attack利用ResNets中skip-connections的梯度信息来提高对抗扰动的可迁移性。SGM Attack修改了反向传播中的梯度可以将其视为在反向传播中添加了Dropout操作。我们证明了Dropout操作可以降低博弈交互的显著度详情见本文的第五章从而降低DNN的过拟合。因此这也证明SGM Attack降低了对抗扰动内的博弈交互。除了以上理论证明我们还设计了实验验证比较了以上攻击方法产生的扰动与baseline攻击[5]产生的扰动结果证明以上攻击方法显著降低了对抗扰动的博弈交互。交互损失函数与迁移性的增强验证三 基于以上发现我们提出了博弈交互损失函数通过在攻击过程中降低扰动单元间的博弈交互提高对抗扰动的可迁移性。基于以下公式我们同时优化分类损失函数和博弈交互损失函数来生成对抗扰动该方法被称为Interaction-Reduced Attack (IR Attack)。实验结果表明博弈交互损失函数可以显著提高对抗扰动的可迁移性达到目前最优的迁移性能。在大多数情况下相对于对比组加上抑制博弈交互损失函数后所产生的对抗样本的可迁移性提升都在10%以上。进一步的我们将能降低博弈交互的攻击方法进行组合。在我们的实验中该方法将所产生的对抗样本的可迁移性由48.9%~98.5%提升至了69.8%~99.1%。同时交互损失函数对迁移性的提升也间接验证了对抗扰动的可迁移性与博弈交互之间的负相关性。实验结果基于ImageNet数据集在AlexNetVGG-16等六种源DNN上我们使用IR Attack生成对抗扰动并将其迁移到VGG-16ResNet-152等7种目标DNN上。此外我们还将IR Attack应用到ensemble-based attack中如表1所示。与baseline attack [5]相比IR Attack在各种源DNN和目标DNN上都显著提升了对抗扰动的可迁移性。以上实验中的目标DNN都是未经过对抗训练的unsecured DNNs我们还在经过对抗训练的secured DNNs上对IR Attack产生的对抗扰动的可迁移性进行了测试其中Translation invariant attack (TI Attack) [6]是议中专门针对目标神经网络为对抗训练后的secured DNNs的攻击方法我们在TI Attack的基础上加入博弈交互损失函数得到TIIR Attack结果如表2所示。博弈交互损失函数也提升了针对secured DNNs的可迁移性。我们进一步将博弈交互损失函数和其他降低交互作用的攻击方法进行结合。如上文提到的MI AttackVR AttackSGM Attack这三种方法都在降低扰动单元之间的博弈交互。并且SGM Attack是目前迁移性能最好的攻击方法我们将博弈交互损失函数作为一种降低博弈交互的工具添加到SGM Attack中以进一步提高对抗迁移性。值得注意的是interaction loss只是降低博弈交互的一种直接手段我们可以将以上可以降低扰动间博弈交互的攻击方法结合到一起去共同降低扰动间的博弈交互以进一步提高对抗迁移性。因此我们提出了HybridIR AttackMIVRSGMIR Attack。此外我们还测试了IR Attack中博弈交互损失函数的权重对可迁移性的影响图3(a) 显示了对抗扰动的可迁移性随博弈交互损失函数的权重λ增加而增加。说明在一定范围内 对抗扰动的可迁移性时随内部博弈交互的降低而增大的这反映了对抗扰动的可迁移性与其内部的博弈交互的负相关性。我们还发现一个现象即使在不使用分类损失函数即仅使用博弈交互损失函数所产生的扰动也具有一定的迁移性。为了进一步研究博弈交互损失函数的影响我们仅通过博弈交互损失函数来生成对抗扰动而不使用分类损失函数。图3(b) 表明这样生成的对抗扰动仍然具有一定的可迁移性。这可能是由于这些对抗扰动会减少DNN中正常的博弈交互从而破坏了用于推理的正常pattern。【作者】王鑫上海交通大学博士二年级师从张拳石副教授。xinwang98.github.io/任洁上海交通大学博士一年级师从张拳石副教授。jie-ren.github.io/林澍昀上海交通大学大四本科生现在张拳石实验室进行实习研究。朱祥明上海交通大学大三本科生现在张拳石实验室进行实习研究。王奕森北京大学研究员/助理教授。http://www.cis.pku.edu.cn/info/1084/1637.htm张拳石上海交通大学副教授博士生导师。http://qszhang.com博弈交互与泛化能力的关系对应论文Hao Zhang, Sen Li, Yinchao Ma, Mingjie Li, Yichen Xie, Quanshi Zhang, “Interpreting and Boosting Dropout from a Game-Theoretic View” in ICLR 2021.大家好我叫张昊https://haozhang37.github.io是张拳石老师Qs.Zhang张拳石 的学生今年硕士一年级。“博弈交互与泛化能力的关系证明与实验”的研究是在张老师的指导下我跟课题组中李森、马银超、李明杰等同学共同完成的。在本课题中我们1发现过拟合的样本中往往建模了更强的博弈交互2证明了dropout对于博弈交互强度的抑制3提出了博弈交互损失函数能够进一步提升神经网络的泛化能力。相比于传统的Dropout交互损失函数能更加显式地控制对交互强度的惩罚在网络训练过程中实现从过拟合到欠拟合的精确控制并且克服了dropout和batch normalization的不兼容问题。探索交互强度与泛化能力的关系——过拟合的样本往往包含了更多的博弈交互在本课题中我们将从博弈交互的角度对dropout的效用进行解释与建模并提出了dropout的替代算法能够更好地发挥dropout的效用。首先我们将研究神经网络的泛化能力与网络所建模的博弈交互之间的关系。在这里我们使用的是第二章中所定义的双变元博弈交互。给定一个神经网络ϕ(i)表示在博弈论中定义的某一个输入变量i的重要性Shapley值。两个输入变量i和j之间博弈交互值I(i,j)被定义为当变量j存在时和当变量j不存在时 的变化量即 。博弈交互的具体计算方式请参考原论文或第二章。若变量j的存在能够让变量i的重要性增加即二者可以达到112的效果那么变量i、j之间的博弈交互为正。否则二者会有112的效果此时二者之间的博弈交互为负。博弈交互值的绝对值可视为博弈交互的强度。下图对神经网络所建模的双变元博弈交互的强度交互值的绝对值进行了可视化。人面部的格子往往与周边格子的博弈交互更大。进一步地I(i,j)能够被分解为不同阶的博弈交互分量如下其中Δf(S,i,j)f(S∪{i,j})-f(S∪{i})-f(S∪{j})f(S)。s表示像素i、j之外的背景中像素的多少。当背景中有较多的像素时s较大此时i和j之间的博弈交互可以视作高阶的博弈交互当背景中的像素数量较少时s较小i和j之间的博弈交互为低阶的博弈交互。关于上式的推导和多阶博弈交互的更多讨论请参考原文或第二章。我们通过实验发现在分类任务中过拟合的样本往往包含了更多的博弈交互,而正常的样本中博弈交互较小。证明Dropout对交互强度的抑制接下来我们将证明dropout是一种能够有效降低网络建模的博弈交互的算法。首先我们证明输入变量i与j之间的第s阶的博弈交互可以拆分为不同子阶的交互分量。然后我们证明Dropout操作可以降低全部子阶分量的博弈交互强度从而降低整体的交互强度。同时我们设计了一系列实验证明了dropout能够有效降低神经网络所建模的博弈交互。我们分别在有dropout和没有dropout参与的情况下训练神经网络。如下图所示未使用dropout的神经网络建模了更多的博弈交互。交互强度损失函数与泛化能力的提升基于上面的分析我们设计了交互损失函数作为对dropout效用的提升。我们使用设计的交互损失函数训练深度神经网络可以进一步提升网络性能。加上原有的分类损失函数总的损失函数如下其中λ0是交互损失函数的权重。和dropout相比我们提出的交互损失函数有如下优势第一交互损失函数能通过调整权重λ更加显式地控制对交互强度的惩罚。这样的显式控制能够在网络训练过程中平衡好过拟合和欠拟合。我们在实验中比较dropout和交互损失函数降低交互的强度实验结果验证了我们的结论。第二由于dropout和batch normalization的不兼容性一般不能在使用了bn的网络中使用dropout [1]。相较而言交互损失函数和bn是兼容的。我们的实验结果也验证了交互损失函数和bn的兼容性。在实验中我们使用交互强度损失函数训练了多个神经网络进行分类任务并尝试了不同的权重。下表给出了使用不同权重的交互损失函数训练的网络的准确率和使用dropout训练的网络的准确率。从表中可以看出一开始随着权重的不断增大准确率也不断增大当权重增大到一定程度再继续增大的时候准确率开始下降。这可能是因为当权重比较小的时候交互损失函数能消除过拟合的影响当权重大到一定程度的时候又会造成欠拟合。此外当选取合适的权重的时候使用交互损失函数训练的网络的准确率一般会超过使用dropout训练的网络。这表明交互损失函数能够提升dropout的效用。下图展示了使用不同权重交互损失函数的网络在训练过程中交互强度和准确率的变化曲线。首先我们发现随着权重的增大交互强度不断减小这验证了交互损失函数的有效性。其次当权重选择合理时使用交互损失函数训练的网络的性能一般会超过使用dropout训练的网络的性能可见交互损失比dropout更能有效地降低交互强度和提升网络性能。此外我们还探究了神经网络中适合加入交互损失/dropout的位置。如下表所示交互损失更适合加在低的卷积层。而dropout对于使用的位置并没有一个明显的倾向性。综上所述相比dropout交互损失有两个优势。一方面交互损失能够更有效地控制网络建模的过拟合/欠拟合程度而dropout无法显式地控制。此外和dropout不同交互损失和bn兼容。相较而言交互损失没有因bn的使用降低分类准确率。【作者】张昊上海交通大学硕士一年级师从张拳石副教授。https://haozhang37.github.io李森中山大学2019年本科毕业现在张拳石实验室进行实习研究。马银超华中科技大学大四本科生现在张拳石实验室进行实习研究。李明杰上海交通大学大四本科生现在张拳石实验室进行实习研究。谢熠辰上海交通大学大四本科生现在张拳石实验室进行实习研究。张拳石上海交通大学副教授博士生导师。qszhang.com后台回复关键词【入群】加入卖萌屋NLP/IR/Rec与求职讨论群后台回复关键词【顶会】获取ACL、CIKM等各大顶会论文集 [1] Cihang Xie, Zhishuai Zhang, Yuyin Zhou, Song Bai, Jianyu Wang, Zhou Ren, and Alan L Yuille. Improving transferability of adversarial examples with input diversity. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 2730–2739, 2019.[2] Lei Wu, Zhanxing Zhu, and Cheng Tai. Understanding and enhancing the transferability of adversarial examples. arXiv preprint arXiv:1802.09707, 2018.[3] Yinpeng Dong, Fangzhou Liao, Tianyu Pang, Hang Su, Xiaolin Hu, Jianguo Li , and Jun Zhu. Boosting adversarial attacks with momentum. In CVPR, 2018.[4] Dongxian Wu, Yisen Wang, Shu-Tao Xia, James Bailey, and Xingjun Ma. Skip connections matter: On the transferability of adversarial examples generated with resnets. In International Conference on Learning Representations, 2020.[5] Aleksander Madry, Aleksandar Makelov, Ludwig Schmidt, Dimitris Tsipras, and Adrian Vladu. Towards deep learning models resistant to adversarial attacks. In ICLR, 2018.[6] Yinpeng Dong, Tianyu Pang, Hang Su, and Jun Zhu. Evading defenses to transferable adversarial examples by translation-invariant attacks. In Proceedings of the IEEE Conference on Computer Vision and Pattern Recognition, pp. 4312–4321, 2019.[7] Xiang Li, Shuo Chen, Xiaolin Hu, and Jian Yang. Understanding the disharmony between dropout and batch normalization by variance shift. In CVPR, pp. 2682–2690, 2019.