安徽中擎建设公司网站,易县做网站的在哪,网站开发电脑内存要多少,做网站要霸屏吗方法 结果
在这一部分#xff0c;我们展示对于每个模型比较的聚合的统计分析当涉及到计算特征和独立的特征组#xff08;表格1#xff09;#xff0c;抽取功能组和对齐重要功能组#xff08;表格2#xff09;#xff0c;并且最后#xff0c;我们提供从模型比较#x…方法 结果
在这一部分我们展示对于每个模型比较的聚合的统计分析当涉及到计算特征和独立的特征组表格1抽取功能组和对齐重要功能组表格2并且最后我们提供从模型比较LANGUAGE模型v.s.MAIN IDEA模型中获取的样例。由于长度限制我们只展示了这个比较的细节样例。相似的图片和相关性分析展示在Github上。
1.独立特征组
因为每个训练好的模型都从他们的训练集合中留出一个不同集合的主题分析集中相同的主题需要被识别出来并且那么抽取的特征的数量和导致的独立特征组在每个模型比较中不同。 为每个模型比较计算独立的特征组表格1对所有的比较都产生了在原先70%和77%之间的抽取的特征除了LANGUAGE V SUPPORT和原先的特征相比只产生了57%独立特征组不同比较之间所对齐的特征组类型差异很大。
2.功能组件组 每个模型的初始功能组件提取引发了28到119个功能组件的数量。表格1和2展示了对于一个给定的模型更少的功能组件被抽取如果在分析数据集中有更少的样例。 除去这一噪声一个清晰的模型出现也就是ORGANIZATION模型有最多的功能组件其次是LANGUAGE模型。MAIN IDEA模型有着更少的功能组件SUPPORT模型的最少。 当执行降维操作来计算功能组的时候功能组件的总数减少到了大约61-71%左右。
3.重要功能组
重要功能组有至少一个足够的对一个特征组的对齐。作为重要功能组的一个视觉辅助可以看图2和3的左侧。
4.功能组的对齐
对于所有的模型比较的对齐的发现的整个部分可能太大量而不能以一个会议论文的形式进行展示。但是我们可以展示在我们的分析中发现的主要的趋势。第一个主要的趋势是所有模型都具有与文章的统计特征相关的功能组。此外通过计算该类型内部特征之间的相关性可以确定段落数量可能是最显著的贡献因素。第二个趋势的集合被展示在表4中在表中每个模型的总共的对齐的特征组的占比被计算。 这一结果揭示了ORGANIZATION模型比较其他模型相对更加对齐基于RST的特征同时MAIN IDEA模型有最小的占比。LANGUAGE模型最对齐词列表特征它是算法生成的和人工创建的词列表特征的结合。对于最后一个百分比我们结合了主题和人口统计的特征发现SUPPORT模型趋向于最少对齐这类特征。
5.定性分析
尽管我们展示的方法能够很快得增强一个人对于一个模型的理解直接从黑箱神经网络到对齐的特征组理解什么函数/功能一个儿子组表示是更加困难的。所以解决一个特征组表示什么函数/功能来形成一个强的陈述解释模型在做什么是必要的。比如说我们发现很多模型和包含人口统计特征的特征组是连接的在图2和3中被标红。然而对包含主题的数据集进行定性分析时我们发现在控制作文长度时不同学校的主题分布存在差异某些学校带有其人口统计特征是特定主题的唯一来源。因此许多这些特征组很可能更多地基于主题而不是潜在的更为问题复杂的基于人口统计的特征组。
6.讨论
我们进一个深入分析结果强调在功能组和他们与作文特征的相关性的对齐中的主要趋势。值得注意的是LANGUAGE V SUPPORT对比出现作为一个异常点在我们的各个分析中。这个差异很有可能是因为相对而言更少的文章被两个模型的分析集所共享这可能导致一个具有更多噪声的分析并且暴露了方法的一个局限性。在非ORGANIZATION模型中几乎没有或根本没有独特存在于ORGANIZATION模型中的功能组。