当前位置: 首页 > news >正文

企业网站建设公司名称西安网站建设熊掌

企业网站建设公司名称,西安网站建设熊掌,江阴外贸公司排名,wordpress调取文章列表最近#xff0c;我在记录链接方面变得非常有趣#xff0c;并遇到了Duke项目#xff0c;该项目提供了一些工具来帮助解决此问题。 我以为可以尝试一下。 进行记录链接时的典型问题是#xff0c;我们有两个来自不同数据集的记录#xff0c;它们代表同一实体#xff0c;但是… 最近我在记录链接方面变得非常有趣并遇到了Duke项目该项目提供了一些工具来帮助解决此问题。 我以为可以尝试一下。 进行记录链接时的典型问题是我们有两个来自不同数据集的记录它们代表同一实体但是没有可用于将它们合并在一起的公共键。 因此我们需要提出一种启发方法使我们能够这样做。 杜克大学Duke有一些实例表明了它的实际作用我决定与联系国一道去。 在这里我们有来自Dbpedia和Mondial数据库的国家我们希望将它们链接在一起。 我们需要做的第一件事是构建项目 export JAVA_HOME/usr/libexec/java_home mvn clean package -DskipTests 在撰写本文时这将使zip失败其中包含我们需要的所有内容位于duke-dist / target / 。 让我们打开包装 unzip duke-dist/target/duke-dist-1.3-SNAPSHOT-bin.zip 接下来我们需要下载数据文件和Duke配置文件 wget https://raw.githubusercontent.com/larsga/Duke/master/doc/example-data/countries-dbpedia.csv wget https://raw.githubusercontent.com/larsga/Duke/master/doc/example-data/countries.xml wget https://raw.githubusercontent.com/larsga/Duke/master/doc/example-data/countries-mondial.csv wget https://raw.githubusercontent.com/larsga/Duke/master/doc/example-data/countries-test.txt 现在我们准备好尝试了 java -cp duke-dist-1.3-SNAPSHOT/lib/* no.priv.garshol.duke.Duke --testfilecountries-test.txt --testdebug --showmatches countries.xml...NO MATCH FOR: ID: 7706, NAME: guatemala, AREA: 108890, CAPITAL: guatemala city,MATCH 0.9825124555160142 ID: 10052, NAME: pitcairn islands, AREA: 47, CAPITAL: adamstown, ID: http://dbpedia.org/resource/Pitcairn_Islands, NAME: pitcairn islands, AREA: 47, CAPITAL: adamstown,Correct links found: 200 / 218 (91.7%) Wrong links found: 0 / 24 (0.0%) Unknown links found: 0 Percent of links correct 100.0%, wrong 0.0%, unknown 0.0% Records with no link: 18 Precision 100.0%, recall 91.74311926605505%, f-number 0.9569377990430622 我们可以查看countries.xml 看看如何计算记录之间的相似度 schemathreshold0.7/threshold ...propertynameNAME/namecomparatorno.priv.garshol.duke.comparators.Levenshtein/comparatorlow0.09/lowhigh0.93/high/propertypropertynameAREA/namecomparatorno.priv.garshol.duke.comparators.NumericComparator/comparatorlow0.04/lowhigh0.73/high/propertypropertynameCAPITAL/namecomparatorno.priv.garshol.duke.comparators.Levenshtein/comparatorlow0.12/lowhigh0.61/high/property/schema 因此我们通过计算首都和国家的Levenshtein距离即将一个单词转换为另一个单词所需的最小单字符编辑次数来计算出首府城市和国家/地区的相似性 如果其中一个数据集的拼写有误或有差异这将非常有效。 但是我很好奇如果该国有两个完全不同的名称例如科特迪瓦有时被称为象牙海岸那会发生什么。 让我们尝试在以下文件之一中更改国家/地区名称 19147,Cote dIvoire,Yamoussoukro,322460java -cp duke-dist-1.3-SNAPSHOT/lib/* no.priv.garshol.duke.Duke --testfilecountries-test.txt --testdebug --showmatches countries.xmlNO MATCH FOR: ID: 19147, NAME: ivory coast, AREA: 322460, CAPITAL: yamoussoukro, 我还通过曼联对托特纳姆热刺的BBC和ESPN比赛报告来进行了尝试-BBC按姓氏引用球员而ESPN有其全名。 当我使用Levenshtein比较器将全名与姓氏进行比较时没有您所期望的匹配。 我必须将ESPN名称分解为名字和姓氏才能使链接正常工作。 同样当我将球队名称更改为“曼联”而不是“曼联”和“热刺”而不是“托特纳姆热刺”时两者也不起作用。 我想我可能需要编写一个特定于域的比较器但是我也很好奇是否可以提出一些训练示例然后训练一个模型来检测什么使两条记录相似。 它的确定性较差但可能更健壮。 翻译自: https://www.javacodegeeks.com/2015/08/record-linkage-playing-around-with-duke.html
http://www.zqtcl.cn/news/869252/

相关文章:

  • 阳光家园广州网站网站公司怎么做的好
  • wordpress网站音乐放不全阳山做网站
  • 橙色企业网站源码网站下载软件
  • 满足客户的分销管理系统seo搜索引擎优化技术教程
  • 链接网站制作住房建设部官方网站专家注册
  • 北京保障性住房建设投资中心网站以网络营销为主题的论文
  • 数字火币交易网站开发网站建设设计图图片
  • 惠民建设局网站东莞公司建设网站
  • 网站建设与维护教学课件煤炭网站建设规划书
  • 北京建设网站有哪些公司黄陌陌网站怎么做
  • 视频网页制作教程网站优化防范
  • 做优化网站注意什么开发者模式开着好不好
  • 网站顾客评价网站中怎么做网站统计
  • 网站建设安全措施表白网站是怎么做的
  • 一个服务器可以做几个网站百度北京公司地址全部
  • 武侯区网站建设哪里好点个人社保缴费比例是多少
  • 创建属于自己的网站定制应用软件有哪些
  • 网站建设类岗位建设工程施工合同示范文本2023最新版
  • 建站设计公司wordpress 跨域 cros
  • 做网站的公司哪好工程设计东莞网站建设技术支持
  • 虹口网站开发开发公司设计管理部绩效考核
  • 网站改版升级通知国外服务器公司有哪些
  • 做网站的s标的软件深圳网站建设 湖南岚鸿
  • 设计网站建设的合同书公司装修合同范本
  • 门户网站的好处企业邮箱系统
  • 重庆企业建站公司有那些网站做结伴旅游的
  • 创意营销策划案例网站网页制作及优化
  • 网站上动画视频怎么做的建设兵团12师教育局网站
  • 博客网站开发思维导图app网站制作公司
  • 池州网站建设有哪些公司兴义网站seo