国外html5网站源码,wordpress微信图片,建一个网站的程序,做酒类网站Python字符串模糊匹配库FuzzyWuzzy 在计算机科学中#xff0c;字符串模糊匹配#xff08;fuzzy string matching#xff09;是一种近似地#xff08;而不是精确地#xff09;查找与模式匹配的字符串的技术。换句话说#xff0c;字符串模糊匹配是一种搜索#xff0c;即使…Python字符串模糊匹配库FuzzyWuzzy 在计算机科学中字符串模糊匹配fuzzy string matching是一种近似地而不是精确地查找与模式匹配的字符串的技术。换句话说字符串模糊匹配是一种搜索即使用户拼错单词或只输入部分单词进行搜索也能够找到匹配项。因此它也被称为字符串近似匹配。 字符串模糊搜索可用于各种应用程序例如 拼写检查和拼写错误纠正程序。例如用户在Google中键入“Missisaga”将返回文字为“Showing results for mississauga”的点击列表。也就是说即使用户输入缺少字符、有多余的字符或者有其他类型的拼写错误搜索查询也会返回结果。重复记录检查。例如由于名称拼写不同(例如Abigail Martin和Abigail Martinez)在数据库中被多次列出。 这篇文章将解释字符串模糊匹配及其用例并使用Python中Fuzzywuzzy库给出示例。 使用FuzzyWuzzy合并酒店房型 每个酒店都有自己的命名方法来命名它的房间在线旅行社(OTA)也是如此。例如同一家酒店的一间客房Expedia将之称为“Studio, 1 King Bed with Sofa Bed, Corner”Booking.com缤客则简单地将其显示为“Corner King Studio”。不能说有谁错了但是当我们想要比较OTA之间的房价时或者一个OTA希望确保另一个OTA遵循费率平价协议时rate parity agreement这可能会导致混乱。换句话说为了能够比较价格我们必须确保我们进行比较的东西是同一类型的。对于价格比较网站和应用程序来说最令人头条的问题之一就是试图弄清楚两个项目比如酒店房间是否是同一事物。 Fuzzywuzzy是一个Python库使用编辑距离Levenshtein Distance来计算序列之间的差异。为了演示我创建了自己的数据集也就是说对于同一酒店物业我从Expedia拿一个房间类型比如说“Suite, 1 King Bed (Parlor)”然后我将它与Booking.com中的同类型房间匹配即“King Parlor Suite”。只要有一点经验大多数人都会知道他们是一样的。按照这种方法我创建了一个包含100多对房间类型的小数据集可以访问Github下载。 我们使用这个数据集测试Fuzzywuzzy的做法。换句话说我们使用Fuzzywuzzy来匹配两个数据源之间的记录。 import pandas as pddf pd.read_csv(../input/room_type.csv)df.head(10)import pandas as pd