怎么做网站文章优化,wordpress内网外网访问不了,wordpress免登录发布模块接口,模板多少钱一平方前阵子接到一个实验室老师的需求#xff0c;采集五年前#xff08;2024-52019#xff09;过年前后的北京微博签到数据。
前两年采集的深圳签到数据是 2022 年是当年的尚可#xff0c;这次虽然时间跨度只有两个月#xff0c;但是由于时间太过久远#xff0c;但是颇费了一…前阵子接到一个实验室老师的需求采集五年前2024-52019过年前后的北京微博签到数据。
前两年采集的深圳签到数据是 2022 年是当年的尚可这次虽然时间跨度只有两个月但是由于时间太过久远但是颇费了一番心力还好最终老师只需要每个月 10000 条左右我赶紧停止了集群的采集一看代理池马上欠费了。 最终采集的数据字段包括经纬度、签到地点、微博链接、博主链接、内容、图片链接、发布时间、转评赞数等数十个字段基本满足分析要求。
经纬度坐标应该不是 WGS84验证应该是 GCJ-02 坐标系GCJ-02 整体相对于 GPS 坐标系应该有非常小的非线性偏移。 GCJ-02 可以转化成 WGS84 坐标系相关转化的算法网上有很多了这里就不再赘述了可自行搜索。
这里插一句如果要使用地理编码相关的 API最好使用高德地图因为其实微博以前是和高德地图都是阿里系的公司高德地图偏爱 GCJ02微博就使用的高德地图相关的。
微博签到数据的采集时间越久越难采集看到网上有很多分享 2014 年全国微博签到数据的我看了下其实那个只是 poi 数据而且绝大部分的 poi 被重置了poi 链接打不开查无此微博。
这里插播一句借用了朋友的服务器集群可以采集大量历史微博签到数据时间段可以是 2016、2017、2018、2019、2020、2021、2022等最好是 2018 年以后的因为历史微博签到数据回溯采集非常困难爬大量数据对于 2018 2019 年左右几千条每月就是大量了需要大量账号和大量代理 ip固定成本和时间都消耗不少所以按需采集可以采集最近 10 年北京、上海、广州、深圳、苏州、杭州等全国任意城市或者新加坡、巴黎等海外任意城市的签到微博数据或者任意景点景点可能是一个或者多个 poi的微博签到数据如果有需求可以带上具体任务时间段来戳有空比较大的任务最好是假期就做非咸鱼非倒卖一手实时采集有一定成本相互理解。