国家企业信用信息网官网,优化网站排名技巧,wordpress 云储存,网络科技有限公司有哪些BeanbunBeanbun 是用 PHP 编写的多进程网络爬虫框架#xff0c;具有良好的开放性、高可扩展性。项目地址#xff1a;github.com/kiddyuchin.…文档地址#xff1a;beanbun.org由来我希望有这样一个爬虫框架#xff1a;在简单需求的情况下#xff0c;可以用最少的代码快速建…BeanbunBeanbun 是用 PHP 编写的多进程网络爬虫框架具有良好的开放性、高可扩展性。项目地址github.com/kiddyuchin.…文档地址beanbun.org由来我希望有这样一个爬虫框架在简单需求的情况下可以用最少的代码快速建立一个功能完善的爬虫而且如果你愿意你可以对爬虫进行你想要的任何修改。它要天然支持分布式支持多进程(或线程)利用 composer可以方便的建立起一个功能强大的爬虫。在对之前写过的一个爬虫的功能不断的删减调整后就有了目前的 Beanbun这个名字来自于作者家的猫此猫名叫门丁“门丁”是北方的一种面点。门丁 - 豆包 - bean bun。我希望在这里能够抛砖引玉和大家一起继续完善Beanbun。特点支持守护进程与普通两种模式(守护进程模式只支持 Linux 服务器)默认使用 Guzzle 进行爬取支持分布式支持内存、Redis 等多种队列方式支持自定义URI过滤支持广度优先和深度优先两种爬取方式遵循 PSR-4 标准爬取网页分为多步每步均支持自定义动作(如添加代理、修改 user-agent 等)灵活的扩展机制可方便的为框架制作插件自定义队列、自定义爬取方式...安装Beanbun 可以通过 composer 进行安装。$composer require kiddyu/beanbun复制代码一个简单的例子创建一个文件 start.php包含以下内容require_once(__DIR__ . /vendor/autoload.php);use Beanbun\Beanbun;$beanbun new Beanbun;$beanbun-seed [http://www.950d.com/,http://www.950d.com/list-1.html,http://www.950d.com/list-2.html,];$beanbun-afterDownloadPage function($beanbun){file_put_contents(__DIR__ . / . md5($beanbun-url), $beanbun-page);};$beanbun-start();复制代码在命令行中执行$ php start.php复制代码接下来就可以看到抓取的日志了。2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/ success.2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-1.html success.2017-04-04 14:14:14 Beanbun worker download http://www.950d.com/list-2.html success.复制代码最后后边我会针对一些不同类型的网站写一些用 Beanbun 实现爬虫的小例子欢迎大家持续关注。