#可视化爬虫 ------------ ### IP代理池 ```js 此爬虫为:大象代理 http://daxiangdaili.com/ 爬虫购买是专业版:归安总管理 爬虫接口只需要一个 订单号。 接口地址: http://pvt.daxiangdaili.com/ip/?tid ``` ![代理的参数](../img/07faa12eab01fd5fac3190e835bf837a_size1055x813_len83610.png) ------------ ### 相关服务器 ``` 本地环境、测试环境:61.160.36.225 预发布环境、线上环境:61.160.36.226,管理后台CJMS,平台下 测试环境、没有后台守护进程在维护脚本、目前开发环境调用的接口可直接调用线上提供的api接口获取 可拍IP列表 ``` ### 启动方式 ```bash @cronta */2 * * * * root echo "[`date+"\%F\%T"`]`/usr/local/php/bin/php/data/webapps/admin.ouj.com/protected/bin/spider/spider_calculate.php`" >> /tmp/spider_calculate.log & ``` ------------ ### IP代理池的分布 `1、大象代理接口获取` `2、61.160.36.225:8000 一个 python 爬虫服务获取的免费IP` ```bash 开源的爬虫脚本: https://github.com/qiyeboy/IPProxyPool 225使用的是python2的脚本。 本地环境需要 sqlite3 ,Ubuntu:apt-get install sqlite3 ,centos:yum install sqlite-devel 要注意安装相关依赖 ``` ------------ ### 目录结构 + base_services/cjms/protected + bin/spider/ // 相关环境配置 * spider_calculate.php //获取代理IP的脚本 * 部署在 61.160.36.226 crontab 脚本自动运行 * 这里 之前有部分 java 抓取服务还在使用,所以有2个存储的 redis Key。 + controller - SpiderController.php // 爬虫接口 * 提供爬虫获取接口、爬虫IP、剔除、IP可靠性记录、 * 调用方:可视化爬虫 Node.js 后台 爬虫进程。 * 爬虫队列分可靠爬虫 与 一般 爬虫。 ------------ ### 流程图 ![流程图](../img/ead33b711c8bfb195ba640474805d823_size839x803_len120532.png) ------------