|
@@ -12,22 +12,64 @@ http://pvt.daxiangdaili.com/ip/?tid
|
|
![代理的参数](http://screenshot.dwstatic.com/ojiastoreimage/07faa12eab01fd5fac3190e835bf837a_size1055x813_len83610.png)
|
|
![代理的参数](http://screenshot.dwstatic.com/ojiastoreimage/07faa12eab01fd5fac3190e835bf837a_size1055x813_len83610.png)
|
|
|
|
|
|
------------
|
|
------------
|
|
|
|
+
|
|
|
|
+### 相关服务器
|
|
|
|
+```
|
|
|
|
+本地环境、测试环境:61.160.36.225
|
|
|
|
+预发布环境、线上环境:61.160.36.226,管理后台CJMS,平台下
|
|
|
|
+测试环境、没有后台守护进程在维护脚本、目前开发环境调用的接口可直接调用线上提供的api接口获取 可拍IP列表
|
|
|
|
+```
|
|
|
|
+
|
|
|
|
+### 启动方式
|
|
|
|
+```shell
|
|
|
|
+@cronta
|
|
|
|
+*/2 * * * * root echo "[`date+"\%F\%T"`]`/usr/local/php/bin/php/data/webapps/admin.ouj.com/protected/bin/spider/spider_calculate.php`" >> /tmp/spider_calculate.log &
|
|
|
|
+```
|
|
|
|
+
|
|
|
|
+------------
|
|
|
|
+
|
|
|
|
+
|
|
|
|
+### IP代理池的分布
|
|
|
|
+
|
|
|
|
+`1、大象代理接口获取`
|
|
|
|
+`2、61.160.36.225:8000 一个 python 爬虫服务获取的免费IP`
|
|
|
|
+
|
|
|
|
+```
|
|
|
|
+主要介绍第二个服务、以及部署方式
|
|
|
|
+https://github.com/qiyeboy/IPProxyPool
|
|
|
|
+
|
|
|
|
+225使用的是python2的脚本。
|
|
|
|
+本地环境需要 sqlite3 ,Ubuntu:apt-get install sqlite3 ,centos:yum install sqlite-devel
|
|
|
|
+要注意安装相关依赖
|
|
|
|
+```
|
|
|
|
+
|
|
|
|
+------------
|
|
|
|
+### 目录结构
|
|
|
|
+
|
|
+ base_services/cjms/protected
|
|
+ base_services/cjms/protected
|
|
+ bin/spider/ // 相关环境配置
|
|
+ bin/spider/ // 相关环境配置
|
|
* spider_calculate.php //获取代理IP的脚本
|
|
* spider_calculate.php //获取代理IP的脚本
|
|
* 部署在 61.160.36.226 crontab 脚本自动运行
|
|
* 部署在 61.160.36.226 crontab 脚本自动运行
|
|
- * - */2 * * * * root echo "[`date +"\%F \%T"`] `/usr/local/php/bin/php /data/webapps/admin.ouj.com/protected/bin/spider/spider_calculate.php`" >> /tmp/spider_calculate.log &
|
|
|
|
* 这里 之前有部分 java 抓取服务还在使用,所以有2个存储的 redis Key。
|
|
* 这里 之前有部分 java 抓取服务还在使用,所以有2个存储的 redis Key。
|
|
+ controller
|
|
+ controller
|
|
- SpiderController.php // 爬虫接口
|
|
- SpiderController.php // 爬虫接口
|
|
* 提供爬虫获取接口、爬虫IP、剔除、IP可靠性记录、
|
|
* 提供爬虫获取接口、爬虫IP、剔除、IP可靠性记录、
|
|
* 调用方:可视化爬虫 Node.js 后台 爬虫进程。
|
|
* 调用方:可视化爬虫 Node.js 后台 爬虫进程。
|
|
* 爬虫队列分可靠爬虫 与 一般 爬虫。
|
|
* 爬虫队列分可靠爬虫 与 一般 爬虫。
|
|
|
|
+
|
|
------------
|
|
------------
|
|
|
|
|
|
|
|
+### 流程图
|
|
![流程图](http://screenshot.dwstatic.com/ojiastoreimage/ead33b711c8bfb195ba640474805d823_size839x803_len120532.jpg)
|
|
![流程图](http://screenshot.dwstatic.com/ojiastoreimage/ead33b711c8bfb195ba640474805d823_size839x803_len120532.jpg)
|
|
|
|
|
|
|
|
|
|
|
|
+------------
|
|
|
|
+
|
|
|
|
+
|
|
|
|
+
|
|
|
|
+
|
|
|
|
+
|
|
|
|
+
|
|
|
|
|
|
|
|
|
|
|
|
|