chevron-up bell reply instagram twitter2 feed3 finder search-25px-p0
       欢迎访问免费空间

杰奇多线程自动采集同步源站 python源码

2015-09-27

杰奇多线程自动采集同步源站 python源码

该工具为python代码,对目标源站进行循环采集,同步更新。
采用多线程采集,保证采集速度。采集线程数可根据自己服务器压力自由调整。
采用小说字数比对,仅当当前字数大于已采集字数时才认为该小说有章节更新而进行采集,从而减少不必要的资源浪费。
测试目标站为17K小说网,自己使用的时候请配合自己网站后台规则修改siteid。同时根据目标列表页的代码,修改正则规则。
该正则规则获取3个参数 [0]为书号 [1]为书名 [2]为采集时候的字数。

使用本工具后,无需使用关关等采集器,可以做到单Linux服务器运行小说站。

 

 

Fresher

发表评论

You must be logged in to post a comment.