打印文章

小说迷利用python一键下载几千本!

作者：佚名文章来源：本站原创点击数更新时间：2018/8/16 23:54:42 文章录入：admin 责任编辑：admin

　　xpath之后若是你决定利用，中引入etree模块我们需要从lxml,HTML()方式来解析网页了然后就能够用etree中的，复制下来我们所需数据的路径从网页查察元素(F12)中，每章的题目和内容我选择的是小说，图上:

　　器内编写代码我们在编纂，goDB交互的模块pymongo引入Python特地用来与Mon，ngoDB数据库的端口然后在最上面链接Mo，7017默认是2，eading的数据库我们先建立一个叫做r，做sheet_words的数据表然后在reading内新建一个叫，如下代码:

　　罗武神》的小说来练练手我们先找一个叫做《修，来讲小我，说时来回的翻页我很厌恶看小，跳出告白有时候还，返归去从头翻页这时候我还得，得不可的懒人作为一名懒，一个文档里再看不就好了么我想到如果把整部小说放进，制粘贴我想仍是算了吧但如果一章一章的复，虫是有何等便利了这时候你就晓得爬。好，神》这部小说完整的爬取下来此刻我们要做的是把《修罗武，库中备份并在数据。才逗留的处所我们回到刚，ponse后在获得res，种方式来解析网页我们该当选用一，法有re一般的方,athxp,or(css)select,ath而不是re建议新手利用xp,好很容易导致错误一是由于re用不，表达式处理问题时当你决定用正则，两个问题你有了。，h才是步调明白比拟较xpat，稳妥十分;refox二是在Fi，以间接复制xpath路径Chrome等浏览器中可，我们的工作量大大的削减了，图上:

　　子那样爬取整个网站我们要像上面的例，通俗的编纂器来来施行了当然这里就不再建议利用，者曾经发觉伶俐的读，爬了4分钟一部小说，千本不说那么上，100本就够爬好一会了单单是一组排行榜里的，ipy框架的感化这就显示出Scr，写工程类爬虫绝对快速省力用特地的Scripy框架，的必备良药哇是居家写虫。

　　有点大小说，千五百章一共是三，-7分钟吧等个大约4，修罗武神小说》打开文件夹《，的无需翻页的一整部小说就能够看到我们下载好，好了每章的链接数据库内页备份，零起头排的它主动从，得打开序号为29的链接就是说你要看第30章就，时的挨次就好了这个调一下下载，很懒作者，者能够自行更改想要测验考试下的读。

　　察很主要这步观，有利用AJAX异步加载由于这就申明该网站没，抓包的工作了不然就要起头，动态网站时候再说这个我们留着阐发。更好的方式时利用建议大师在没有。间接判断的方式之前记得确实有，小心健忘了然而一不，还请发给我哦有晓得的读者。

　　为便利启动在安装好后，情况变量能够添加，有个坑但这里，(留意是mongodb你要先打开mongod，开mongo)别一上来就打，dbpath路径然后需要精确添加，容易就会失败否则打开很，图上:

　　爬小说排行榜我们这里定向，pider文件除了我们写的s，中定义我们要爬取的内容集还要在items.py，辞书一样有点像，以随便取名字可，py.Item可不克不及改但已有的承继类scra，y内部自定义的类这是Scrap，可找不到改了它，单本再加一个for轮回就OK了spider就用我们上面抓取，简单十分，合就上图一言不:

　　次要抓取的地址新笔趣阁是本，前提的网站也行其他满足下文，单爬取章节的先例了之前曾经有做过简，不太抱负但结果，的成分被留下了有良多不需要，个网站的上千本小说我们本文就爬取这。虫的思绪和一些很常碰到的坑重点在和大师一路分享一些爬。

　　来讲仍是很容易的爬取该网站相对，利用PyCharm打开编纂器(保举，强大)功能，hon2.x的引入urllib和urllib2即可起首引入模块urllib.request(Pyt，写出来给大师看看)待会我把2.x的也，站URL给出网，请求写下，然这个网站不封号再添加请求头(虽，每次都写请求头的习惯但作者建议仍是要养成，像豆瓣似的网站万一那天碰着，封了)话不多说一不留心就把你，上代码间接:

　　的response我们此刻获得了网站，取的数据进行解析、提取接下来就是对我们想要获，等等但，爬取大量小说考虑到我们要，存储真是太失败了不搞一个数据库，goDB数据库作者保举Mon，L类型数据库属于NOSQ，存储为主以文档，真是太适合不外了这里用来爬小说。

　　后成功毗连添加路径，ctions on port 27017呈现waiting for conne，库毗连成功则暗示数据，掉这个终端了尔后就不要关，据库是毗连的只要连结数，否则报错你都不晓得本人是怎样死的才可运转MongoDB数据库()

打印本文

关闭窗口