2 年前,我们分享过一个超硬核的小说下载工具,小说规则捕捉器。
当年这个硬核工具,文能输入链接一键下载,武能搭配前端知识排除万难,甚至连这梦回千禧的 UI 界面都让人觉得它够硬。
但在今天,这个超硬核的「小说规则捕捉器」要就此易主了,名字有点像,叫「小说规则下载器」。
可不是后者要碰瓷,还是那个从文本处理,到电子书抓取,把小说下载技术路线依次点亮的吾爱破解老哥 jumpbull,妥妥的师出同门。
不信?你瞅瞅这 UI,死去的回忆又回来了。
从捕捉器到下载器,虽然只有两字之差,但用了一圈下来,明显感觉到这款全新升级的工具更完善了。
不过完善归完善,硬也是真的硬,我带大家走一圈。
小说规则下载器(Windows)
下载小说的整体思路和两年前一样,我们需要一个小说目录页的链接,并为它创建一个任务。
目录页的链接没啥好说的,任意一个小说站的任意一本小说都有。
至于在下载器里的具体步骤,点击左上角的「创建自动任务」按钮,在新的弹窗页输入链接,最后点击「捕获目录」。
坐等下载器解析完目录页,它会把所有章节全都提取出来。
细节上,但凡能选的地方,鼠标悬停皆有介绍,如果小说站的目录页是分页形式,记得勾选对应的选项。
不过更值得一提的是下面一行「删除非空行数」的功能,它是做什么的你肯定不陌生,在提取出来的目录里,任选一章点进去,开头结尾处多半是有站点的推广信息。
小说站点是批量往上加的,咱们的下载器可以批量删除,数数有几行推广信息,末尾删除行数就改成几。
注意,这里批量删除的行数是不包含空行的,以及如果使用这个功能,建议放大窗口看,原因无他,在小窗口下会自动换行,容易影响判断。。。
处理好了这些,点击「直接下载」,会跳转到「任务捕获窗口」页,需要更改的有两项,一个是「保存位置」,一个是「输出方式」。
前者就是保存目录,没啥说的,需要自己 Copy 文件夹地址进去;后者默认是每一章一个 txt 文件,如果没有特殊需求的话,还是「合并后删除」更适合我们。
当然,保存位置也好,输出方式也罢,可以在「设置」里提前设定好。
单线程稳,多线程快,这个小说规则下载器,是支持断点续传的,先多线程下载,如果有问题了未下载章节会标红,暂停一下切换到单线程下载即可。
下载完成后,下载记录仍在「下载任务列表」里,如果你是完本的小说,任务删了也就删了。
但如果当前小说是连载的,选中任务后,无论是菜单栏里选也好,右键选也罢,下载器会从「目录页」里抓取最新的章节。
之所以能捕捉下载的这么丝滑,是因为这个下载器里预设有 378 个小说站点的规则。
我们创建的自动任务,实际上是从预设模板里匹配到了捕获规则,对于现在源码都差不多的主流小说站点,没错,就是那个笔趣阁宇宙,按作者的话说 100% 能下。
那如果你挑的小说站,恰好不在预设里呢?硬的地方来了,是时候上代码了。
进阶玩法
今天的这个小说规则下载器本身还支持多种捕获小说规则的方式,不过需要掌握那么点小 tip。
比如这个站,我去预设里搜了搜,可惜的是下载器里并没有收录这个域名,更没有规则。
我先对目录页 F12 检查了一下,发现每一章的链接,前面域名没变,变的只有最后的数字,而且是递增的。
怎么办?小说规则下载器有一个批量添加序列章节链接的功能,把该加的加上去,点击「源代码」瞅一下章节名的标签是什么,再测试一下。
确认后,开始导入,不过还需要我们手动输入书名和保存目录,并设定捕捉章节内容的规则。
虽说是自己设定,但实际上也有预设的 3 个常用规则,分别选中测试一下,能爬取到完整文字就可以点确定开始下载了。
那万一各章节的链接尾,不是数字递增的怎么办?别急,我们可以自己 DIY 规则。
具体操作是手动创建任务,输入链接。
然后你细看后面的步骤,不过是两轮设置规则-进行测试。
就拿目录来说,你细看一下章节名前后的代码,都有「li」标签,「class」属性,「line3」值。
回到规则设定,只要比葫芦画瓢填写。
下一步测试后就成功抓到了所有章节。
第二轮规则操作一样,看源码发现正文前后都是「P」标签,那直接用「P」标签定位,就能抓到正文。
两轮流程走完,无论你是生成任务开始下载,还是保存规则,下次从这个站点下小说时直接复用,怎样都可以,此时的小说已是你的囊中之物。
虽然设置规则看着很难,但终归是个熟练工种,下载器内的帮助信息,可以帮你快速掌握。
结语
当你研究了这个工具后,你会发现,就小说站下载这个事,是有规律所寻的,毕竟不少网站的源码都一样。。。
哪怕源码不一样,只要反爬手段不是太过劝退,小说规则下载器这个工具,完全可以做到
小白可用,遇强更强的效果,调教好的话,这个工具基本上可以满足你对小说下载的所有需求。
小说规则下载器:
https://pan.quark.cn/s/d4cf62c1e635
备用链接:
https://pan.xunlei.com/s/VNYaBC2ho17H64xVrb0067TIA1?pwd=yv3q
暂无评论内容