懒人小说下载器

通用网站内容抓取工具，可批量抓取小说、论坛内容等并保存为TXT文档

当前为 2021-12-29 提交的版本，查看最新版本。

作者: hoothin
评分: 0 0 0
版本: 2.6.0
创建于: 2016-11-23
更新于: 2021-12-29
大小: 24.3 KB
兼容性
许可证: MIT
适用于: 所有网站

起点晋江红袖以及其他知名小说站都推荐用这个脚本【小说】下载脚本，遇到没人愿意适配的不知名小站再考虑我的脚本。

轻量级抓取脚本，用于下载网页中的主要内容，理论上适用于任何非Ajax写入正文的小说网站、论坛、贴吧等而无需为此写任何规则。脚本会自动检索页面中的主要内容并下载（省得复制完gal攻略还要手动逐条删除“某某某13级头衔水龙王发表于X年X月X日来自XX客户端”）。如果位于小说目录页会遍历所有章节并排序拼接后存为TXT文档。

【高亮或者格式化页面中选中的代码，并统计字数】

操作说明 - Usage

打开小说目录页、论坛或贴吧内容页
按下 CTRL+F9 或点击命令菜单
按下 SHIFT+CTRL+F9 忽略目录，仅下载当前页
关于配置项
- 以下功能需要通过油猴命令菜单进入
- 自定义下载目录范围：如https://xxx.xxx/book-[20-99].html,https://xxx.xxx/book-[01-10].html，意思为下载book-20.html到book-99.html，以及book-01.html到book-10.html，使用[1-10]则不补0
- 通过章节选择器自定义下载：输入要下载的章节链接的css选择器即可，后面可以接上url替换码、以及自定义处理代码
- 干扰码：填入干扰码的css选择器，如.mask,.ksam，意为删除class为mask或者ksam的元素
- 按标题名重新排序：是则把目录页所有链接按标题名排序后存入txt，否则按页面位置顺序排列
- 下载线程数：同时下载的线程数，默认为20，遇到存在限制的站点可调低
自定义例子
1. po18，章节的选择器为 .l_chaptname>a ，输入并下载后发现通过 url 无法下载正文内容，正文是 ajax 通过 articlescontent 下载的，此时可后接 @@articles@@articlescontent (@@ 分隔) 将章节 url 中的 articles 替换为 articlescontent ，综上 .l_chaptname>a@@articles@@articlescontent 即可适配该站。其中第一个 articles 可使用正则，例如 @@articles\d+@@$1content 代表将链接中的「articles1」「articles2」等替换为「1content」「2content」。
2. pixiv，p站小说的章节选择器为main>section ul>li>div>a，无需替换链接，因此后两项留空，有6个@了 doge，正文在meta里，需要自定义代码提取meta-preload数据的content项，综上 main>section ul>li>div>a@@@@@@var noval=JSON.parse(data.querySelector("#meta-preload-data").content).novel;noval[Object.keys(noval)[0]].content; 即可下载p站小说，其中 "data" 代表抓取网页的document对象，若返回的是纯文本，则用 data.body.innerText 获取。

如果有帮助到你，请我喝杯奶茶吧，帮我提神并确保常更新

donation

测试网页 - Test case

为啥要写这个脚本？

主要是怠惰啊因为我要下载驰星周的漂流街，却发现前人的轮子“【小说】下载脚本”不能用，又不想为这破站 dogedoge 写规则，而且~~我就是看不上霸道总裁修仙穿越你咬我啊~~指不定它三天两头改个版呢。写个通用规则的脚本，一来可以不用追着数不清的小说站适配修改更新，二来也免去了法律风险。这个脚本会自动去查找主要内容并下载，不需要写规则。当然如果你家网站广告内容比正文还多我也没办法。遇到特殊网站还是建议用“【小说】下载脚本”。