Greasy Fork

☰

Wenku Doc Downloader

下载“百度文库”文档，导出txt或pdf。“豆丁网”文档打印为纯图片页构成的pdf。

当前为 2021-11-30 提交的版本，查看最新版本。

安装此脚本？

提问、发表评价或者举报此脚本。

作者

评分

0 0 0

版本

0.6

创建于

2021-11-22

更新于

2021-11-30

大小

14.5 KB

许可证

适用于

Wenku Doc Downloader 使用说明（经常更新，如高频使用请关注）

1 注意！

图片型的文档需要下载额外的程序来合并图片为pdf文件【图片下载合并器】（exe程序，约18M）。作者保证其安全性，如果无法信任可以不用。
导出PDF（实验性）的功能需要下载【HTML转PDF】（exe程序，本体10M，转换器40M）。
【图片下载合并器】和【HTML转PDF】链接: https://pan.baidu.com/s/1PTM6watxNlqs-jvvX6XKzg 提取码: abe9 该链接最后更新于：2021/11/30。
【图片下载合并器】的启动速度取决于文档长度，如果文档超过100页，大概要等待10-15秒以上，请保持耐心。
【HTML转PDF】的启动速度取决于文档长度，如果文档超过50页，大概需要1-2分钟，请保持耐心。

2 目前不支持的情况及相关说明

不能导出文档为docx。
合并图片为pdf和html转pdf的功能都依赖下载到本地的脚本程序，不下载这些程序的话是做不到的。
【HTML转PDF】转换出的pdf文件中的图片无法直接复制，但可以在pdf阅读器中（比如Acrobat），先选中图片，然后右键另存出去，然后单独保存的图片可以正常复制。
【HTML转PDF】转换表格等文档时文字可能和图形有少许错位。少部分文档会出现图形完全丢失的情况。
不能下载学术文献。

3 功能

下载百度文库的文档，导出为
1. 纯文本文档（.txt）
2. 纯图片合并而成的pdf（.pdf）
3. 文字、图形可选中的pdf（.pdf）
对豆丁网文档的简单支持：打印页面，以图片的形式保存为pdf文件（即使原文档是文字的而非扫描的图片）。

4 使用方法：

打开你需要的百度文库页面，滑动到页面底部，能看到蓝色的长方形按钮。
（如果需要）点击蓝色按钮（等同于点击“继续阅读”），将文档全部展开，直到按钮变成绿色。
点击绿色按钮，等待数秒，弹出下载弹窗。
如果下载的是【纯文本文档.txt】，直接保存到任意位置即可，这就是目标文档。
如果下载的是【urls.csv】，保存到【图片下载合并器】所在的文件夹内，然后按照其使用方法操作（下载的压缩包里有说明）。
导出pdf（实验性）功能说明：
1. 在文档的页面上按下Ctrl+S保存网页，保存时选择【网页，全部】或者【网页，完成】
2. 得到两个文件：①【<文档名称.html>】文件；②【<文档名称_files>】文件夹
3. 下载好【HTML转PDF】并解压。复制上述两个文件到【HTML转PDF】文件夹下。
4. 参照【用前须知】，双击运行【HTML转PDF.bat】，得到【文档.pdf】，这就是你要的文档。
5. 下载好的2个页面文件请尽快转换为pdf，因为图形资源并不包含在文件夹中，约5-10分钟后再进行转换操作图形可能会全部丢失。

5 图片型文档（用到【图片下载合并器】）的额外说明

一个特殊的报错解决方案
- 如果报错信息如图，那么说明文档页面没有完全加载
- 解决办法就是在页面上下滚动浏览，保证图片都加载出来了，然后再次点击页面底部的绿色按钮即可。

6 未来要加入的功能 & 不会实现的功能

将本地程序（python）的功能全部由网页端脚本（javascript）实现。优先度：低。

7 备注：

本脚本完全免费,禁止被用于任何商业目的。
本脚本所获取的资源完全合法，与浏览器能直接获得的资源一致。
其他问题请联系 [email protected]
Wenku Doc Downloader 发布于 greasyfork.org
不定时更新。