Wenku Doc Downloader

下载“百度文库”文档,导出txt或pdf。“豆丁网”“爱问共享资料”(新浪文档)文档导出pdf。

当前为 2021-12-03 提交的版本,查看 最新版本

  1. // ==UserScript==
  2. // @name Wenku Doc Downloader
  3. // @namespace http://tampermonkey.net/
  4. // @version 0.7
  5. // @description 下载“百度文库”文档,导出txt或pdf。“豆丁网”“爱问共享资料”(新浪文档)文档导出pdf。
  6. // @author allenlv2690@gmail.com
  7. // @match https://wenku.baidu.com/view/*
  8. // @match https://www.docin.com/p-*
  9. // @match https://ishare.iask.sina.com.cn/f/*
  10. // @icon https://www.google.com/s2/favicons?domain=limestart.cn
  11. // @grant none
  12. // @license GPL-3.0-only
  13. // @create 2021-11-22
  14. // @note 现在支持爱问共享资料(新浪文档)文档导出pdf
  15. // @note 优化了豆丁网的文档pdf导出
  16. // ==/UserScript==
  17.  
  18. /*
  19. * 附属功能函数部分
  20. */
  21.  
  22. function createAndDownloadFile(fileName, content) {
  23. // 创建并下载文件
  24. var aTag = document.createElement('a');
  25. var blob = new Blob([content]);
  26. aTag.download = fileName;
  27. aTag.href = URL.createObjectURL(blob);
  28. aTag.click();
  29. URL.revokeObjectURL(blob);
  30. }
  31.  
  32. function formatText(text){
  33. // 用于纯文本文档的文本美化
  34. var reg_exp_1 = new RegExp(" [(]?=[\u4e00-\u9fa5] [)]");
  35. var reg_exp_2 = new RegExp("(?<=TEMP[\u4e00-\u9fa5]) ");
  36. var reg_exp_3 = new RegExp("(?<=[\u4e00-\u9fa5]) (?=[\u4e00-\u9fa5])");
  37.  
  38. var text_1 = text.replace(reg_exp_1, "TEMP");
  39. var text_2 = text_1.replace(reg_exp_2, "");
  40. var text_3 = text_2.replace("TEMP", "");
  41. var text_final = text_3.replace(/ /g, " ");
  42. return text_final;
  43. }
  44.  
  45. function formatText2(text) {
  46. // 用于图形文字混合型文档的文本美化
  47. var reg_exp = new RegExp("[  ]{2,}");
  48. var content_1 = text.replace(reg_exp, "\n");
  49.  
  50. var content_2 = content_1.replace(/[  ]\n/g, "\n");
  51.  
  52. var reg_exp_2 = new RegExp("\n[   ]*\n*\n");
  53. var content_3 = content_2.replace(reg_exp_2, "\n");
  54.  
  55. var reg_exp_3 = new RegExp(" *\n * ");
  56. var content_4 = content_3.replace(reg_exp_3, "\n");
  57.  
  58. var content_5 = content_4.replace(/[  ]/g, " ");
  59. var final_content = content_5.replace(/[ \n]精选文档[ \n]/g).replace(/\n{2,}/g, "\n");
  60.  
  61. return final_content;
  62. }
  63.  
  64. function detectType() {
  65. // 获取文档类型名称
  66. var doc_title_wrap = document.getElementsByClassName("doc-title-wrap")[0];
  67. var file_type = doc_title_wrap.children[0].className;
  68. var pdf, doc, ppt, excel, type;
  69. // 判断文档类型
  70. if (file_type.search("word") !== -1) {
  71. type = "word";
  72. }
  73. else if (file_type.search("ppt") !== -1) {
  74. type = "ppt";
  75. }
  76. else if (file_type.search("excel") !== -1) {
  77. type = "excel";
  78. }
  79. else if (file_type.search("pdf") !== -1) {
  80. type = "pdf";
  81. }
  82. else if (file_type.search("txt" !== -1)) {
  83. type = "txt";
  84. }
  85. else {
  86. type = file_type;
  87. }
  88. // 分别尝试获取相应元素列表,若列表长度为0则不存在相应元素,否则存在
  89. var pic_nums = document.getElementsByClassName("reader-pic-item").length;
  90. var word_nums = document.getElementsByClassName("reader-word-layer").length;
  91. var ppt_img_nums = document.getElementsByClassName("ppt-image-wrap").length;
  92.  
  93. // 判断文档类型、文字和图片的数量状况
  94. if (type === "word" && !word_nums && pic_nums) {
  95. // doc: 纯图片
  96. return "doc-only-pic";
  97. }
  98. else if (type === "word" && word_nums > 2 && pic_nums <= 1) {
  99. // doc: 纯文字
  100. return "doc-only-word";
  101. }
  102. else if (type === "word" && pic_nums > 2 && word_nums > 2) {
  103. // doc: 图形、文字混合
  104. return "doc-pic-word";
  105. }
  106. else if (type === "pdf" && pic_nums > 2 && word_nums === 1) {
  107. // pdf: 带有一行文字标题,之后都是图形
  108. return "pdf-pic-title";
  109. }
  110. else if (type === "pdf" && !word_nums && pic_nums) {
  111. // pdf: 纯图形
  112. return "pdf-only-pic";
  113. }
  114. else if (type === "pdf" && !pic_nums && word_nums > 1) {
  115. // pdf: 纯文字
  116. return "pdf-only-word";
  117. }
  118. else if (type === "pdf" && word_nums > 2 && pic_nums > 1) {
  119. // pdf: 图形、文字混合
  120. return "pdf-pic-word";
  121. }
  122. else if ((type === "ppt" && ppt_img_nums > 2) || (type === "pdf" && !word_nums && !pic_nums && ppt_img_nums)) {
  123. // ppt: 包含至少3页内容 / 纯ppt图形页面构成
  124. return "ppt";
  125. }
  126. else if (type === "excel" && pic_nums && word_nums > 2) {
  127. // excel: 包含可选中文字
  128. return "excel-only-word";
  129. }
  130. else if (type === "excel" && pic_nums && !word_nums) {
  131. // excel: 纯图形
  132. return "excel-only-pic";
  133. }
  134. else if (type === "txt") {
  135. // txt: 纯文字
  136. return "txt";
  137. }
  138. else {
  139. return {"源文档类型": type,
  140. "图形数量": pic_nums,
  141. "文字块数量": word_nums,
  142. "ppt纯图形页面数量": ppt_img_nums};
  143. }
  144. }
  145.  
  146. /*
  147. * 主要功能函数部分
  148. */
  149.  
  150. function printPageDocin() {
  151. // 清理并打印豆丁网的文档页
  152. try {
  153. // 选择指针光标
  154. document.getElementById("j_select").click();
  155. // 移除无关页面元素
  156. var doc_head = document.getElementsByClassName("doc_header_mod")[0];
  157. var aside = document.getElementsByClassName("aside")[0];
  158. var no_more = document.getElementsByClassName("no_more_mod")[0];
  159. var like_too = document.getElementById("likeToo");
  160. var tools_bottom_bar = document.getElementsByClassName("tools_bottom_bar")[0];
  161. var page_crumbs = document.getElementsByClassName("page_crubms")[0];
  162. // 执行移除
  163. doc_head.remove();
  164. aside.remove();
  165. no_more.remove();
  166. like_too.remove();
  167. tools_bottom_bar.remove();
  168. page_crumbs.remove();
  169. }
  170. catch(e) {
  171. console.log("无须重复移除多余元素");
  172. }
  173. // 使文档居中
  174. var doc = document.getElementsByClassName("main")[0];
  175. doc.style.marginLeft = "6%";
  176. // 隐藏按钮,然后打印页面
  177. var btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  178. btn_2.remove();
  179. // 打印结束,显示按钮
  180. window.print();
  181. var after_page = document.getElementsByClassName("reader_tools_bar_wrap")[0];
  182. after_page.appendChild(btn_2);
  183. }
  184.  
  185. function printPageiShare() {
  186. // 清理并打印爱问共享资料的文档页
  187. try {
  188. // 移除无关页面元素
  189. var topbanner = document.getElementsByClassName("detail-topbanner")[0];
  190. var header = document.getElementsByClassName("new-detail-header")[0];
  191. var fixright = document.getElementById("fix-right");
  192. var redpacket = document.getElementsByClassName("loginRedPacket-dialog")[0];
  193. var fixedrightfull = document.getElementsByClassName("fixed-right-full")[0];
  194. var footer = document.getElementsByClassName("website-footer")[0];
  195. var guess = document.getElementsByClassName("guess-you-like-warpper")[0];
  196. var detailtopbox = document.getElementsByClassName("detail-top-box")[0];
  197. var fullscreen = document.getElementsByClassName("reader-fullScreen")[0];
  198. var endhint = document.getElementsByClassName("endof-trial-reading")[0];
  199. var crumb_arrow = document.getElementsByClassName("crumb-arrow")[0];
  200. // 执行移除
  201. topbanner.remove();
  202. header.remove();
  203. fixright.remove();
  204. redpacket.remove();
  205. fixedrightfull.remove();
  206. footer.remove();
  207. guess.remove();
  208. detailtopbox.remove();
  209. fullscreen.remove();
  210. endhint.remove();
  211. crumb_arrow.parentElement.remove();
  212. // 移除页面浏览状态按钮
  213. var state_btn = document.getElementsByClassName("state-bottom")[0];
  214. state_btn.remove();
  215. }
  216. catch(e) {
  217. console.log("无须重复移除多余元素");
  218. }
  219. // 使文档居中
  220. var doc_main = document.getElementsByClassName("doc-main")[0];
  221. var offset = window.prompt("请输入偏移百分位:", "10");
  222. // 如果输入的数字不在 1-59 内,提醒用户重新设置
  223. if (offset.length === 1 && offset.search(/[1-9]/) !== -1) {
  224. doc_main.style.marginLeft = offset + "%";
  225. }
  226. else if (offset.length === 2 && offset.search(/[1-5][0-9]/) !== -1) {
  227. doc_main.style.marginLeft = offset + "%";
  228. }
  229. else {
  230. alert("请输入一个正整数,范围在1至59之间,用来使文档居中\n(不同文档偏移量不同,所以需要手动调整)");
  231. return;
  232. }
  233. // 隐藏按钮,然后打印页面
  234. var btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  235. btn_2.style.display = "none";
  236. window.print();
  237. // 打印结束,显示按钮
  238. btn_2.style.removeProperty("display");
  239. }
  240.  
  241. function readAlliShare() {
  242. var red_btn = document.getElementsByClassName("red-color")[0];
  243. var red_text = red_btn.textContent;
  244. // 如果可以展开,则展开
  245. if (red_text.search("点击可继续阅读") !== -1) {
  246. red_btn.click();
  247. }
  248. // 否则启动按钮2,准备清理页面然后打印为PDF
  249. else {
  250. var hint = "文档已经完全展开,可以导出";
  251. alert(hint);
  252. // 准备调整按钮,先获取按钮
  253. var init_btn = document.getElementsByClassName("init-btn")[0];
  254. var save_doc_btn = document.getElementsByClassName("save-doc-btn")[0];
  255. // 调整按钮显示状况
  256. save_doc_btn.style.removeProperty("display");
  257. init_btn.style.display = "none";
  258. }
  259. }
  260.  
  261. function saveHtml() {
  262. // 提示用户保存完整html页面
  263. var hint1 = "请按下Ctrl+S以保存页面\n";
  264. var hint2 = "请保存【网页,全部】或【网页,完成】而非仅HTML或单个文件\n";
  265. var hint3 = "保存后应当有1个【xxx.html】文件和1个【xxx_files】文件夹\n";
  266. var hint4 = "请复制这两个文件到【HTML转PDF】程序所在的文件夹"
  267. alert(hint1 + hint2 + hint3 + hint4);
  268. }
  269.  
  270. function createSaveHtmlBtn() {
  271. // 创建 下载html 按钮
  272. var btn_3 = document.createElement("button");
  273. // 样式设定
  274. btn_3.setAttribute("class", "save-html-btn");
  275. btn_3.style.height = "25px";
  276. btn_3.style.width = "15%";
  277. btn_3.style.marginLeft = "0.2%";
  278. btn_3.style.backgroundColor = "orange";
  279. btn_3.style.border = "none";
  280. btn_3.textContent = "导出pdf(实验性)";
  281. btn_3.style.fontWeight = "bold";
  282. btn_3.style.borderRadius = "10%";
  283. // 绑定事件,添加到页面上
  284. btn_3.onclick = saveHtml;
  285. var section = document.getElementsByClassName("btns_section")[0];
  286. section.appendChild(btn_3);
  287. }
  288.  
  289. function readAll() {
  290. var read_all_btn = document.getElementsByClassName("read-all")[0];
  291. // 如果存在“继续阅读”的按钮
  292. if (read_all_btn) {
  293. // 点击“继续阅读”按钮
  294. read_all_btn.click();
  295. }
  296. else{
  297. var hint = "文档已经完全展开,可以导出";
  298. alert(hint);
  299. try {
  300. // 判断文档类型
  301. var category = detectType();
  302. }
  303. catch {
  304. alert("未知/特殊文档类型,例如学术文献,暂不支持下载\n也可与作者反馈或联系:\nallenlv2690@gmail.com");
  305. return undefined;
  306. }
  307. // 准备调整按钮,先获取按钮
  308. var init_btn = document.getElementsByClassName("init-btn")[0];
  309. var save_doc_btn = document.getElementsByClassName("save-doc-btn")[0];
  310.  
  311. // 根据文档类型判断是否要增加“导出pdf”橙色按钮
  312. if (category === "doc-only-word" ||
  313. category === "doc-pic-word" ||
  314. category === "pdf-only-word" ||
  315. category === "pdf-pic-word" ||
  316. category === "excel-only-word") {
  317. // 非纯图片文档可以使用html转pdf的功能(excel不行)
  318. save_doc_btn.style.width = "34.8%";
  319. createSaveHtmlBtn();
  320. }
  321. // 根据文档类型判断是否要更换绿色按钮的文字
  322. else if (category === "doc-pic-only" ||
  323. category === "pdf-pic-title" ||
  324. category === "ppt" ||
  325. category === "pdf-only-pic" ||
  326. category === "excel-only-pic"){
  327. save_doc_btn.textContent = "导出全部图片链接";
  328. }
  329. // 调整按钮显示状况
  330. save_doc_btn.style.removeProperty("display");
  331. init_btn.style.display = "none";
  332. }
  333. }
  334.  
  335. function savePDFData() {
  336. // 存储pdf型data(假定是内容是pic)
  337. // alert("Function savePDFData was called.");
  338. var pic_urls = document.getElementsByClassName("reader-pic-item");
  339. var text_list = [];
  340. // 去掉前缀
  341. var reg_exp_1 = new RegExp(": ?url[(]");
  342. // 去掉后缀
  343. var reg_exp_2 = new RegExp("[)]; ?background-position");
  344.  
  345. for (var i = 0; i < pic_urls.length; i++){
  346. var whole_text = pic_urls[i].getAttribute("style");
  347. var de_pretext = whole_text.split(reg_exp_1)[1];
  348. var url = de_pretext.split(reg_exp_2)[0];
  349. text_list.push(url);
  350. }
  351.  
  352. text_list[0] = text_list[0].replace(/"/g, "");
  353. var content = text_list.join("\n");
  354. // 启动下载
  355. createAndDownloadFile("urls.csv", content);
  356. }
  357.  
  358. function saveDocData() {
  359. // 存储doc型data(内容是text)
  360. // alert("Function saveDocData was called.");
  361. // 获取文本
  362. var text_elements = document.getElementsByClassName("reader-word-layer");
  363. var texts = [];
  364. for (var elem of text_elements){
  365. texts.push(elem.textContent);
  366. }
  367. // 美化后导出文本
  368. var origin_content = texts.join("");
  369. var content = formatText(origin_content);
  370. createAndDownloadFile("纯文本文档.txt", content);
  371. }
  372.  
  373. function savePPTData() {
  374. // 存储ppt型data(内容是pic)
  375. // alert("Function savePPTData was called.");
  376. var pic_elements = document.getElementsByClassName("ppt-image-wrap");
  377. var pic_urls = [];
  378.  
  379. for (var elem of pic_elements) {
  380. var pic_obj = elem.children[0];
  381. var url = pic_obj.src;
  382. pic_urls.push(url);
  383. }
  384. var content = pic_urls.join("\n");
  385. // 启动下载
  386. createAndDownloadFile("urls.csv", content);
  387. }
  388.  
  389. function saveExcelData() {
  390. // 1. 拿到表格
  391. var table_pic = document.getElementsByClassName("reader-pic-item")[0];
  392. var url = table_pic.style.getPropertyValue("background-image");
  393. // 获取图片地址
  394. var pure_url = url.slice(5, -2);
  395.  
  396. // 2. 拿到表格内文字信息
  397. var text_elems = document.getElementsByClassName("reader-word-layer");
  398. var text_list = [];
  399. for (var elem of text_elems) {
  400. text_list.push(elem.textContent);
  401. }
  402. var _text = text_list.join("\n");
  403. // 替换奇怪的空格
  404. var text = _text.replace(/ /g, " ");
  405.  
  406. // 3. 合并至一个字符串,然后导出
  407. var head = "表格图形链接如下(复制到浏览器中打开):";
  408. var content = head + "\n\n" + pure_url + "\n\n" + text;
  409. createAndDownloadFile("图片地址和表格内容.txt", content);
  410. }
  411.  
  412. function saveDocAndPicData() {
  413. // 对于文字和图形混合型的data只能存储其中的纯文字
  414. // alert("Function saveDocAndPicData was called.");
  415. // 获取文本
  416. var text_elements = document.getElementsByClassName("reader-word-layer");
  417. var texts = [];
  418. for (var elem of text_elements){
  419. texts.push(elem.textContent);
  420. }
  421. var origin_content = texts.join("");
  422. // 美化后导出文本
  423. var content = formatText2(origin_content);
  424. createAndDownloadFile("纯文本文档.txt", content);
  425. }
  426.  
  427. function saveTxtData() {
  428. // 存储纯文本到本地
  429. var text_elements = document.getElementsByClassName("p-txt");
  430. var texts = [];
  431. for (var elem of text_elements){
  432. texts.push(elem.textContent);
  433. }
  434. var content = texts.join("");
  435. createAndDownloadFile("纯文本文档.txt", content);
  436. }
  437.  
  438. function saveData() {
  439. // 存储文档数据到本地
  440. var category = detectType();
  441. if (category === "doc-pic-only" ||
  442. category === "pdf-pic-title" ||
  443. category === "pdf-only-pic" ||
  444. category === "excel-only-pic"){
  445. // 对于纯图形文档,都用【图片下载合并器】来处理
  446. savePDFData();
  447. }
  448. else if (category === "doc-only-word" ||
  449. category === "doc-pic-word" ||
  450. category === "pdf-only-word" ||
  451. category === "pdf-pic-word") {
  452. // 对于包含大量文字、且非表格的文档,直接提出纯文本
  453. saveDocData();
  454. }
  455. else if (category === "ppt") {
  456. // ppt按类似于纯图文档的方法处理
  457. savePPTData();
  458. }
  459. else if (category === "excel-only-word") {
  460. // excel仅保存其中的纯文字
  461. saveExcelData();
  462. }
  463. else if (category === "txt") {
  464. // txt直接保存
  465. saveTxtData();
  466. }
  467. else {
  468. var info = [];
  469. for (var key in category){
  470. info.push(key + " : " + category[key]);
  471. }
  472. alert("未知处理类型,请反馈或联系作者:\nallenlv2690@gmail.com\n" + info.join("\n"));
  473. }
  474. }
  475.  
  476. function create2btns() {
  477. // 创建两个初始按钮:展开文档、存储文档
  478.  
  479. // 创建脚本启动按钮1、2
  480. var btn_1 = document.createElement("button");
  481. var btn_2 = document.createElement("button");
  482.  
  483. // 设定按钮1、2样式
  484. btn_1.setAttribute("class", "init-btn");
  485. btn_1.style.height = "25px";
  486. btn_1.style.width = "50%";
  487. btn_1.style.marginLeft = "25%";
  488. btn_1.style.border = "none";
  489. btn_1.style.backgroundColor = "blue";
  490. btn_1.style.color = "white";
  491. btn_1.style.fontWeight = "bold";
  492. btn_1.textContent = "展开文档";
  493.  
  494. btn_2.setAttribute("class", "save-doc-btn");
  495. btn_2.style.height = "25px";
  496. btn_2.style.width = "50%";
  497. btn_2.style.marginLeft = "25%";
  498. btn_2.style.backgroundColor = "green";
  499. btn_2.style.border = "none";
  500. btn_2.style.display = "none";
  501. btn_2.style.color = "white";
  502. btn_2.style.fontWeight = "bold";
  503.  
  504. // 添加按钮元素到页面
  505. var section = document.createElement("section");
  506. section.setAttribute("class", "btns_section");
  507. section.appendChild(btn_1);
  508. section.appendChild(btn_2);
  509. document.body.appendChild(section);
  510. // 返回元素引用
  511. return [btn_1, btn_2]
  512. }
  513.  
  514. /*
  515. * 主函数部分
  516. */
  517.  
  518. function baiduWenku() {
  519. // 创建脚本启动按钮1、2
  520. var [btn_1, btn_2] = create2btns();
  521. btn_2.textContent = "导出纯文本";
  522.  
  523. // 绑定主函数
  524. btn_1.onclick = readAll;
  525. btn_2.onclick = saveData;
  526. }
  527.  
  528. function docin() {
  529. // 创建脚本启动按钮
  530. var [btn_1, btn_2] = create2btns();
  531. btn_1.remove();
  532. btn_2.textContent = "打印页面到PDF";
  533. btn_2.style.removeProperty("display");
  534. // 绑定主函数
  535. btn_2.onclick = printPageDocin;
  536. }
  537.  
  538. function ishare() {
  539. // 创建脚本启动按钮1、2
  540. var [btn_1, btn_2] = create2btns();
  541. btn_2.textContent = "打印页面到PDF";
  542.  
  543. // 绑定主函数
  544. btn_1.onclick = readAlliShare;
  545. btn_2.onclick = printPageiShare;
  546.  
  547. // 移除底部下载条
  548. var detailfixed = document.getElementsByClassName("detail-fixed")[0];
  549. detailfixed.remove();
  550. }
  551.  
  552. function main() {
  553. var host = window.location.host;
  554. if (host === "wenku.baidu.com") {
  555. baiduWenku();
  556. }
  557. else if (host === "www.docin.com") {
  558. docin();
  559. }
  560. else if (host === "ishare.iask.sina.com.cn") {
  561. ishare();
  562. }
  563. else {
  564. console.log("匹配到了无效网页");
  565. }
  566. }
  567.  
  568. main();