Wenku Doc Downloader

下载“百度文库”文档,导出txt或pdf。支持①豆丁网②爱问共享资料(新浪文档)③得力文库④道客巴巴,文档导出pdf。在文档页面最最底部有蓝/绿色长方形按钮,说明脚本生效了。2021/12/17百度文档更新了技术,【脚本对百度文档完全无效了】,请等待下次更新,抱歉。

当前为 2021-12-19 提交的版本,查看 最新版本

  1. // ==UserScript==
  2. // @name Wenku Doc Downloader
  3. // @namespace http://tampermonkey.net/
  4. // @version 1.3.4
  5. // @description 下载“百度文库”文档,导出txt或pdf。支持①豆丁网②爱问共享资料(新浪文档)③得力文库④道客巴巴,文档导出pdf。在文档页面最最底部有蓝/绿色长方形按钮,说明脚本生效了。2021/12/17百度文档更新了技术,【脚本对百度文档完全无效了】,请等待下次更新,抱歉。
  6. // @author allenlv2690@gmail.com
  7. // @match https://wenku.baidu.com/view/*
  8. // @match https://www.docin.com/p-*
  9. // @match https://ishare.iask.sina.com.cn/f/*
  10. // @match https://www.deliwenku.com/p-*
  11. // @match *://www.doc88.com/p-*
  12. // @match https://wk.baidu.com/view/*
  13. // @require https://cdn.bootcdn.net/ajax/libs/FileSaver.js/2.0.5/FileSaver.js
  14. // @require https://cdn.bootcdn.net/ajax/libs/jszip/3.6.0/jszip.js
  15. // @require https://cdn.bootcdn.net/ajax/libs/jspdf/2.3.1/jspdf.umd.min.js
  16. // @icon https://wenku.baidu.com/favicon.ico
  17. // @grant none
  18. // @license GPL-3.0-only
  19. // @create 2021-11-22
  20. // ==/UserScript==
  21.  
  22. let jsPDF = jspdf.jsPDF;
  23.  
  24. /*
  25. * 附属功能函数部分
  26. */
  27.  
  28. /**
  29. * 创建并下载文件
  30. * @param {string} fileName
  31. * @param {string} content
  32. */
  33. function createAndDownloadFile(fileName, content) {
  34. let aTag = document.createElement('a');
  35. let blob = new Blob([content]);
  36. aTag.download = fileName;
  37. aTag.href = URL.createObjectURL(blob);
  38. aTag.click();
  39. URL.revokeObjectURL(blob);
  40. }
  41.  
  42. /**
  43. * 允许打印页面
  44. */
  45. function allowPrint() {
  46. let style = document.createElement("style");
  47. style.innerHTML = `@media print {
  48. body{
  49. display:block;
  50. }
  51. }`;
  52. document.getElementsByTagName("head")[0].appendChild(style);
  53. }
  54.  
  55. /**
  56. * 隐藏按钮,打印页面,显示按钮
  57. */
  58. function hideBtnThenPrint() {
  59. // 隐藏按钮,然后打印页面
  60. let section = document.getElementsByClassName("btns_section")[0];
  61. section.style.display = "none";
  62. window.print();
  63. // 打印结束,显示按钮
  64. section.style.removeProperty("display");
  65. }
  66.  
  67. /**
  68. * 增强按钮1(蓝色按钮:展开文档)的点击效果
  69. */
  70. function enhanceBtnClickReaction() {
  71. let btn_1 = document.getElementsByClassName("init-btn")[0];
  72. btn_1.style.color = "grey";
  73. btn_1.style.fontWeight = "normal";
  74. let changeColor = function() {
  75. btn_1.style.color = "white";
  76. btn_1.style.fontWeight = "bold";
  77. };
  78. setTimeout(changeColor, 500);
  79. }
  80.  
  81. /**
  82. * 用input框跳转到对应页码
  83. * @param {Element} cur_page 当前页码
  84. * @param {string} aim_page 目标页码
  85. * @param {string} event_type 键盘事件类型:"keyup" | "keypress" | "keydown"
  86. */
  87. function jump2pageNo(cur_page, aim_page, event_type) {
  88. // 设置跳转页码为目标页码
  89. cur_page.value = aim_page;
  90. // 模拟回车事件来跳转
  91. let keyboard_event_enter = new KeyboardEvent(event_type, {
  92. bubbles: true,
  93. cancelable: true,
  94. keyCode: 13
  95. });
  96. cur_page.dispatchEvent(keyboard_event_enter);
  97. }
  98.  
  99. /**
  100. * 滚动到页面底部
  101. */
  102. function scrollToBottom() {
  103. window.scrollTo({
  104. top: document.body.scrollHeight,
  105. behavior: "smooth"
  106. });
  107. }
  108.  
  109. /**
  110. * 用于纯文本文档的文本美化,适用性:百度文库
  111. * @param {string} text
  112. * @returns 美化后的文本
  113. */
  114. function formatText(text) {
  115. let reg_exp_1 = new RegExp(" ?[(]?=[\u4e00-\u9fa5] ?[)]");
  116. let reg_exp_2 = new RegExp("(?<=TEMP[\u4e00-\u9fa5]) ?");
  117. // let reg_exp_3 = new RegExp("(?<=[\u4e00-\u9fa5]) ?(?=[\u4e00-\u9fa5])");
  118.  
  119. let text_1 = text.replace(reg_exp_1, "TEMP");
  120. let text_2 = text_1.replace(reg_exp_2, "");
  121. let text_3 = text_2.replace("TEMP", "");
  122. let text_final = text_3.replace(/ /g, " ");
  123. return text_final;
  124. }
  125.  
  126. /**
  127. * 用于图形文字混合型文档的文本美化,适用性:百度文库
  128. * @param {string} text
  129. * @returns 美化后的文本
  130. */
  131. function formatText2(text) {
  132. let reg_exp = new RegExp("[  ]{2,}");
  133. let content_1 = text.replace(reg_exp, "\n");
  134.  
  135. let content_2 = content_1.replace(/[  ]\n/g, "\n");
  136.  
  137. let reg_exp_2 = new RegExp("\n[   ]*\n*\n");
  138. let content_3 = content_2.replace(reg_exp_2, "\n");
  139.  
  140. let reg_exp_3 = new RegExp(" *\n * ");
  141. let content_4 = content_3.replace(reg_exp_3, "\n");
  142.  
  143. let content_5 = content_4.replace(/[  ]/g, " ");
  144. let final_content = content_5.replace(/[ \n]精选文档[ \n]/g).replace(/\n{2,}/g, "\n");
  145.  
  146. return final_content;
  147. }
  148.  
  149. /**
  150. * 判断文档的详细类型,适用性:百度文库
  151. * @returns 源文档类型-实际内容类型,如: doc-pic-word
  152. */
  153. function detectType() {
  154. // 获取文档类型名称
  155. let file_type, type;
  156. try {
  157. let doc_title_wrap = document.getElementsByClassName("doc-title-wrap")[0];
  158. file_type = doc_title_wrap.children[0].className;
  159. } catch (e) {
  160. alert("请刷新页面以激活该按钮。\n先点击【导出pdf】橙色按钮后该按钮将无法使用。");
  161. return "safe_quit";
  162. }
  163. // 判断文档类型
  164. if (file_type.search("word") !== -1) {
  165. type = "word";
  166. } else if (file_type.search("ppt") !== -1) {
  167. type = "ppt";
  168. } else if (file_type.search("excel") !== -1) {
  169. type = "excel";
  170. } else if (file_type.search("pdf") !== -1) {
  171. type = "pdf";
  172. } else if (file_type.search("txt" !== -1)) {
  173. type = "txt";
  174. } else {
  175. type = file_type;
  176. }
  177. // 分别尝试获取相应元素列表,若列表长度为0则不存在相应元素,否则存在
  178. let pic_nums = document.getElementsByClassName("reader-pic-item").length;
  179. let word_nums = document.getElementsByClassName("reader-word-layer").length;
  180. let ppt_img_nums = document.getElementsByClassName("ppt-image-wrap").length;
  181.  
  182. // 判断文档类型、文字和图片的数量状况
  183. if (type === "word" && !word_nums && pic_nums) {
  184. // doc: 纯图片
  185. return "doc-only-pic";
  186. } else if (type === "word" && word_nums > 2 && pic_nums <= 1) {
  187. // doc: 纯文字
  188. return "doc-only-word";
  189. } else if (type === "word" && pic_nums > 1 && word_nums > 2) {
  190. // doc: 图形、文字混合
  191. return "doc-pic-word";
  192. } else if (type === "pdf" && pic_nums > 2 && word_nums === 1) {
  193. // pdf: 带有一行文字标题,之后都是图形
  194. return "pdf-pic-title";
  195. } else if (type === "pdf" && !word_nums && pic_nums) {
  196. // pdf: 纯图形
  197. return "pdf-only-pic";
  198. } else if (type === "pdf" && !pic_nums && word_nums > 1) {
  199. // pdf: 纯文字
  200. return "pdf-only-word";
  201. } else if (type === "pdf" && word_nums > 2 && pic_nums > 1) {
  202. // pdf: 图形、文字混合
  203. return "pdf-pic-word";
  204. } else if ((type === "ppt" && ppt_img_nums > 2) || (type === "pdf" && !word_nums && !pic_nums && ppt_img_nums)) {
  205. // ppt: 包含至少3页内容 / 纯ppt图形页面构成
  206. return "ppt";
  207. } else if (type === "excel" && pic_nums && word_nums > 2) {
  208. // excel: 包含可选中文字
  209. return "excel-only-word";
  210. } else if (type === "excel" && pic_nums && !word_nums) {
  211. // excel: 纯图形
  212. return "excel-only-pic";
  213. } else if (type === "txt") {
  214. // txt: 纯文字
  215. return "txt";
  216. } else {
  217. return {
  218. "源文档类型": type,
  219. "图形数量": pic_nums,
  220. "文字块数量": word_nums,
  221. "ppt纯图形页面数量": ppt_img_nums
  222. };
  223. }
  224. }
  225.  
  226. /**
  227. * 用try移除元素
  228. * @param {*} element
  229. */
  230. function tryToRemoveElement(element) {
  231. try {
  232. element.remove();
  233. } catch (e) {
  234. console.log();
  235. }
  236. }
  237.  
  238. /**
  239. * 用try移除 [元素列表1, 元素列表2, ...] 的元素
  240. * @param {*} elem_list_box
  241. */
  242. function tryToRemoveSameElem(elem_list_box) {
  243. for (let elem_list of elem_list_box) {
  244. if (!elem_list) {
  245. continue;
  246. }
  247. for (let elem of elem_list) {
  248. try {
  249. elem.remove();
  250. } catch (e) {
  251. console.log();
  252. }
  253. }
  254. }
  255. }
  256.  
  257. /**
  258. * 使文档在页面上居中
  259. * @param {string} class_name 文档元素的class
  260. * @param {string} default_offset 文档部分向右偏移的百分比(0-59)
  261. * @returns 偏移值是否合法
  262. */
  263. function centerDoc(class_name, default_offset) {
  264. let doc_main = document.getElementsByClassName(class_name)[0];
  265. let offset = window.prompt("请输入偏移百分位:", default_offset);
  266. // 如果输入的数字不在 0-59 内,提醒用户重新设置
  267. if (offset.length === 1 && offset.search(/[0-9]/) !== -1) {
  268. doc_main.style.marginLeft = offset + "%";
  269. return true;
  270. } else if (offset.length === 2 && offset.search(/[1-5][0-9]/) !== -1) {
  271. doc_main.style.marginLeft = offset + "%";
  272. return true
  273. } else {
  274. alert("请输入一个正整数,范围在0至59之间,用来使文档居中\n(不同文档偏移量不同,所以需要手动调整)");
  275. return false;
  276. }
  277. }
  278.  
  279. /**
  280. * 提示文档已经展开,改变按钮形态:隐去蓝色按钮,显示绿色按钮
  281. * @param {Boolean} shrink_btn2 是否缩小绿色按钮
  282. * @param {Boolean} recommend_btn2 是否推荐绿色按钮
  283. * @param {String} btn2_new_text (如果需要)替换绿色按钮的文本为新文本
  284. * @param {Boolean} use_hint 是否提示文档已经展开
  285. */
  286. function transformButtons(shrink_btn2 = false, recommend_btn2 = false, btn2_new_text = "", use_hint = true) {
  287. // 提示文档已经展开
  288. if (use_hint) {
  289. let hint = "文档已经完全展开,可以导出";
  290. alert(hint);
  291. }
  292. // 准备调整按钮,先获取按钮
  293. let btn_1 = document.getElementsByClassName("init-btn")[0];
  294. let btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  295. // 调整按钮显示状况
  296. btn_1.style.display = "none";
  297. btn_2.style.removeProperty("display");
  298. if (shrink_btn2) {
  299. btn_2.style.width = "34.8%";
  300. }
  301. if (btn2_new_text) {
  302. btn_2.textContent = btn2_new_text;
  303. }
  304. if (recommend_btn2) {
  305. btn_2.textContent += "(推荐)";
  306. }
  307. }
  308.  
  309. /*
  310. * 主要功能函数部分
  311. */
  312.  
  313. /**
  314. * 清理并打印得力文库的文档页
  315. */
  316. function printPageDeliwenku() {
  317. // 移除页面上的无关元素
  318. let selector = ".hr-wrap, #readshop, .nav_uis, .bookdesc, #boxright, .QQ_S1, .QQ_S, #outer_page_more, .works-manage-box.shenshu, .works-intro, .mt10.related-pic-box, .mt10.works-comment, .foot_nav, .siteInner";
  319. let elem_list = document.querySelectorAll(selector);
  320. for (let elem of elem_list) {
  321. tryToRemoveElement(elem);
  322. }
  323. // 修改页间距
  324. let outer_pages = document.getElementsByClassName("outer_page");
  325. for (let page of outer_pages) {
  326. page.style.marginBottom = "20px";
  327. }
  328. // 使文档居中
  329. alert("建议使用:\n偏移量: 3\n缩放: 112\n请上下滚动页面,确保每页内容都加载完成以避免空白页\n如果预览时有空白页或文末有绿色按钮,请取消打印重试");
  330. if (!centerDoc("boxleft", "3")) {
  331. return; // 如果输入非法,终止函数调用
  332. }
  333. // 打印文档
  334. hideBtnThenPrint();
  335. }
  336.  
  337. /**
  338. * 清理并打印爱问共享资料的文档页
  339. * @returns 如果输入偏移量非法,返回空值以终止函数
  340. */
  341. function printPageiShare() {
  342. // # 清理并打印爱问共享资料的文档页
  343. // ## 移除页面上无关的元素
  344. // ### 移除单个元素
  345. let topbanner = document.getElementsByClassName("detail-topbanner")[0];
  346. let header = document.getElementsByClassName("new-detail-header")[0];
  347. let fixright = document.getElementById("fix-right");
  348. let redpacket = document.getElementsByClassName("loginRedPacket-dialog")[0];
  349. let fixedrightfull = document.getElementsByClassName("fixed-right-full")[0];
  350. let footer = document.getElementsByClassName("website-footer")[0];
  351. let guess = document.getElementsByClassName("guess-you-like-warpper")[0];
  352. let detailtopbox = document.getElementsByClassName("detail-top-box")[0];
  353. let fullscreen = document.getElementsByClassName("reader-fullScreen")[0];
  354. let endhint = document.getElementsByClassName("endof-trial-reading")[0];
  355. let crumb_arrow;
  356. try { crumb_arrow = document.getElementsByClassName("crumb-arrow")[0].parentElement; } catch (e) { console.log(); }
  357. let copyright = document.getElementsByClassName("copyright-container")[0];
  358. let state_btn = document.getElementsByClassName("state-bottom")[0];
  359. let comments = document.getElementsByClassName("user-comments-wrapper")[0];
  360. // ### 执行移除
  361. let elem_list = [
  362. topbanner,
  363. header,
  364. fixright,
  365. redpacket,
  366. fixedrightfull,
  367. footer,
  368. guess,
  369. detailtopbox,
  370. fullscreen,
  371. endhint,
  372. crumb_arrow,
  373. copyright,
  374. state_btn,
  375. comments
  376. ];
  377. for (let elem of elem_list) {
  378. tryToRemoveElement(elem);
  379. }
  380. // ### 移除全部同类元素
  381. let elem_list_2 = document.querySelectorAll(".tui-detail, .adv-container")
  382. for (let elem_2 of elem_list_2) {
  383. tryToRemoveElement(elem_2);
  384. }
  385. // 使文档居中
  386. alert("建议使用:\n偏移量: 18\n缩放: 默认\n如果预览中有广告,就取消打印\n再点一次按钮,预览中应该就没有广告了");
  387. if (!centerDoc("doc-main", "18")) {
  388. return; // 如果输入非法,终止函数调用
  389. }
  390. // 隐藏按钮,然后打印页面
  391. hideBtnThenPrint();
  392. }
  393.  
  394. /**
  395. * 清理并打百度文库的文档页
  396. * @returns 如果输入偏移量非法,返回空值以终止函数
  397. */
  398. function printPageBaidu() {
  399. // # 清理并打百度文库的文档页
  400. // ## 移除无关页面元素
  401. // ### 要移除的单个元素
  402. let header_wrapper = document.getElementsByClassName("header-wrapper")[0];
  403. let right_wrapper = document.getElementById("right-wrapper-id");
  404. let reader_topbar = document.getElementsByClassName("reader-topbar")[0];
  405. let end_fold_page = document.getElementsByClassName("try-end-fold-page")[0];
  406. let catalog = document.querySelector(".catalog");
  407. let bottom = document.querySelector(".journal");
  408.  
  409. let elem_list = [
  410. header_wrapper,
  411. right_wrapper,
  412. reader_topbar,
  413. end_fold_page,
  414. catalog,
  415. bottom
  416. ]
  417. for (let elem of elem_list) {
  418. tryToRemoveElement(elem);
  419. }
  420. // ### 移除全部同类元素
  421. let lazy_load_list = document.getElementsByClassName("lazy-load");
  422. let no_full_screen_list = document.getElementsByClassName("no-full-screen");
  423. let ads = document.getElementsByClassName("hx-warp");
  424.  
  425. tryToRemoveSameElem([lazy_load_list, ads, no_full_screen_list]);
  426.  
  427. // ## 文档类型测试
  428. // ### 常规文档测试
  429. let normal = Boolean(document.getElementsByClassName("left-wrapper")[0]);
  430. // ### 文献/期刊文档测试
  431. let journal = Boolean(document.getElementById("#journal-view"))
  432. let class_name;
  433. if (normal) {
  434. class_name = "left-wrapper";
  435. } else if (journal) {
  436. class_name = "right-wrapper";
  437. } else {
  438. alert("文档部分元素class不为left-wrapper,且id不为journal-view\n是未知文档类型,无法处理,请联系作者\nQQ: 2690874578\nEmail: allenlv2690@gmail.com");
  439. }
  440.  
  441. // 使文档居中
  442. alert("建议使用:\n偏移量: 0\n缩放: 118%\n请上下滚动页面,确保每页内容都加载完成以避免空白页\n如果预览时有空白页或文末有按钮,请取消打印重试");
  443. if (!centerDoc(class_name, "0")) {
  444. return; // 如果输入非法,退出函数调用
  445. }
  446. // 隐藏按钮,然后打印页面
  447. hideBtnThenPrint();
  448. }
  449.  
  450. function printPageWK() {
  451. // 去水印
  452. document.querySelectorAll("[class*=__wm]").forEach((elem) => {
  453. elem.className += " __web-inspector-hide-shortcut__";
  454. });
  455. // 调整页面边距、圆角、背景色
  456. let pages = document.querySelectorAll(".retype-page");
  457. pages.forEach((page) => {
  458. page.style.borderRadius = "0";
  459. page.style.background = "";
  460. page.style.padding = "0 0 0 0";
  461. });
  462. // 页面间隔调为0
  463. document.querySelectorAll(".gap").forEach((gap) => {
  464. gap.style.height = "0";
  465. });
  466. hideBtnThenPrint();
  467. }
  468.  
  469. /**
  470. * 清理WK页面的无效元素
  471. */
  472. function clearPageWK() {
  473. // 去除元素
  474. let selector = ".vip-cashier-dialog-wrap, .top-card, .college-strong-guide-contain, .reader-pop-manager-view-containter, .middle-box-root";
  475. document.querySelectorAll(selector).forEach((elem) => {
  476. tryToRemoveElement(elem);
  477. });
  478. // 去除父级元素
  479. let child_selector = ".bartop, .barbottom";
  480. document.querySelectorAll(child_selector).forEach((elem) => {
  481. tryToRemoveElement(elem.parentElement);
  482. });
  483. // 前项元素去除
  484. let previous_selector = ".reader-pop-manager-view-containter";
  485. document.querySelectorAll(previous_selector).forEach((elem) => {
  486. tryToRemoveElement(elem.previousElementSibling);
  487. });
  488. }
  489.  
  490. /**
  491. * 创建“打印页面到PDF”按钮
  492. * @param {Function} printPageWebsite
  493. * @returns btn_3元素引用
  494. */
  495. function createPrintPageBtn(printPageWebsite) {
  496. let btn_3 = document.createElement("button");
  497. // 样式设定
  498. btn_3.setAttribute("class", "save-html-btn");
  499. btn_3.style.height = "25px";
  500. btn_3.style.width = "15%";
  501. btn_3.style.marginLeft = "0.2%";
  502. btn_3.style.backgroundColor = "orange";
  503. btn_3.style.border = "none";
  504. btn_3.textContent = "导出pdf";
  505. btn_3.style.fontWeight = "bold";
  506. btn_3.style.borderRadius = "10%";
  507. btn_3.style.zIndex = "99999";
  508. // 绑定事件,添加到页面上
  509. btn_3.onclick = printPageWebsite;
  510. let section = document.getElementsByClassName("btns_section")[0];
  511. section.appendChild(btn_3);
  512. return btn_3;
  513. }
  514.  
  515. /**
  516. * 点击“继续阅读”,适用性:得力文库
  517. */
  518. function readAllDeliwenku() {
  519. // 点击“同意并开始预览全文”
  520. let start_btn = document.getElementsByClassName("pre_button")[0];
  521. let display = start_btn.parentElement.parentElement.style.display;
  522. // 如果该按钮显示着,则点击,然后滚动至页面底部,最后终止函数
  523. if (!display) {
  524. start_btn.children[0].click();
  525. setTimeout("scroll(0, document.body.scrollHeight)", 200);
  526. return;
  527. }
  528. // 增强按钮点击效果
  529. enhanceBtnClickReaction();
  530.  
  531. let read_all_btn = document.getElementsByClassName("fc2e")[0];
  532. let display2 = read_all_btn.parentElement.parentElement.style.display
  533. // 继续阅读
  534. if (display2 !== "none") {
  535. // 获取input元素
  536. let cur_page = document.querySelector("#pageNumInput");
  537. let page_old = cur_page.value;
  538. let page_max = cur_page.parentElement.nextElementSibling.textContent.replace(" / ", "");
  539. // 跳转到尾页
  540. jump2pageNo(cur_page, page_max, "keydown");
  541. // 跳转回来
  542. jump2pageNo(cur_page, page_old, "keydown");
  543.  
  544. // 切换按钮准备导出
  545. } else {
  546. // 推荐导出全部图片链接
  547. transformButtons(true, true);
  548. // btn_3 橙色按钮
  549. createPrintPageBtn(printPageDeliwenku);
  550. }
  551. }
  552.  
  553. /**
  554. * 点击“展开继续阅读”,适用性:爱尚共享资料
  555. */
  556. function readAlliShare() {
  557. // 获取“继续阅读”元素
  558. let red_btn = document.getElementsByClassName("red-color")[0];
  559. let red_text = red_btn.textContent;
  560. // 增强按钮点击效果
  561. enhanceBtnClickReaction();
  562. // 如果可以展开,则展开
  563. if (red_text.search("点击可继续阅读") !== -1) {
  564. red_btn.click();
  565. }
  566. // 否则启动按钮2,准备清理页面然后打印为PDF
  567. else {
  568. // 平滑往返页面顶部和底部
  569. window.scrollTo({
  570. top: 0,
  571. behavior: "smooth"
  572. });
  573. setTimeout(scrollToBottom, 2000);
  574.  
  575. // 推荐导出全部图片链接
  576. transformButtons(true, true);
  577. // btn_3,橙色按钮
  578. createPrintPageBtn(printPageiShare);
  579. }
  580. }
  581.  
  582. /**
  583. * 点击“继续阅读”,适用性:百度文库
  584. * @returns 特殊文档类型不予下载,返回空值
  585. */
  586. function readAll() {
  587. // 获取“继续阅读”按钮
  588. let read_all_btn = document.getElementsByClassName("read-all")[0];
  589. // 增强按钮点击效果
  590. enhanceBtnClickReaction();
  591. // 如果存在“继续阅读”的按钮
  592. if (read_all_btn) {
  593. // 跳转到文末(等同于展开全文)
  594. let cur_page = document.getElementsByClassName("cur-page")[0];
  595. // 取得最大页码
  596. let page_max = cur_page.parentElement.children[2];
  597. // 设置跳转页码为最大页码
  598. cur_page.value = page_max;
  599. // 跳转到尾页
  600. jump2pageNo(cur_page, page_max, "keyup");
  601. // 滚动到页面底部
  602. // setTimeout(scrollToBottom, 500);
  603.  
  604. // 否则认为已经展开了文档,判断文档类型,然后显示对应的按钮
  605. } else {
  606. let type;
  607. try {
  608. // 判断文档类型
  609. type = detectType();
  610. } catch (e) {
  611. alert("未知/特殊文档类型,例如学术文献,暂不支持下载\n也可与作者反馈或联系:\nallenlv2690@gmail.com");
  612. return undefined;
  613. }
  614. // 添加导出pdf功能的按钮
  615. let btn_3 = createPrintPageBtn(printPageBaidu);
  616. // 纯文字类型文档推荐导出纯文本
  617. if (type === "doc-only-word" ||
  618. type === "pdf-only-word") {
  619. transformButtons(true, true);
  620. }
  621. // 纯图类型文档推荐导出图片链接再拼合为PDF
  622. else if (type === "doc-only-pic" ||
  623. type === "pdf-pic-title" ||
  624. type === "ppt" ||
  625. type === "pdf-only-pic" ||
  626. type === "excel-only-pic") {
  627. transformButtons(true, true, "导出全部图片链接");
  628. }
  629. // 其他类型应该是图文混合型,推荐导出PDF
  630. else {
  631. transformButtons(true);
  632. btn_3.textContent += "(推荐)";
  633. }
  634. }
  635. }
  636.  
  637. function readAllDoc88() {
  638. // 获取“继续阅读”按钮
  639. let continue_btn = document.querySelector("#continueButton");
  640. // 增强按钮点击效果
  641. enhanceBtnClickReaction();
  642. // 如果存在“继续阅读”按钮
  643. if (continue_btn) {
  644. // 跳转到文末(等同于展开全文)
  645. let cur_page = document.querySelector("#pageNumInput");
  646. // 取得当前页码(用于返回到现在位置)
  647. let page_old = cur_page.value;
  648. // 取得最大页码
  649. let page_max = cur_page.parentElement.textContent.replace(" / ", "");
  650. // 跳转到尾页
  651. jump2pageNo(cur_page, page_max, "keypress");
  652. // 跳转回来
  653. jump2pageNo(cur_page, page_old, "keypress");
  654. }
  655. // 否则启动按钮2
  656. else {
  657. transformButtons(true, false, "", true);
  658. // 显示btn_3
  659. document.querySelector(".save-html-btn").style.removeProperty("display");
  660. }
  661. }
  662.  
  663. function readAllWK() {
  664. enhanceBtnClickReaction();
  665. let first_open = document.querySelector(".open-arrow");
  666. // 第一次展开文档
  667. if (first_open) {
  668. first_open.click();
  669. setTimeout(readAllWK, 1000);
  670. }
  671. // 非第一次展开文档
  672. else {
  673. let read_all = document.querySelector(".pagerwg-button");
  674. // 如果“继续阅读”按钮不存在或已经被隐藏
  675. if (!read_all || read_all.style.display === "none") {
  676. // 尝试关闭弹窗(如果存在)
  677. try {
  678. functiondocument.querySelector(".btn-cancel[id*=wui]").click();
  679. } catch (e) { console.log("继续阅读按钮引起的弹窗不存在,无需关闭"); }
  680. // 尝试移除底部无关元素
  681. let bottom_part = document.querySelector(".live-broadcast-pop-wrap");
  682. tryToRemoveElement(bottom_part.previousElementSibling);
  683. // 换为按钮2
  684. transformButtons(false, false, "", true);
  685. }
  686. // 否则文档尚未完全展开,继续点击按钮展开文档
  687. else {
  688. setTimeout(() => {
  689. read_all.click();
  690. clearPageWK();
  691. readAllWK();
  692. }, 1000);
  693. }
  694. }
  695. }
  696.  
  697. /**
  698. * 存储非PPT文档的png图形链接,适用性:百度文库
  699. */
  700. function savePDFData() {
  701. let pic_urls = document.getElementsByClassName("reader-pic-item");
  702. let text_list = [];
  703. // 去掉前缀
  704. let reg_exp_1 = new RegExp(": ?url[(]");
  705. // 去掉后缀
  706. let reg_exp_2 = new RegExp("[)]; ?background-position");
  707.  
  708. for (let i = 0; i < pic_urls.length; i++) {
  709. let whole_text = pic_urls[i].getAttribute("style");
  710. let de_pretext = whole_text.split(reg_exp_1)[1];
  711. let url = de_pretext.split(reg_exp_2)[0];
  712. text_list.push(url);
  713. }
  714.  
  715. text_list[0] = text_list[0].replace(/"/g, "");
  716. let content = text_list.join("\n");
  717. // 启动下载
  718. createAndDownloadFile("urls.csv", content);
  719. }
  720.  
  721. /**
  722. * 存储纯文本,适用性:百度文库
  723. */
  724. function saveDocData() {
  725. // 获取文本
  726. let text_elements = document.getElementsByClassName("reader-word-layer");
  727. let texts = [];
  728. for (let elem of text_elements) {
  729. texts.push(elem.textContent);
  730. }
  731. // 美化后导出文本
  732. let origin_content = texts.join("");
  733. let content = formatText(origin_content);
  734. createAndDownloadFile("纯文本文档.txt", content);
  735. }
  736.  
  737. /**
  738. * 存储PPT图像链接,适用性:百度文库
  739. */
  740. function savePPTData() {
  741. let pic_elements = document.getElementsByClassName("ppt-image-wrap");
  742. let pic_urls = [];
  743.  
  744. for (let elem of pic_elements) {
  745. let pic_obj = elem.children[0];
  746. let url = pic_obj.src;
  747. pic_urls.push(url);
  748. }
  749. let content = pic_urls.join("\n");
  750. // 启动下载
  751. createAndDownloadFile("urls.csv", content);
  752. }
  753.  
  754. /**
  755. * 存储文字型表格,适用性:百度文库
  756. */
  757. function saveExcelData() {
  758. // 1. 拿到表格
  759. let table_pic = document.getElementsByClassName("reader-pic-item")[0];
  760. let url = table_pic.style.getPropertyValue("background-image");
  761. // 获取图片地址
  762. let pure_url = url.slice(5, -2);
  763.  
  764. // 2. 拿到表格内文字信息
  765. let text_elems = document.getElementsByClassName("reader-word-layer");
  766. let text_list = [];
  767. for (let elem of text_elems) {
  768. text_list.push(elem.textContent);
  769. }
  770. let _text = text_list.join("\n");
  771. // 替换奇怪的空格
  772. let text = _text.replace(/ /g, " ");
  773.  
  774. // 3. 合并至一个字符串,然后导出
  775. let head = "表格图形链接如下(复制到浏览器中打开):";
  776. let content = head + "\n\n" + pure_url + "\n\n" + text;
  777. createAndDownloadFile("图片地址和表格内容.txt", content);
  778. }
  779.  
  780. /**
  781. * 对于文字和图形混合型的data只能存储其中的纯文字\
  782. * 适用性:百度文库
  783. */
  784. function saveDocAndPicData() {
  785. // 获取文本
  786. let text_elements = document.getElementsByClassName("reader-word-layer");
  787. let texts = [];
  788. for (let elem of text_elements) {
  789. texts.push(elem.textContent);
  790. }
  791. let origin_content = texts.join("");
  792. // 美化后导出文本
  793. let content = formatText2(origin_content);
  794. createAndDownloadFile("纯文本文档.txt", content);
  795. }
  796.  
  797. /**
  798. * 存储纯文本到本地,适用性:百度文库
  799. */
  800. function saveTxtData() {
  801. let text_elements = document.getElementsByClassName("p-txt");
  802. let texts = [];
  803. for (let elem of text_elements) {
  804. texts.push(elem.textContent);
  805. }
  806. let content = texts.join("");
  807. createAndDownloadFile("纯文本文档.txt", content);
  808. }
  809.  
  810. /**
  811. * 按文档类型,用对应方法储存数据到本地,适用性:百度文库
  812. * @returns 特殊情况下返回空值,表示安全退出
  813. */
  814. function saveData() {
  815. let type = detectType();
  816. if (type === "doc-only-pic" ||
  817. type === "pdf-pic-title" ||
  818. type === "pdf-only-pic" ||
  819. type === "excel-only-pic") {
  820. // 对于纯图形文档,都用【图片下载合并器】来处理
  821. savePDFData();
  822. } else if (type === "doc-only-word" ||
  823. type === "doc-pic-word" ||
  824. type === "pdf-only-word" ||
  825. type === "pdf-pic-word") {
  826. // 对于包含大量文字、且非表格的文档,直接提出纯文本
  827. saveDocData();
  828. } else if (type === "ppt") {
  829. // ppt按类似于纯图文档的方法处理
  830. savePPTData();
  831. } else if (type === "excel-only-word") {
  832. // excel仅保存其中的纯文字
  833. saveExcelData();
  834. } else if (type === "txt") {
  835. // txt直接保存
  836. saveTxtData();
  837. } else if (type === "safe_quit") {
  838. // 安全退出
  839. return;
  840. } else {
  841. let info = [];
  842. for (let key in type) {
  843. info.push(key + " : " + type[key]);
  844. }
  845. alert("未知处理类型,请反馈或联系作者:\nallenlv2690@gmail.com\n" + info.join("\n"));
  846. }
  847. }
  848.  
  849. /**
  850. * 下载全部图片链接,适用性:爱问共享资料、得力文库
  851. * @param {string} selector css选择器
  852. */
  853. function savePicUrls(selector) {
  854. let pages = document.querySelectorAll(selector);
  855. let pic_urls = [];
  856.  
  857. for (let elem of pages) {
  858. let pic_obj = elem.children[0];
  859. let url = pic_obj.src;
  860. pic_urls.push(url);
  861. }
  862. let content = pic_urls.join("\n");
  863. // 启动下载
  864. createAndDownloadFile("urls.csv", content);
  865. }
  866.  
  867. /**
  868. * 存储所有canvas图形为png到一个压缩包
  869. * @param {Array} node_list canvas元素列表
  870. * @param {String} title 文档标题
  871. */
  872. function savePicsToZip(node_list, title) {
  873. // canvas元素转为png图像
  874. // 所有png合并为一个zip压缩包
  875. let zip = new JSZip();
  876. let n = node_list.length;
  877.  
  878. for (let i = 0; i < n; i++) {
  879. let canvas = node_list[i];
  880. let data_base64 = canvas.toDataURL();
  881. let blob = atob(data_base64.split(",")[1]);
  882. zip.file(`page-${i+1}.png`, blob, { binary: true });
  883. }
  884.  
  885. // 导出zip
  886. // promise.then(onCompleted, onRejected);
  887. zip.generateAsync({ type: "blob" }).then(function(content) {
  888. // see filesaver.js
  889. console.log(content);
  890. saveAs(content, `${title}.zip`);
  891. });
  892. }
  893.  
  894. /**
  895. * 将canvas转为jpeg,然后导出pdf
  896. * @param {Array} node_list canvas元素列表
  897. * @param {String} title 文档标题
  898. */
  899. function savePicsToPDF(node_list, title) {
  900. let first_canvas = node_list[0];
  901. // 如果style的长宽不存在,则直接用canvas的元素长宽
  902. let width_str, height_str;
  903. if (!first_canvas.style.width) {
  904. [width_str, height_str] = [first_canvas.style.width.replace(/(px)|(rem)|(em)/, ""), first_canvas.style.height.replace(/(px)|(rem)|(em)/, "")];
  905. } else {
  906. [width_str, height_str] = [first_canvas.width, first_canvas.height];
  907. }
  908. // jsPDF的第三个参数为format,当自定义时,参数为数字数组。
  909. let [width, height] = [parseFloat(width_str), parseFloat(height_str)];
  910. // 如果文档第一页的宽比长更大,则landscape,否则portrait
  911. let orientation = width > height ? 'l' : 'p';
  912. let pdf = new jsPDF(orientation, 'px', [height, width]);
  913.  
  914. // 保存每一页文档到每一页pdf
  915. node_list.forEach(function(canvas, index) {
  916. pdf.addImage(canvas.toDataURL("image/jpeg", 1.0), 'JPEG', 0, 0, width, height);
  917. // 如果当前不是文档最后一页,则需要添加下一个空白页
  918. if (index !== node_list.length - 1) {
  919. pdf.addPage();
  920. }
  921. });
  922.  
  923. // 导出文件
  924. pdf.save(`${title}.pdf`);
  925. }
  926.  
  927. /**
  928. * 创建两个初始按钮:展开文档、存储文档
  929. * @returns
  930. */
  931. function create2btns() {
  932. // 创建脚本启动按钮1、2
  933. let btn_1 = document.createElement("button");
  934. let btn_2 = document.createElement("button");
  935.  
  936. // 设定按钮1、2样式
  937. btn_1.setAttribute("class", "init-btn");
  938. btn_1.style.height = "25px";
  939. btn_1.style.width = "50%";
  940. btn_1.style.marginLeft = "25%";
  941. btn_1.style.border = "none";
  942. btn_1.style.backgroundColor = "blue";
  943. btn_1.style.color = "white";
  944. btn_1.style.fontWeight = "bold";
  945. btn_1.textContent = "展开文档";
  946. btn_1.style.zIndex = "99999";
  947.  
  948. btn_2.setAttribute("class", "save-doc-btn");
  949. btn_2.style.height = "25px";
  950. btn_2.style.width = "50%";
  951. btn_2.style.marginLeft = "25%";
  952. btn_2.style.backgroundColor = "green";
  953. btn_2.style.border = "none";
  954. btn_2.style.display = "none";
  955. btn_2.style.color = "white";
  956. btn_2.style.fontWeight = "bold";
  957. btn_2.style.zIndex = "99999";
  958.  
  959. // 添加按钮元素到页面
  960. let section = document.createElement("section");
  961. section.setAttribute("class", "btns_section");
  962. section.appendChild(btn_1);
  963. section.appendChild(btn_2);
  964. document.body.appendChild(section);
  965. // 返回元素引用
  966. return [btn_1, btn_2]
  967. }
  968.  
  969. /*
  970. * 主函数部分
  971. */
  972.  
  973. /**
  974. * 百度文库文档下载策略
  975. */
  976. function baiduWenku() {
  977. // 创建脚本启动按钮1、2
  978. let [btn_1, btn_2] = create2btns();
  979. btn_2.textContent = "导出纯文本";
  980.  
  981. // 绑定主函数
  982. btn_1.onclick = readAll;
  983. btn_2.onclick = saveData;
  984.  
  985. // 解除打印限制
  986. allowPrint();
  987. }
  988.  
  989. /**
  990. * 豆丁文档下载策略
  991. */
  992. function docin() {
  993. // 创建脚本启动按钮
  994. let btn_2 = create2btns()[1];
  995. btn_2.textContent = "导出全部图片";
  996. btn_2.style.removeProperty("display");
  997. // 隐藏底部工具栏
  998. document.querySelector("#j_select").click(); // 选择指针
  999. let tool_bar = document.querySelector(".reader_tools_bar_wrap.tools_bar_small.clear");
  1000. tool_bar.style.display = "none";
  1001. // 调整按钮显示
  1002. transformButtons(true, false, "", false);
  1003.  
  1004. // 绑定主函数
  1005. let getCanvasList = function() {
  1006. // 获取全部canvas元素,用于传递canvas元素列表给 btn_2 和 btn_3
  1007. let parent_node_list = document.querySelectorAll(".hkswf-content");
  1008. let node_list = [];
  1009. for (let node of parent_node_list) {
  1010. node_list.push(node.firstElementChild);
  1011. }
  1012. return node_list;
  1013. };
  1014.  
  1015. let prepare = function() {
  1016. // 获取canvas元素列表
  1017. let node_list = getCanvasList();
  1018. // 获取文档标题
  1019. let title = document.querySelector("h1 [title=doc]").nextElementSibling.textContent;
  1020. return [node_list, title];
  1021. }
  1022.  
  1023. // btn_2: 导出zip
  1024. btn_2.onclick = function() {
  1025. savePicsToZip(...prepare());
  1026. };
  1027. // btn_3: 导出pdf
  1028. createPrintPageBtn(function() {
  1029. savePicsToPDF(...prepare());
  1030. });
  1031. }
  1032.  
  1033. /**
  1034. * 爱问共享资料文档下载策略
  1035. */
  1036. function ishare() {
  1037. // 创建脚本启动按钮1、2
  1038. let [btn_1, btn_2] = create2btns();
  1039. btn_2.textContent = "导出全部图片链接";
  1040.  
  1041. // 绑定主函数
  1042. btn_1.onclick = readAlliShare;
  1043. btn_2.onclick = function() { savePicUrls(".data-detail.other-format-style"); };
  1044.  
  1045. // 移除底部下载条
  1046. let detailfixed = document.getElementsByClassName("detail-fixed")[0];
  1047. detailfixed.remove();
  1048. }
  1049.  
  1050. /**
  1051. * 得力文库文档下载策略
  1052. */
  1053. function deliwenku() {
  1054. // 创建脚本启动按钮1、2
  1055. let [btn_1, btn_2] = create2btns();
  1056. btn_2.textContent = "导出全部图片链接";
  1057.  
  1058. // 绑定主函数
  1059. btn_1.onclick = readAllDeliwenku;
  1060. btn_2.onclick = function() { savePicUrls('.inner_page div'); };
  1061.  
  1062. // 尝试关闭页面弹窗
  1063. try { document.querySelector("div[title=点击关闭]").click(); } catch (e) { console.log(0); }
  1064. // 解除打印限制
  1065. allowPrint();
  1066. }
  1067.  
  1068. /**
  1069. * 道客巴巴文档下载策略
  1070. */
  1071. function doc88() {
  1072. // 创建脚本启动按钮1、2
  1073. let [btn_1, btn_2] = create2btns();
  1074. btn_2.textContent = "导出全部图片";
  1075.  
  1076. // 绑定主函数
  1077. let prepare = function() {
  1078. // 获取canvas元素列表
  1079. let node_list = document.querySelectorAll(".inner_page");
  1080. console.log(node_list);
  1081. // 获取文档标题
  1082. let title = document.querySelector(".doctopic h1").title;
  1083. return [node_list, title];
  1084. }
  1085.  
  1086. // btn_1: 展开文档
  1087. btn_1.onclick = readAllDoc88;
  1088. // btn_2: 导出zip
  1089. btn_2.onclick = function() {
  1090. savePicsToZip(...prepare());
  1091. };
  1092. // btn_3: 导出pdf
  1093. let btn_3 = createPrintPageBtn(function() {
  1094. savePicsToPDF(...prepare());
  1095. });
  1096. btn_3.style.display = "none";
  1097. }
  1098.  
  1099. /**
  1100. * wk文档下载策略
  1101. */
  1102. function baiduWenkuMobile() {
  1103. // 创建初始按钮
  1104. clearPageWK();
  1105. let [btn_1, btn_2] = create2btns();
  1106. btn_2.textContent = "打印页面到PDF";
  1107. // 绑定主函数
  1108. btn_1.onclick = readAllWK;
  1109. btn_2.onclick = printPageWK;
  1110. }
  1111.  
  1112. /**
  1113. * 主函数:识别网站,执行对应文档下载策略
  1114. */
  1115. function main() {
  1116. let host = window.location.host;
  1117. if (host === "wenku.baidu.com") {
  1118. baiduWenku();
  1119. } else if (host === "wk.baidu.com") {
  1120. baiduWenkuMobile();
  1121. } else if (host.includes("docin.com")) {
  1122. docin();
  1123. } else if (host === "ishare.iask.sina.com.cn") {
  1124. ishare();
  1125. } else if (host === "www.deliwenku.com") {
  1126. deliwenku();
  1127. } else if (host === "www.doc88.com") {
  1128. doc88();
  1129. } else {
  1130. console.log("匹配到了无效网页");
  1131. }
  1132. }
  1133.  
  1134. window.onload = main;