Wenku Doc Downloader

下载“百度文库”文档,导出txt或pdf。支持①豆丁网②爱问共享资料(新浪文档)③得力文库④道客巴巴,文档导出pdf。在文档页面最最底部有蓝/绿色长方形按钮,说明脚本生效了。2021/12/17百度文档更新了技术,【导出纯文本】功能目前无法使用。

当前为 2021-12-17 提交的版本,查看 最新版本

  1. // ==UserScript==
  2. // @name Wenku Doc Downloader
  3. // @namespace http://tampermonkey.net/
  4. // @version 1.3.2
  5. // @description 下载“百度文库”文档,导出txt或pdf。支持①豆丁网②爱问共享资料(新浪文档)③得力文库④道客巴巴,文档导出pdf。在文档页面最最底部有蓝/绿色长方形按钮,说明脚本生效了。2021/12/17百度文档更新了技术,【导出纯文本】功能目前无法使用。
  6. // @author allenlv2690@gmail.com
  7. // @match https://wenku.baidu.com/view/*
  8. // @match https://www.docin.com/p-*
  9. // @match https://ishare.iask.sina.com.cn/f/*
  10. // @match https://www.deliwenku.com/p-*
  11. // @match *://www.doc88.com/p-*
  12. // @icon https://wenku.baidu.com/favicon.ico
  13. // @grant none
  14. // @license GPL-3.0-only
  15. // @create 2021-11-22
  16. // @note 修复了豆丁网http不识别的问题、百度文档图文混合doc不识别的问题
  17. // ==/UserScript==
  18.  
  19. /*
  20. * 附属功能函数部分
  21. */
  22.  
  23. /**
  24. * 创建并下载文件
  25. * @param {string} fileName
  26. * @param {string} content
  27. */
  28. function createAndDownloadFile(fileName, content) {
  29. var aTag = document.createElement('a');
  30. var blob = new Blob([content]);
  31. aTag.download = fileName;
  32. aTag.href = URL.createObjectURL(blob);
  33. aTag.click();
  34. URL.revokeObjectURL(blob);
  35. }
  36.  
  37. /**
  38. * 允许打印页面
  39. */
  40. function allowPrint() {
  41. var style = document.createElement("style");
  42. style.innerHTML = `@media print {
  43. body{
  44. display:block;
  45. }
  46. }`;
  47. document.getElementsByTagName("head")[0].appendChild(style);
  48. }
  49.  
  50. /**
  51. * 隐藏按钮,打印页面,显示按钮
  52. */
  53. function hiddenThenPrint() {
  54. // 隐藏按钮,然后打印页面
  55. var section = document.getElementsByClassName("btns_section")[0];
  56. section.style.display = "none";
  57. window.print();
  58. // 打印结束,显示按钮
  59. section.style.removeProperty("display");
  60. }
  61.  
  62. /**
  63. * 增强按钮1(蓝色按钮:展开文档)的点击效果
  64. */
  65. function enhanceBtnClickReaction() {
  66. var btn_1 = document.getElementsByClassName("init-btn")[0];
  67. btn_1.style.color = "grey";
  68. btn_1.style.fontWeight = "normal";
  69. var changeColor = function() {
  70. btn_1.style.color = "white";
  71. btn_1.style.fontWeight = "bold";
  72. };
  73. setTimeout(changeColor, 500);
  74. }
  75.  
  76. /**
  77. * 用input框跳转到对应页码
  78. * @param {Element} cur_page 当前页码
  79. * @param {string} aim_page 目标页码
  80. * @param {string} event_type 键盘事件类型:"keyup" | "keypress" | "keydown"
  81. */
  82. function jump2pageNo(cur_page, aim_page, event_type) {
  83. // 设置跳转页码为目标页码
  84. cur_page.value = aim_page;
  85. // 模拟回车事件来跳转
  86. var keyboard_event_enter = new KeyboardEvent(event_type, {
  87. bubbles: true,
  88. cancelable: true,
  89. keyCode: 13
  90. });
  91. cur_page.dispatchEvent(keyboard_event_enter);
  92. }
  93.  
  94. /**
  95. * 用于纯文本文档的文本美化,适用性:百度文库
  96. * @param {string} text
  97. * @returns 美化后的文本
  98. */
  99. function formatText(text) {
  100. var reg_exp_1 = new RegExp(" ?[(]?=[\u4e00-\u9fa5] ?[)]");
  101. var reg_exp_2 = new RegExp("(?<=TEMP[\u4e00-\u9fa5]) ?");
  102. // var reg_exp_3 = new RegExp("(?<=[\u4e00-\u9fa5]) ?(?=[\u4e00-\u9fa5])");
  103.  
  104. var text_1 = text.replace(reg_exp_1, "TEMP");
  105. var text_2 = text_1.replace(reg_exp_2, "");
  106. var text_3 = text_2.replace("TEMP", "");
  107. var text_final = text_3.replace(/ /g, " ");
  108. return text_final;
  109. }
  110.  
  111. /**
  112. * 用于图形文字混合型文档的文本美化,适用性:百度文库
  113. * @param {string} text
  114. * @returns 美化后的文本
  115. */
  116. function formatText2(text) {
  117. var reg_exp = new RegExp("[  ]{2,}");
  118. var content_1 = text.replace(reg_exp, "\n");
  119.  
  120. var content_2 = content_1.replace(/[  ]\n/g, "\n");
  121.  
  122. var reg_exp_2 = new RegExp("\n[   ]*\n*\n");
  123. var content_3 = content_2.replace(reg_exp_2, "\n");
  124.  
  125. var reg_exp_3 = new RegExp(" *\n * ");
  126. var content_4 = content_3.replace(reg_exp_3, "\n");
  127.  
  128. var content_5 = content_4.replace(/[  ]/g, " ");
  129. var final_content = content_5.replace(/[ \n]精选文档[ \n]/g).replace(/\n{2,}/g, "\n");
  130.  
  131. return final_content;
  132. }
  133.  
  134. /**
  135. * 判断文档的详细类型,适用性:百度文库
  136. * @returns 源文档类型-实际内容类型,如: doc-pic-word
  137. */
  138. function detectType() {
  139. // 获取文档类型名称
  140. try {
  141. var doc_title_wrap = document.getElementsByClassName("doc-title-wrap")[0];
  142. var file_type = doc_title_wrap.children[0].className;
  143. } catch (e) {
  144. alert("请刷新页面以激活该按钮。\n先点击【导出pdf】橙色按钮后该按钮将无法使用。");
  145. return "safe_quit";
  146. }
  147. var pdf, doc, ppt, excel, type;
  148. // 判断文档类型
  149. if (file_type.search("word") !== -1) {
  150. type = "word";
  151. } else if (file_type.search("ppt") !== -1) {
  152. type = "ppt";
  153. } else if (file_type.search("excel") !== -1) {
  154. type = "excel";
  155. } else if (file_type.search("pdf") !== -1) {
  156. type = "pdf";
  157. } else if (file_type.search("txt" !== -1)) {
  158. type = "txt";
  159. } else {
  160. type = file_type;
  161. }
  162. // 分别尝试获取相应元素列表,若列表长度为0则不存在相应元素,否则存在
  163. var pic_nums = document.getElementsByClassName("reader-pic-item").length;
  164. var word_nums = document.getElementsByClassName("reader-word-layer").length;
  165. var ppt_img_nums = document.getElementsByClassName("ppt-image-wrap").length;
  166.  
  167. // 判断文档类型、文字和图片的数量状况
  168. if (type === "word" && !word_nums && pic_nums) {
  169. // doc: 纯图片
  170. return "doc-only-pic";
  171. } else if (type === "word" && word_nums > 2 && pic_nums <= 1) {
  172. // doc: 纯文字
  173. return "doc-only-word";
  174. } else if (type === "word" && pic_nums > 1 && word_nums > 2) {
  175. // doc: 图形、文字混合
  176. return "doc-pic-word";
  177. } else if (type === "pdf" && pic_nums > 2 && word_nums === 1) {
  178. // pdf: 带有一行文字标题,之后都是图形
  179. return "pdf-pic-title";
  180. } else if (type === "pdf" && !word_nums && pic_nums) {
  181. // pdf: 纯图形
  182. return "pdf-only-pic";
  183. } else if (type === "pdf" && !pic_nums && word_nums > 1) {
  184. // pdf: 纯文字
  185. return "pdf-only-word";
  186. } else if (type === "pdf" && word_nums > 2 && pic_nums > 1) {
  187. // pdf: 图形、文字混合
  188. return "pdf-pic-word";
  189. } else if ((type === "ppt" && ppt_img_nums > 2) || (type === "pdf" && !word_nums && !pic_nums && ppt_img_nums)) {
  190. // ppt: 包含至少3页内容 / 纯ppt图形页面构成
  191. return "ppt";
  192. } else if (type === "excel" && pic_nums && word_nums > 2) {
  193. // excel: 包含可选中文字
  194. return "excel-only-word";
  195. } else if (type === "excel" && pic_nums && !word_nums) {
  196. // excel: 纯图形
  197. return "excel-only-pic";
  198. } else if (type === "txt") {
  199. // txt: 纯文字
  200. return "txt";
  201. } else {
  202. return {
  203. "源文档类型": type,
  204. "图形数量": pic_nums,
  205. "文字块数量": word_nums,
  206. "ppt纯图形页面数量": ppt_img_nums
  207. };
  208. }
  209. }
  210.  
  211. /**
  212. * 用try移除元素
  213. * @param {*} element
  214. */
  215. function tryToRemoveElement(element) {
  216. try {
  217. element.remove();
  218. } catch (e) {
  219. console.log();
  220. }
  221. }
  222.  
  223. /**
  224. * 用try移除 [元素列表1, 元素列表2, ...] 的元素
  225. * @param {*} elem_list_box
  226. */
  227. function tryToRemoveSameElem(elem_list_box) {
  228. for (var elem_list of elem_list_box) {
  229. if (!elem_list) {
  230. continue;
  231. }
  232. for (var elem of elem_list) {
  233. try {
  234. elem.remove();
  235. } catch (e) {
  236. console.log();
  237. }
  238. }
  239. }
  240. }
  241.  
  242. /**
  243. * 使文档在页面上居中
  244. * @param {string} class_name 文档元素的class
  245. * @param {string} default_offset 文档部分向右偏移的百分比(0-59)
  246. * @returns 偏移值是否合法
  247. */
  248. function centerDoc(class_name, default_offset) {
  249. var doc_main = document.getElementsByClassName(class_name)[0];
  250. var offset = window.prompt("请输入偏移百分位:", default_offset);
  251. // 如果输入的数字不在 0-59 内,提醒用户重新设置
  252. if (offset.length === 1 && offset.search(/[0-9]/) !== -1) {
  253. doc_main.style.marginLeft = offset + "%";
  254. return true;
  255. } else if (offset.length === 2 && offset.search(/[1-5][0-9]/) !== -1) {
  256. doc_main.style.marginLeft = offset + "%";
  257. return true
  258. } else {
  259. alert("请输入一个正整数,范围在0至59之间,用来使文档居中\n(不同文档偏移量不同,所以需要手动调整)");
  260. return false;
  261. }
  262. }
  263.  
  264. /**
  265. * 提示文档已经展开,改变按钮形态:隐去按钮1,显示按钮2
  266. */
  267. function transformButtons() {
  268. var hint = "文档已经完全展开,可以导出";
  269. alert(hint);
  270. // 准备调整按钮,先获取按钮
  271. var btn_1 = document.getElementsByClassName("init-btn")[0];
  272. var btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  273. // 调整按钮显示状况
  274. btn_1.style.display = "none";
  275. btn_2.style.removeProperty("display");
  276. }
  277.  
  278. /*
  279. * 主要功能函数部分
  280. */
  281.  
  282. /**
  283. * 清理并打印道客巴巴的文档页
  284. */
  285. function printPageDoc88() {
  286. // 移除页面上的无关元素
  287. var selector = "#header, #toolbar, #box1, #boxright, .toplayer-shop, .commonbox1, #commentDiv, .activelist, #footer, .page_ad, #readEndDiv";
  288. var elem_list = document.querySelectorAll(selector);
  289. for (var elem of elem_list) {
  290. tryToRemoveElement(elem);
  291. }
  292. // 调整页间距为0
  293. var pages = document.querySelectorAll(".outer_page");
  294. for (var p of pages) {
  295. p.style.marginBottom = "0";
  296. }
  297. // 打印页面
  298. alert("建议使用:\n偏移量:0\n缩放: 113\n请上下滚动页面,确保每页内容都加载完成以避免空白页\n如果预览时有空白页或文末有绿色按钮,请取消打印重试");
  299. if (!centerDoc("boxleft", "0")) {
  300. return; // 如果输入非法,退出函数调用
  301. }
  302. hiddenThenPrint();
  303. }
  304.  
  305. /**
  306. * 清理并打印得力文库的文档页
  307. */
  308. function printPageDeliwenku() {
  309. // 移除页面上的无关元素
  310. var selector = ".hr-wrap, #readshop, .nav_uis, .bookdesc, #boxright, .QQ_S1, .QQ_S, #outer_page_more, .works-manage-box.shenshu, .works-intro, .mt10.related-pic-box, .mt10.works-comment, .foot_nav, .siteInner";
  311. var elem_list = document.querySelectorAll(selector);
  312. for (var elem of elem_list) {
  313. tryToRemoveElement(elem);
  314. }
  315. // 修改页间距
  316. var outer_pages = document.getElementsByClassName("outer_page");
  317. for (var page of outer_pages) {
  318. page.style.marginBottom = "20px";
  319. }
  320. // 使文档居中
  321. alert("建议使用:\n偏移量: 3\n缩放: 112\n请上下滚动页面,确保每页内容都加载完成以避免空白页\n如果预览时有空白页或文末有绿色按钮,请取消打印重试");
  322. if (!centerDoc("boxleft", "3")) {
  323. return; // 如果输入非法,终止函数调用
  324. }
  325. // 打印文档
  326. hiddenThenPrint();
  327. }
  328.  
  329. /**
  330. * 清理并打印豆丁网的文档页
  331. */
  332. function printPageDocin() {
  333. // # 清理并打印豆丁网的文档页
  334. // ## 选择指针光标
  335. try { document.getElementById("j_select").click(); } catch (e) { console.log(); }
  336. // ## 移除页面上无关的元素
  337. // ### 移除单个元素
  338. var doc_head = document.getElementsByClassName("doc_header_mod")[0];
  339. var head_wrapper = document.getElementsByClassName("head_wrapper")[0];
  340. var aside = document.getElementsByClassName("aside")[0];
  341. var slide = document.getElementById("docinShareSlider");
  342. var no_more = document.getElementsByClassName("no_more_mod")[0];
  343. var like_too = document.getElementById("likeToo");
  344. var tools_bottom_bar = document.getElementsByClassName("tools_bottom_bar")[0];
  345. var page_crubms = document.getElementsByClassName("page_crubms")[0];
  346. var bottom_ad = document.getElementById("jControlDivRecomm");
  347. var back_to_top = document.getElementsByClassName("backToTop")[0];
  348. var transparent_mask = document.querySelector(".reader_tools_bar_wrap.tools_bar_small.clear");
  349. // ### 执行移除
  350. var elem_list = [doc_head,
  351. head_wrapper,
  352. aside,
  353. slide,
  354. no_more,
  355. like_too,
  356. tools_bottom_bar,
  357. page_crubms,
  358. bottom_ad,
  359. back_to_top,
  360. transparent_mask
  361. ];
  362. for (var elem of elem_list) {
  363. tryToRemoveElement(elem);
  364. }
  365. // ### 移除全部同类元素
  366. var ad_box = document.getElementsByClassName("adBox");
  367. tryToRemoveSameElem([ad_box]);
  368. // 使文档居中
  369. var doc = document.getElementsByClassName("main")[0];
  370. doc.style.marginLeft = "6%";
  371. // 隐藏按钮,然后打印页面
  372. alert("如果预览时有空白页,请取消打印\n请上下滚动页面,确保每页内容都加载完成\n如果预览时文末有广告或按钮,请取消打印,再点一次按钮\n最多不超过2次,应该就没有了");
  373. hiddenThenPrint();
  374. }
  375.  
  376. /**
  377. * 清理并打印爱问共享资料的文档页
  378. * @returns 如果输入偏移量非法,返回空值以终止函数
  379. */
  380. function printPageiShare() {
  381. // # 清理并打印爱问共享资料的文档页
  382. // ## 移除页面上无关的元素
  383. // ### 移除单个元素
  384. var topbanner = document.getElementsByClassName("detail-topbanner")[0];
  385. var header = document.getElementsByClassName("new-detail-header")[0];
  386. var fixright = document.getElementById("fix-right");
  387. var redpacket = document.getElementsByClassName("loginRedPacket-dialog")[0];
  388. var fixedrightfull = document.getElementsByClassName("fixed-right-full")[0];
  389. var footer = document.getElementsByClassName("website-footer")[0];
  390. var guess = document.getElementsByClassName("guess-you-like-warpper")[0];
  391. var detailtopbox = document.getElementsByClassName("detail-top-box")[0];
  392. var fullscreen = document.getElementsByClassName("reader-fullScreen")[0];
  393. var endhint = document.getElementsByClassName("endof-trial-reading")[0];
  394. var crumb_arrow;
  395. try { crumb_arrow = document.getElementsByClassName("crumb-arrow")[0].parentElement; } catch (e) { console.log(); }
  396. var copyright = document.getElementsByClassName("copyright-container")[0];
  397. var state_btn = document.getElementsByClassName("state-bottom")[0];
  398. var comments = document.getElementsByClassName("user-comments-wrapper")[0];
  399. // ### 执行移除
  400. var elem_list = [
  401. topbanner,
  402. header,
  403. fixright,
  404. redpacket,
  405. fixedrightfull,
  406. footer,
  407. guess,
  408. detailtopbox,
  409. fullscreen,
  410. endhint,
  411. crumb_arrow,
  412. copyright,
  413. state_btn,
  414. comments
  415. ];
  416. for (var elem of elem_list) {
  417. tryToRemoveElement(elem);
  418. }
  419. // ### 移除全部同类元素
  420. var elem_list_2 = document.querySelectorAll(".tui-detail, .adv-container")
  421. for (var elem_2 of elem_list_2) {
  422. tryToRemoveElement(elem_2);
  423. }
  424. // 使文档居中
  425. alert("建议使用:\n偏移量: 18\n缩放: 默认\n如果预览中有广告,就取消打印\n再点一次按钮,预览中应该就没有广告了");
  426. if (!centerDoc("doc-main", "18")) {
  427. return; // 如果输入非法,终止函数调用
  428. }
  429. // 隐藏按钮,然后打印页面
  430. hiddenThenPrint();
  431. }
  432.  
  433. /**
  434. * 清理并打百度文库的文档页
  435. * @returns 如果输入偏移量非法,返回空值以终止函数
  436. */
  437. function printPageBaidu() {
  438. // # 清理并打百度文库的文档页
  439. // ## 移除无关页面元素
  440. // ### 要移除的单个元素
  441. var header_wrapper = document.getElementsByClassName("header-wrapper")[0];
  442. var right_wrapper = document.getElementById("right-wrapper-id");
  443. var reader_topbar = document.getElementsByClassName("reader-topbar")[0];
  444. var end_fold_page = document.getElementsByClassName("try-end-fold-page")[0];
  445. var catalog = document.querySelector(".catalog");
  446. var bottom = document.querySelector(".journal");
  447.  
  448. var elem_list = [
  449. header_wrapper,
  450. right_wrapper,
  451. reader_topbar,
  452. end_fold_page,
  453. catalog,
  454. bottom
  455. ]
  456. for (var elem of elem_list) {
  457. tryToRemoveElement(elem);
  458. }
  459. // ### 移除全部同类元素
  460. var lazy_load_list = document.getElementsByClassName("lazy-load");
  461. var no_full_screen_list = document.getElementsByClassName("no-full-screen");
  462. var ads = document.getElementsByClassName("hx-warp");
  463.  
  464. tryToRemoveSameElem([lazy_load_list, ads, no_full_screen_list]);
  465.  
  466. // ## 文档类型测试
  467. // ### 常规文档测试
  468. var normal = Boolean(document.getElementsByClassName("left-wrapper")[0]);
  469. // ### 文献/期刊文档测试
  470. var journal = Boolean(document.getElementById("#journal-view"))
  471. var class_name;
  472. if (normal) {
  473. class_name = "left-wrapper";
  474. } else if (journal) {
  475. class_name = "right-wrapper";
  476. } else {
  477. alert("文档部分元素class不为left-wrapper,且id不为journal-view\n是未知文档类型,无法处理,请联系作者\nQQ: 2690874578\nEmail: allenlv2690@gmail.com");
  478. }
  479.  
  480. // 使文档居中
  481. alert("建议使用:\n偏移量: 0\n缩放: 118%\n请上下滚动页面,确保每页内容都加载完成以避免空白页\n如果预览时有空白页或文末有按钮,请取消打印重试");
  482. if (!centerDoc(class_name, "0")) {
  483. return; // 如果输入非法,退出函数调用
  484. }
  485. // 隐藏按钮,然后打印页面
  486. hiddenThenPrint();
  487. }
  488.  
  489. /**
  490. * 创建“打印页面到PDF”按钮
  491. */
  492. function createPrintPageBtn(printPageWebsite) {
  493. var btn_3 = document.createElement("button");
  494. // 样式设定
  495. btn_3.setAttribute("class", "save-html-btn");
  496. btn_3.style.height = "25px";
  497. btn_3.style.width = "15%";
  498. btn_3.style.marginLeft = "0.2%";
  499. btn_3.style.backgroundColor = "orange";
  500. btn_3.style.border = "none";
  501. btn_3.textContent = "导出pdf";
  502. btn_3.style.fontWeight = "bold";
  503. btn_3.style.borderRadius = "10%";
  504. // 绑定事件,添加到页面上
  505. btn_3.onclick = printPageWebsite;
  506. var section = document.getElementsByClassName("btns_section")[0];
  507. section.appendChild(btn_3);
  508. }
  509.  
  510. /**
  511. * 点击“继续阅读”,适用性:得力文库
  512. */
  513. function readAllDeliwenku() {
  514. // 点击“同意并开始预览全文”
  515. var start_btn = document.getElementsByClassName("pre_button")[0];
  516. var display = start_btn.parentElement.parentElement.style.display;
  517. // 如果该按钮显示着,则点击,然后滚动至页面底部,最后终止函数
  518. if (!display) {
  519. start_btn.children[0].click();
  520. setTimeout("scroll(0, document.body.scrollHeight)", 200);
  521. return;
  522. }
  523. // 增强按钮点击效果
  524. enhanceBtnClickReaction();
  525.  
  526. var read_all_btn = document.getElementsByClassName("fc2e")[0];
  527. var display2 = read_all_btn.parentElement.parentElement.style.display
  528. // 继续阅读
  529. if (display2 !== "none") {
  530. // 获取input元素
  531. var cur_page = document.querySelector("#pageNumInput");
  532. var page_old = cur_page.value;
  533. var page_max = cur_page.parentElement.nextElementSibling.textContent.replace(" / ", "");
  534. // 跳转到尾页
  535. jump2pageNo(cur_page, page_max, "keydown");
  536. // 跳转回来
  537. jump2pageNo(cur_page, page_old, "keydown");
  538.  
  539. // 切换按钮准备导出
  540. } else {
  541. var hint = "文档已经完全展开,可以导出";
  542. alert(hint);
  543. // 准备调整按钮,先获取按钮
  544. var btn_1 = document.getElementsByClassName("init-btn")[0];
  545. var btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  546. // 调整按钮显示状况: 隐去蓝色按钮,显出绿色按钮和橙色按钮
  547. btn_1.style.display = "none";
  548. btn_2.style.width = "34.8%";
  549. btn_2.style.removeProperty("display");
  550. // btn_3 橙色按钮
  551. createPrintPageBtn(printPageDeliwenku);
  552. btn_2.textContent += "(推荐)";
  553. }
  554. }
  555.  
  556. /**
  557. * 点击“展开继续阅读”,适用性:爱尚共享资料
  558. */
  559. function readAlliShare() {
  560. // 获取“继续阅读”元素
  561. var red_btn = document.getElementsByClassName("red-color")[0];
  562. var red_text = red_btn.textContent;
  563. // 增强按钮点击效果
  564. enhanceBtnClickReaction();
  565. // 如果可以展开,则展开
  566. if (red_text.search("点击可继续阅读") !== -1) {
  567. red_btn.click();
  568. }
  569. // 否则启动按钮2,准备清理页面然后打印为PDF
  570. else {
  571. transformButtons();
  572. }
  573. }
  574.  
  575. /**
  576. * 点击“继续阅读”,适用性:百度文库
  577. * @returns 特殊文档类型不予下载,返回空值
  578. */
  579. function readAll() {
  580. // 获取“继续阅读”按钮
  581. var read_all_btn = document.getElementsByClassName("read-all")[0];
  582. // 增强按钮点击效果
  583. enhanceBtnClickReaction();
  584. // 如果存在“继续阅读”的按钮
  585. if (read_all_btn) {
  586. // 跳转到文末(等同于展开全文)
  587. var cur_page = document.getElementsByClassName("cur-page")[0];
  588. // 取得最大页码
  589. var page_max = cur_page.parentElement.children[2];
  590. // 设置跳转页码为最大页码
  591. cur_page.value = page_max;
  592. // 跳转到尾页
  593. jump2pageNo(cur_page, page_max, "keyup");
  594.  
  595. // 否则认为已经展开了文档,判断文档类型,然后显示对应的按钮
  596. } else {
  597. var hint = "文档已经完全展开,可以导出";
  598. alert(hint);
  599. try {
  600. // 判断文档类型
  601. var type = detectType();
  602. } catch (e) {
  603. alert("未知/特殊文档类型,例如学术文献,暂不支持下载\n也可与作者反馈或联系:\nallenlv2690@gmail.com");
  604. return undefined;
  605. }
  606. // 准备调整按钮,先获取按钮
  607. var init_btn = document.getElementsByClassName("init-btn")[0];
  608. var save_doc_btn = document.getElementsByClassName("save-doc-btn")[0];
  609.  
  610. // 添加导出pdf功能的按钮
  611. save_doc_btn.style.width = "34.8%";
  612. createPrintPageBtn(printPageBaidu);
  613. // 纯文字类型文档推荐导出纯文本
  614. if (type === "doc-only-word" ||
  615. type === "pdf-only-word") {
  616. save_doc_btn.textContent += "(推荐)";
  617. }
  618. // 纯图类型文档推荐导出图片链接再拼合为PDF
  619. else if (type === "doc-only-pic" ||
  620. type === "pdf-pic-title" ||
  621. type === "ppt" ||
  622. type === "pdf-only-pic" ||
  623. type === "excel-only-pic") {
  624. save_doc_btn.textContent = "导出图片链接来合并为PDF(推荐)";
  625. }
  626. // 其他类型应该是图文混合型,推荐导出PDF
  627. else {
  628. var print_page_btn = document.getElementsByClassName("save-html-btn")[0];
  629. print_page_btn.textContent += "(推荐)";
  630. }
  631. // 调整按钮显示状况
  632. save_doc_btn.style.removeProperty("display");
  633. save_doc_btn.disabled = true;
  634. init_btn.style.display = "none";
  635. }
  636. }
  637.  
  638. function readAllDoc88() {
  639. // 获取“继续阅读”按钮
  640. var continue_btn = document.querySelector("#continueButton");
  641. // 增强按钮点击效果
  642. enhanceBtnClickReaction();
  643. // 如果存在“继续阅读”按钮
  644. if (continue_btn) {
  645. // 跳转到文末(等同于展开全文)
  646. var cur_page = document.querySelector("#pageNumInput");
  647. // 取得当前页码(用于返回到现在位置)
  648. var page_old = cur_page.value;
  649. // 取得最大页码
  650. var page_max = cur_page.parentElement.textContent.replace(" / ", "");
  651. // 跳转到尾页
  652. jump2pageNo(cur_page, page_max, "keypress");
  653. // 跳转回来
  654. jump2pageNo(cur_page, page_old, "keypress");
  655. }
  656. // 否则启动按钮2,准备清理页面然后打印为PDF
  657. else {
  658. transformButtons();
  659. }
  660. }
  661.  
  662. /**
  663. * 存储非PPT文档的png图形链接,适用性:百度文库
  664. */
  665. function savePDFData() {
  666. var pic_urls = document.getElementsByClassName("reader-pic-item");
  667. var text_list = [];
  668. // 去掉前缀
  669. var reg_exp_1 = new RegExp(": ?url[(]");
  670. // 去掉后缀
  671. var reg_exp_2 = new RegExp("[)]; ?background-position");
  672.  
  673. for (var i = 0; i < pic_urls.length; i++) {
  674. var whole_text = pic_urls[i].getAttribute("style");
  675. var de_pretext = whole_text.split(reg_exp_1)[1];
  676. var url = de_pretext.split(reg_exp_2)[0];
  677. text_list.push(url);
  678. }
  679.  
  680. text_list[0] = text_list[0].replace(/"/g, "");
  681. var content = text_list.join("\n");
  682. // 启动下载
  683. createAndDownloadFile("urls.csv", content);
  684. }
  685.  
  686. /**
  687. * 存储纯文本,适用性:百度文库
  688. */
  689. function saveDocData() {
  690. // 获取文本
  691. var text_elements = document.getElementsByClassName("reader-word-layer");
  692. var texts = [];
  693. for (var elem of text_elements) {
  694. texts.push(elem.textContent);
  695. }
  696. // 美化后导出文本
  697. var origin_content = texts.join("");
  698. var content = formatText(origin_content);
  699. createAndDownloadFile("纯文本文档.txt", content);
  700. }
  701.  
  702. /**
  703. * 存储PPT图像链接,适用性:百度文库
  704. */
  705. function savePPTData() {
  706. var pic_elements = document.getElementsByClassName("ppt-image-wrap");
  707. var pic_urls = [];
  708.  
  709. for (var elem of pic_elements) {
  710. var pic_obj = elem.children[0];
  711. var url = pic_obj.src;
  712. pic_urls.push(url);
  713. }
  714. var content = pic_urls.join("\n");
  715. // 启动下载
  716. createAndDownloadFile("urls.csv", content);
  717. }
  718.  
  719. /**
  720. * 存储文字型表格,适用性:百度文库
  721. */
  722. function saveExcelData() {
  723. // 1. 拿到表格
  724. var table_pic = document.getElementsByClassName("reader-pic-item")[0];
  725. var url = table_pic.style.getPropertyValue("background-image");
  726. // 获取图片地址
  727. var pure_url = url.slice(5, -2);
  728.  
  729. // 2. 拿到表格内文字信息
  730. var text_elems = document.getElementsByClassName("reader-word-layer");
  731. var text_list = [];
  732. for (var elem of text_elems) {
  733. text_list.push(elem.textContent);
  734. }
  735. var _text = text_list.join("\n");
  736. // 替换奇怪的空格
  737. var text = _text.replace(/ /g, " ");
  738.  
  739. // 3. 合并至一个字符串,然后导出
  740. var head = "表格图形链接如下(复制到浏览器中打开):";
  741. var content = head + "\n\n" + pure_url + "\n\n" + text;
  742. createAndDownloadFile("图片地址和表格内容.txt", content);
  743. }
  744.  
  745. /**
  746. * 对于文字和图形混合型的data只能存储其中的纯文字\
  747. * 适用性:百度文库
  748. */
  749. function saveDocAndPicData() {
  750. // 获取文本
  751. var text_elements = document.getElementsByClassName("reader-word-layer");
  752. var texts = [];
  753. for (var elem of text_elements) {
  754. texts.push(elem.textContent);
  755. }
  756. var origin_content = texts.join("");
  757. // 美化后导出文本
  758. var content = formatText2(origin_content);
  759. createAndDownloadFile("纯文本文档.txt", content);
  760. }
  761.  
  762. /**
  763. * 存储纯文本到本地,适用性:百度文库
  764. */
  765. function saveTxtData() {
  766. var text_elements = document.getElementsByClassName("p-txt");
  767. var texts = [];
  768. for (var elem of text_elements) {
  769. texts.push(elem.textContent);
  770. }
  771. var content = texts.join("");
  772. createAndDownloadFile("纯文本文档.txt", content);
  773. }
  774.  
  775. /**
  776. * 按文档类型,用对应方法储存数据到本地,适用性:百度文库
  777. * @returns 特殊情况下返回空值,表示安全退出
  778. */
  779. function saveData() {
  780. var type = detectType();
  781. if (type === "doc-only-pic" ||
  782. type === "pdf-pic-title" ||
  783. type === "pdf-only-pic" ||
  784. type === "excel-only-pic") {
  785. // 对于纯图形文档,都用【图片下载合并器】来处理
  786. savePDFData();
  787. } else if (type === "doc-only-word" ||
  788. type === "doc-pic-word" ||
  789. type === "pdf-only-word" ||
  790. type === "pdf-pic-word") {
  791. // 对于包含大量文字、且非表格的文档,直接提出纯文本
  792. saveDocData();
  793. } else if (type === "ppt") {
  794. // ppt按类似于纯图文档的方法处理
  795. savePPTData();
  796. } else if (type === "excel-only-word") {
  797. // excel仅保存其中的纯文字
  798. saveExcelData();
  799. } else if (type === "txt") {
  800. // txt直接保存
  801. saveTxtData();
  802. } else if (type === "safe_quit") {
  803. // 安全退出
  804. return;
  805. } else {
  806. var info = [];
  807. for (var key in type) {
  808. info.push(key + " : " + type[key]);
  809. }
  810. alert("未知处理类型,请反馈或联系作者:\nallenlv2690@gmail.com\n" + info.join("\n"));
  811. }
  812. }
  813.  
  814. /**
  815. * 下载全部图片链接,适用性:得力文库
  816. */
  817. function savePicUrls() {
  818. var pages = document.querySelectorAll(".inner_page div");
  819. var pic_urls = [];
  820.  
  821. for (var elem of pages) {
  822. var pic_obj = elem.children[0];
  823. var url = pic_obj.src;
  824. pic_urls.push(url);
  825. }
  826. var content = pic_urls.join("\n");
  827. // 启动下载
  828. createAndDownloadFile("urls.csv", content);
  829. }
  830.  
  831. /**
  832. * 按文档类型,用对应方法储存数据到本地,适用性:得力文库
  833. */
  834. // function saveDataDeliwenku() {
  835. // var type = detectTypeDeliwenku();
  836. // if (type === "pdf-only-pic") {
  837. // savePicUrls();
  838. // } else {
  839. // var info = [];
  840. // for (var key in type) {
  841. // info.push(key + " : " + type[key]);
  842. // }
  843. // alert("未知处理类型,请反馈或联系作者:\nallenlv2690@gmail.com\n" + info.join("\n"));
  844. // }
  845. // }
  846.  
  847. /**
  848. * 创建两个初始按钮:展开文档、存储文档
  849. * @returns
  850. */
  851. function create2btns() {
  852. // 创建脚本启动按钮1、2
  853. var btn_1 = document.createElement("button");
  854. var btn_2 = document.createElement("button");
  855.  
  856. // 设定按钮1、2样式
  857. btn_1.setAttribute("class", "init-btn");
  858. btn_1.style.height = "25px";
  859. btn_1.style.width = "50%";
  860. btn_1.style.marginLeft = "25%";
  861. btn_1.style.border = "none";
  862. btn_1.style.backgroundColor = "blue";
  863. btn_1.style.color = "white";
  864. btn_1.style.fontWeight = "bold";
  865. btn_1.textContent = "展开文档";
  866.  
  867. btn_2.setAttribute("class", "save-doc-btn");
  868. btn_2.style.height = "25px";
  869. btn_2.style.width = "50%";
  870. btn_2.style.marginLeft = "25%";
  871. btn_2.style.backgroundColor = "green";
  872. btn_2.style.border = "none";
  873. btn_2.style.display = "none";
  874. btn_2.style.color = "white";
  875. btn_2.style.fontWeight = "bold";
  876.  
  877. // 添加按钮元素到页面
  878. var section = document.createElement("section");
  879. section.setAttribute("class", "btns_section");
  880. section.appendChild(btn_1);
  881. section.appendChild(btn_2);
  882. document.body.appendChild(section);
  883. // 返回元素引用
  884. return [btn_1, btn_2]
  885. }
  886.  
  887. /*
  888. * 主函数部分
  889. */
  890.  
  891. /**
  892. * 百度文库文档下载策略
  893. */
  894. function baiduWenku() {
  895. // 创建脚本启动按钮1、2
  896. var [btn_1, btn_2] = create2btns();
  897. btn_2.textContent = "导出纯文本";
  898.  
  899. // 绑定主函数
  900. btn_1.onclick = readAll;
  901. btn_2.onclick = saveData;
  902.  
  903. // 解除打印限制
  904. allowPrint();
  905. }
  906.  
  907. /**
  908. * 豆丁文档下载策略
  909. */
  910. function docin() {
  911. // 创建脚本启动按钮
  912. var [btn_1, btn_2] = create2btns();
  913. btn_1.remove();
  914. btn_2.textContent = "打印页面到PDF";
  915. btn_2.style.removeProperty("display");
  916. // 绑定主函数
  917. btn_2.onclick = printPageDocin;
  918. }
  919.  
  920. /**
  921. * 爱问共享资料文档下载策略
  922. */
  923. function ishare() {
  924. // 创建脚本启动按钮1、2
  925. var [btn_1, btn_2] = create2btns();
  926. btn_2.textContent = "打印页面到PDF";
  927.  
  928. // 绑定主函数
  929. btn_1.onclick = readAlliShare;
  930. btn_2.onclick = printPageiShare;
  931.  
  932. // 移除底部下载条
  933. var detailfixed = document.getElementsByClassName("detail-fixed")[0];
  934. detailfixed.remove();
  935. }
  936.  
  937. /**
  938. * 得力文库文档下载策略
  939. */
  940. function deliwenku() {
  941. // 创建脚本启动按钮1、2
  942. var [btn_1, btn_2] = create2btns();
  943. btn_2.textContent = "导出全部图片链接";
  944.  
  945. // 绑定主函数
  946. btn_1.onclick = readAllDeliwenku;
  947. btn_2.onclick = savePicUrls;
  948.  
  949. // 尝试关闭页面弹窗
  950. try { document.querySelector("div[title=点击关闭]").click(); } catch (e) { console.log(0); }
  951. // 解除打印限制
  952. allowPrint();
  953. }
  954.  
  955. /**
  956. * 道客巴巴文档下载策略
  957. */
  958. function doc88() {
  959. // 创建脚本启动按钮1、2
  960. var [btn_1, btn_2] = create2btns();
  961. btn_2.textContent = "打印页面到PDF";
  962.  
  963. // 绑定主函数
  964. btn_1.onclick = readAllDoc88;
  965. btn_2.onclick = printPageDoc88;
  966. }
  967.  
  968. /**
  969. * 主函数:识别网站,执行对应文档下载策略
  970. */
  971. function main() {
  972. var host = window.location.host;
  973. if (host === "wenku.baidu.com") {
  974. baiduWenku();
  975. } else if (host === "www.docin.com") {
  976. docin();
  977. } else if (host === "ishare.iask.sina.com.cn") {
  978. ishare();
  979. } else if (host === "www.deliwenku.com") {
  980. deliwenku();
  981. } else if (host === "www.doc88.com") {
  982. doc88();
  983. } else {
  984. console.log("匹配到了无效网页");
  985. }
  986. }
  987.  
  988. window.onload = main;