Wenku Doc Downloader

下载“百度文库”文档,导出txt或pdf。支持①豆丁网②爱问共享资料(新浪文档)③得力文库④道客巴巴,文档导出pdf。在文档页面最最底部有蓝/绿色长方形按钮,说明脚本生效了。2021/12/17百度文档更新了技术,【脚本对百度文档完全无效了】,请等待下次更新,抱歉。

当前为 2021-12-19 提交的版本,查看 最新版本

  1. // ==UserScript==
  2. // @name Wenku Doc Downloader
  3. // @namespace http://tampermonkey.net/
  4. // @version 1.3.3
  5. // @description 下载“百度文库”文档,导出txt或pdf。支持①豆丁网②爱问共享资料(新浪文档)③得力文库④道客巴巴,文档导出pdf。在文档页面最最底部有蓝/绿色长方形按钮,说明脚本生效了。2021/12/17百度文档更新了技术,【脚本对百度文档完全无效了】,请等待下次更新,抱歉。
  6. // @author allenlv2690@gmail.com
  7. // @match https://wenku.baidu.com/view/*
  8. // @match https://www.docin.com/p-*
  9. // @match https://ishare.iask.sina.com.cn/f/*
  10. // @match https://www.deliwenku.com/p-*
  11. // @match *://www.doc88.com/p-*
  12. // @icon https://wenku.baidu.com/favicon.ico
  13. // @grant none
  14. // @license GPL-3.0-only
  15. // @create 2021-11-22
  16. // @note 修复了豆丁网http不识别的问题、百度文档图文混合doc不识别的问题
  17. // ==/UserScript==
  18. /*
  19. * 附属功能函数部分
  20. */
  21. /**
  22. * 创建并下载文件
  23. * @param {string} fileName
  24. * @param {string} content
  25. */
  26. function createAndDownloadFile(fileName, content) {
  27. var aTag = document.createElement('a');
  28. var blob = new Blob([content]);
  29. aTag.download = fileName;
  30. aTag.href = URL.createObjectURL(blob);
  31. aTag.click();
  32. URL.revokeObjectURL(blob);
  33. }
  34. /**
  35. * 允许打印页面
  36. */
  37. function allowPrint() {
  38. var style = document.createElement("style");
  39. style.innerHTML = `@media print {
  40. body{
  41. display:block;
  42. }
  43. }`;
  44. document.getElementsByTagName("head")[0].appendChild(style);
  45. }
  46. /**
  47. * 隐藏按钮,打印页面,显示按钮
  48. */
  49. function hiddenThenPrint() {
  50. // 隐藏按钮,然后打印页面
  51. var section = document.getElementsByClassName("btns_section")[0];
  52. section.style.display = "none";
  53. window.print();
  54. // 打印结束,显示按钮
  55. section.style.removeProperty("display");
  56. }
  57. /**
  58. * 增强按钮1(蓝色按钮:展开文档)的点击效果
  59. */
  60. function enhanceBtnClickReaction() {
  61. var btn_1 = document.getElementsByClassName("init-btn")[0];
  62. btn_1.style.color = "grey";
  63. btn_1.style.fontWeight = "normal";
  64. var changeColor = function() {
  65. btn_1.style.color = "white";
  66. btn_1.style.fontWeight = "bold";
  67. };
  68. setTimeout(changeColor, 500);
  69. }
  70. /**
  71. * 用input框跳转到对应页码
  72. * @param {Element} cur_page 当前页码
  73. * @param {string} aim_page 目标页码
  74. * @param {string} event_type 键盘事件类型:"keyup" | "keypress" | "keydown"
  75. */
  76. function jump2pageNo(cur_page, aim_page, event_type) {
  77. // 设置跳转页码为目标页码
  78. cur_page.value = aim_page;
  79. // 模拟回车事件来跳转
  80. var keyboard_event_enter = new KeyboardEvent(event_type, {
  81. bubbles: true,
  82. cancelable: true,
  83. keyCode: 13
  84. });
  85. cur_page.dispatchEvent(keyboard_event_enter);
  86. }
  87. /**
  88. * 用于纯文本文档的文本美化,适用性:百度文库
  89. * @param {string} text
  90. * @returns 美化后的文本
  91. */
  92. function formatText(text) {
  93. var reg_exp_1 = new RegExp(" ?[(]?=[\u4e00-\u9fa5] ?[)]");
  94. var reg_exp_2 = new RegExp("(?<=TEMP[\u4e00-\u9fa5]) ?");
  95. // var reg_exp_3 = new RegExp("(?<=[\u4e00-\u9fa5]) ?(?=[\u4e00-\u9fa5])");
  96. var text_1 = text.replace(reg_exp_1, "TEMP");
  97. var text_2 = text_1.replace(reg_exp_2, "");
  98. var text_3 = text_2.replace("TEMP", "");
  99. var text_final = text_3.replace(/ /g, " ");
  100. return text_final;
  101. }
  102. /**
  103. * 用于图形文字混合型文档的文本美化,适用性:百度文库
  104. * @param {string} text
  105. * @returns 美化后的文本
  106. */
  107. function formatText2(text) {
  108. var reg_exp = new RegExp("[  ]{2,}");
  109. var content_1 = text.replace(reg_exp, "\n");
  110. var content_2 = content_1.replace(/[  ]\n/g, "\n");
  111. var reg_exp_2 = new RegExp("\n[ ]*\n*\n");
  112. var content_3 = content_2.replace(reg_exp_2, "\n");
  113. var reg_exp_3 = new RegExp(" *\n * ");
  114. var content_4 = content_3.replace(reg_exp_3, "\n");
  115. var content_5 = content_4.replace(/[  ]/g, " ");
  116. var final_content = content_5.replace(/[ \n]精选文档[ \n]/g).replace(/\n{2,}/g, "\n");
  117. return final_content;
  118. }
  119. /**
  120. * 判断文档的详细类型,适用性:百度文库
  121. * @returns 源文档类型-实际内容类型,如: doc-pic-word
  122. */
  123. function detectType() {
  124. // 获取文档类型名称
  125. try {
  126. var doc_title_wrap = document.getElementsByClassName("doc-title-wrap")[0];
  127. var file_type = doc_title_wrap.children[0].className;
  128. } catch (e) {
  129. alert("请刷新页面以激活该按钮。\n先点击【导出pdf】橙色按钮后该按钮将无法使用。");
  130. return "safe_quit";
  131. }
  132. var pdf, doc, ppt, excel, type;
  133. // 判断文档类型
  134. if (file_type.search("word") !== -1) {
  135. type = "word";
  136. } else if (file_type.search("ppt") !== -1) {
  137. type = "ppt";
  138. } else if (file_type.search("excel") !== -1) {
  139. type = "excel";
  140. } else if (file_type.search("pdf") !== -1) {
  141. type = "pdf";
  142. } else if (file_type.search("txt" !== -1)) {
  143. type = "txt";
  144. } else {
  145. type = file_type;
  146. }
  147. // 分别尝试获取相应元素列表,若列表长度为0则不存在相应元素,否则存在
  148. var pic_nums = document.getElementsByClassName("reader-pic-item").length;
  149. var word_nums = document.getElementsByClassName("reader-word-layer").length;
  150. var ppt_img_nums = document.getElementsByClassName("ppt-image-wrap").length;
  151. // 判断文档类型、文字和图片的数量状况
  152. if (type === "word" && !word_nums && pic_nums) {
  153. // doc: 纯图片
  154. return "doc-only-pic";
  155. } else if (type === "word" && word_nums > 2 && pic_nums <= 1) {
  156. // doc: 纯文字
  157. return "doc-only-word";
  158. } else if (type === "word" && pic_nums > 1 && word_nums > 2) {
  159. // doc: 图形、文字混合
  160. return "doc-pic-word";
  161. } else if (type === "pdf" && pic_nums > 2 && word_nums === 1) {
  162. // pdf: 带有一行文字标题,之后都是图形
  163. return "pdf-pic-title";
  164. } else if (type === "pdf" && !word_nums && pic_nums) {
  165. // pdf: 纯图形
  166. return "pdf-only-pic";
  167. } else if (type === "pdf" && !pic_nums && word_nums > 1) {
  168. // pdf: 纯文字
  169. return "pdf-only-word";
  170. } else if (type === "pdf" && word_nums > 2 && pic_nums > 1) {
  171. // pdf: 图形、文字混合
  172. return "pdf-pic-word";
  173. } else if ((type === "ppt" && ppt_img_nums > 2) || (type === "pdf" && !word_nums && !pic_nums && ppt_img_nums)) {
  174. // ppt: 包含至少3页内容 / 纯ppt图形页面构成
  175. return "ppt";
  176. } else if (type === "excel" && pic_nums && word_nums > 2) {
  177. // excel: 包含可选中文字
  178. return "excel-only-word";
  179. } else if (type === "excel" && pic_nums && !word_nums) {
  180. // excel: 纯图形
  181. return "excel-only-pic";
  182. } else if (type === "txt") {
  183. // txt: 纯文字
  184. return "txt";
  185. } else {
  186. return {
  187. "源文档类型": type,
  188. "图形数量": pic_nums,
  189. "文字块数量": word_nums,
  190. "ppt纯图形页面数量": ppt_img_nums
  191. };
  192. }
  193. }
  194. /**
  195. * 用try移除元素
  196. * @param {*} element
  197. */
  198. function tryToRemoveElement(element) {
  199. try {
  200. element.remove();
  201. } catch (e) {
  202. console.log();
  203. }
  204. }
  205. /**
  206. * 用try移除 [元素列表1, 元素列表2, ...] 的元素
  207. * @param {*} elem_list_box
  208. */
  209. function tryToRemoveSameElem(elem_list_box) {
  210. for (var elem_list of elem_list_box) {
  211. if (!elem_list) {
  212. continue;
  213. }
  214. for (var elem of elem_list) {
  215. try {
  216. elem.remove();
  217. } catch (e) {
  218. console.log();
  219. }
  220. }
  221. }
  222. }
  223. /**
  224. * 使文档在页面上居中
  225. * @param {string} class_name 文档元素的class
  226. * @param {string} default_offset 文档部分向右偏移的百分比(0-59)
  227. * @returns 偏移值是否合法
  228. */
  229. function centerDoc(class_name, default_offset) {
  230. var doc_main = document.getElementsByClassName(class_name)[0];
  231. var offset = window.prompt("请输入偏移百分位:", default_offset);
  232. // 如果输入的数字不在 0-59 内,提醒用户重新设置
  233. if (offset.length === 1 && offset.search(/[0-9]/) !== -1) {
  234. doc_main.style.marginLeft = offset + "%";
  235. return true;
  236. } else if (offset.length === 2 && offset.search(/[1-5][0-9]/) !== -1) {
  237. doc_main.style.marginLeft = offset + "%";
  238. return true
  239. } else {
  240. alert("请输入一个正整数,范围在0至59之间,用来使文档居中\n(不同文档偏移量不同,所以需要手动调整)");
  241. return false;
  242. }
  243. }
  244. /**
  245. * 提示文档已经展开,改变按钮形态:隐去按钮1,显示按钮2
  246. */
  247. function transformButtons() {
  248. var hint = "文档已经完全展开,可以导出";
  249. alert(hint);
  250. // 准备调整按钮,先获取按钮
  251. var btn_1 = document.getElementsByClassName("init-btn")[0];
  252. var btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  253. // 调整按钮显示状况
  254. btn_1.style.display = "none";
  255. btn_2.style.removeProperty("display");
  256. }
  257. /*
  258. * 主要功能函数部分
  259. */
  260. /**
  261. * 清理并打印道客巴巴的文档页
  262. */
  263. function printPageDoc88() {
  264. // 移除页面上的无关元素
  265. var selector = "#header, #toolbar, #box1, #boxright, .toplayer-shop, .commonbox1, #commentDiv, .activelist, #footer, .page_ad, #readEndDiv";
  266. var elem_list = document.querySelectorAll(selector);
  267. for (var elem of elem_list) {
  268. tryToRemoveElement(elem);
  269. }
  270. // 调整页间距为0
  271. var pages = document.querySelectorAll(".outer_page");
  272. for (var p of pages) {
  273. p.style.marginBottom = "0";
  274. }
  275. // 打印页面
  276. alert("建议使用:\n偏移量:0\n缩放: 113\n请上下滚动页面,确保每页内容都加载完成以避免空白页\n如果预览时有空白页或文末有绿色按钮,请取消打印重试");
  277. if (!centerDoc("boxleft", "0")) {
  278. return; // 如果输入非法,退出函数调用
  279. }
  280. hiddenThenPrint();
  281. }
  282. /**
  283. * 清理并打印得力文库的文档页
  284. */
  285. function printPageDeliwenku() {
  286. // 移除页面上的无关元素
  287. var selector = ".hr-wrap, #readshop, .nav_uis, .bookdesc, #boxright, .QQ_S1, .QQ_S, #outer_page_more, .works-manage-box.shenshu, .works-intro, .mt10.related-pic-box, .mt10.works-comment, .foot_nav, .siteInner";
  288. var elem_list = document.querySelectorAll(selector);
  289. for (var elem of elem_list) {
  290. tryToRemoveElement(elem);
  291. }
  292. // 修改页间距
  293. var outer_pages = document.getElementsByClassName("outer_page");
  294. for (var page of outer_pages) {
  295. page.style.marginBottom = "20px";
  296. }
  297. // 使文档居中
  298. alert("建议使用:\n偏移量: 3\n缩放: 112\n请上下滚动页面,确保每页内容都加载完成以避免空白页\n如果预览时有空白页或文末有绿色按钮,请取消打印重试");
  299. if (!centerDoc("boxleft", "3")) {
  300. return; // 如果输入非法,终止函数调用
  301. }
  302. // 打印文档
  303. hiddenThenPrint();
  304. }
  305. /**
  306. * 清理并打印豆丁网的文档页
  307. */
  308. function printPageDocin() {
  309. // # 清理并打印豆丁网的文档页
  310. // ## 选择指针光标
  311. try { document.getElementById("j_select").click(); } catch (e) { console.log(); }
  312. // ## 移除页面上无关的元素
  313. // ### 移除单个元素
  314. var doc_head = document.getElementsByClassName("doc_header_mod")[0];
  315. var head_wrapper = document.getElementsByClassName("head_wrapper")[0];
  316. var aside = document.getElementsByClassName("aside")[0];
  317. var slide = document.getElementById("docinShareSlider");
  318. var no_more = document.getElementsByClassName("no_more_mod")[0];
  319. var like_too = document.getElementById("likeToo");
  320. var tools_bottom_bar = document.getElementsByClassName("tools_bottom_bar")[0];
  321. var page_crubms = document.getElementsByClassName("page_crubms")[0];
  322. var bottom_ad = document.getElementById("jControlDivRecomm");
  323. var back_to_top = document.getElementsByClassName("backToTop")[0];
  324. var transparent_mask = document.querySelector(".reader_tools_bar_wrap.tools_bar_small.clear");
  325. // ### 执行移除
  326. var elem_list = [doc_head,
  327. head_wrapper,
  328. aside,
  329. slide,
  330. no_more,
  331. like_too,
  332. tools_bottom_bar,
  333. page_crubms,
  334. bottom_ad,
  335. back_to_top,
  336. transparent_mask
  337. ];
  338. for (var elem of elem_list) {
  339. tryToRemoveElement(elem);
  340. }
  341. // ### 移除全部同类元素
  342. var ad_box = document.getElementsByClassName("adBox");
  343. tryToRemoveSameElem([ad_box]);
  344. // 使文档居中
  345. var doc = document.getElementsByClassName("main")[0];
  346. doc.style.marginLeft = "6%";
  347. // 隐藏按钮,然后打印页面
  348. alert("如果预览时有空白页,请取消打印\n请上下滚动页面,确保每页内容都加载完成\n如果预览时文末有广告或按钮,请取消打印,再点一次按钮\n最多不超过2次,应该就没有了");
  349. hiddenThenPrint();
  350. }
  351. /**
  352. * 清理并打印爱问共享资料的文档页
  353. * @returns 如果输入偏移量非法,返回空值以终止函数
  354. */
  355. function printPageiShare() {
  356. // # 清理并打印爱问共享资料的文档页
  357. // ## 移除页面上无关的元素
  358. // ### 移除单个元素
  359. var topbanner = document.getElementsByClassName("detail-topbanner")[0];
  360. var header = document.getElementsByClassName("new-detail-header")[0];
  361. var fixright = document.getElementById("fix-right");
  362. var redpacket = document.getElementsByClassName("loginRedPacket-dialog")[0];
  363. var fixedrightfull = document.getElementsByClassName("fixed-right-full")[0];
  364. var footer = document.getElementsByClassName("website-footer")[0];
  365. var guess = document.getElementsByClassName("guess-you-like-warpper")[0];
  366. var detailtopbox = document.getElementsByClassName("detail-top-box")[0];
  367. var fullscreen = document.getElementsByClassName("reader-fullScreen")[0];
  368. var endhint = document.getElementsByClassName("endof-trial-reading")[0];
  369. var crumb_arrow;
  370. try { crumb_arrow = document.getElementsByClassName("crumb-arrow")[0].parentElement; } catch (e) { console.log(); }
  371. var copyright = document.getElementsByClassName("copyright-container")[0];
  372. var state_btn = document.getElementsByClassName("state-bottom")[0];
  373. var comments = document.getElementsByClassName("user-comments-wrapper")[0];
  374. // ### 执行移除
  375. var elem_list = [
  376. topbanner,
  377. header,
  378. fixright,
  379. redpacket,
  380. fixedrightfull,
  381. footer,
  382. guess,
  383. detailtopbox,
  384. fullscreen,
  385. endhint,
  386. crumb_arrow,
  387. copyright,
  388. state_btn,
  389. comments
  390. ];
  391. for (var elem of elem_list) {
  392. tryToRemoveElement(elem);
  393. }
  394. // ### 移除全部同类元素
  395. var elem_list_2 = document.querySelectorAll(".tui-detail, .adv-container")
  396. for (var elem_2 of elem_list_2) {
  397. tryToRemoveElement(elem_2);
  398. }
  399. // 使文档居中
  400. alert("建议使用:\n偏移量: 18\n缩放: 默认\n如果预览中有广告,就取消打印\n再点一次按钮,预览中应该就没有广告了");
  401. if (!centerDoc("doc-main", "18")) {
  402. return; // 如果输入非法,终止函数调用
  403. }
  404. // 隐藏按钮,然后打印页面
  405. hiddenThenPrint();
  406. }
  407. /**
  408. * 清理并打百度文库的文档页
  409. * @returns 如果输入偏移量非法,返回空值以终止函数
  410. */
  411. function printPageBaidu() {
  412. // # 清理并打百度文库的文档页
  413. // ## 移除无关页面元素
  414. // ### 要移除的单个元素
  415. var header_wrapper = document.getElementsByClassName("header-wrapper")[0];
  416. var right_wrapper = document.getElementById("right-wrapper-id");
  417. var reader_topbar = document.getElementsByClassName("reader-topbar")[0];
  418. var end_fold_page = document.getElementsByClassName("try-end-fold-page")[0];
  419. var catalog = document.querySelector(".catalog");
  420. var bottom = document.querySelector(".journal");
  421. var elem_list = [
  422. header_wrapper,
  423. right_wrapper,
  424. reader_topbar,
  425. end_fold_page,
  426. catalog,
  427. bottom
  428. ]
  429. for (var elem of elem_list) {
  430. tryToRemoveElement(elem);
  431. }
  432. // ### 移除全部同类元素
  433. var lazy_load_list = document.getElementsByClassName("lazy-load");
  434. var no_full_screen_list = document.getElementsByClassName("no-full-screen");
  435. var ads = document.getElementsByClassName("hx-warp");
  436. tryToRemoveSameElem([lazy_load_list, ads, no_full_screen_list]);
  437. // ## 文档类型测试
  438. // ### 常规文档测试
  439. var normal = Boolean(document.getElementsByClassName("left-wrapper")[0]);
  440. // ### 文献/期刊文档测试
  441. var journal = Boolean(document.getElementById("#journal-view"))
  442. var class_name;
  443. if (normal) {
  444. class_name = "left-wrapper";
  445. } else if (journal) {
  446. class_name = "right-wrapper";
  447. } else {
  448. alert("文档部分元素class不为left-wrapper,且id不为journal-view\n是未知文档类型,无法处理,请联系作者\nQQ: 2690874578\nEmail: allenlv2690@gmail.com");
  449. }
  450. // 使文档居中
  451. alert("建议使用:\n偏移量: 0\n缩放: 118%\n请上下滚动页面,确保每页内容都加载完成以避免空白页\n如果预览时有空白页或文末有按钮,请取消打印重试");
  452. if (!centerDoc(class_name, "0")) {
  453. return; // 如果输入非法,退出函数调用
  454. }
  455. // 隐藏按钮,然后打印页面
  456. hiddenThenPrint();
  457. }
  458. /**
  459. * 创建“打印页面到PDF”按钮
  460. */
  461. function createPrintPageBtn(printPageWebsite) {
  462. var btn_3 = document.createElement("button");
  463. // 样式设定
  464. btn_3.setAttribute("class", "save-html-btn");
  465. btn_3.style.height = "25px";
  466. btn_3.style.width = "15%";
  467. btn_3.style.marginLeft = "0.2%";
  468. btn_3.style.backgroundColor = "orange";
  469. btn_3.style.border = "none";
  470. btn_3.textContent = "导出pdf";
  471. btn_3.style.fontWeight = "bold";
  472. btn_3.style.borderRadius = "10%";
  473. // 绑定事件,添加到页面上
  474. btn_3.onclick = printPageWebsite;
  475. var section = document.getElementsByClassName("btns_section")[0];
  476. section.appendChild(btn_3);
  477. }
  478. /**
  479. * 点击“继续阅读”,适用性:得力文库
  480. */
  481. function readAllDeliwenku() {
  482. // 点击“同意并开始预览全文”
  483. var start_btn = document.getElementsByClassName("pre_button")[0];
  484. var display = start_btn.parentElement.parentElement.style.display;
  485. // 如果该按钮显示着,则点击,然后滚动至页面底部,最后终止函数
  486. if (!display) {
  487. start_btn.children[0].click();
  488. setTimeout("scroll(0, document.body.scrollHeight)", 200);
  489. return;
  490. }
  491. // 增强按钮点击效果
  492. enhanceBtnClickReaction();
  493. var read_all_btn = document.getElementsByClassName("fc2e")[0];
  494. var display2 = read_all_btn.parentElement.parentElement.style.display
  495. // 继续阅读
  496. if (display2 !== "none") {
  497. // 获取input元素
  498. var cur_page = document.querySelector("#pageNumInput");
  499. var page_old = cur_page.value;
  500. var page_max = cur_page.parentElement.nextElementSibling.textContent.replace(" / ", "");
  501. // 跳转到尾页
  502. jump2pageNo(cur_page, page_max, "keydown");
  503. // 跳转回来
  504. jump2pageNo(cur_page, page_old, "keydown");
  505. // 切换按钮准备导出
  506. } else {
  507. var hint = "文档已经完全展开,可以导出";
  508. alert(hint);
  509. // 准备调整按钮,先获取按钮
  510. var btn_1 = document.getElementsByClassName("init-btn")[0];
  511. var btn_2 = document.getElementsByClassName("save-doc-btn")[0];
  512. // 调整按钮显示状况: 隐去蓝色按钮,显出绿色按钮和橙色按钮
  513. btn_1.style.display = "none";
  514. btn_2.style.width = "34.8%";
  515. btn_2.style.removeProperty("display");
  516. // btn_3 橙色按钮
  517. createPrintPageBtn(printPageDeliwenku);
  518. btn_2.textContent += "(推荐)";
  519. }
  520. }
  521. /**
  522. * 点击“展开继续阅读”,适用性:爱尚共享资料
  523. */
  524. function readAlliShare() {
  525. // 获取“继续阅读”元素
  526. var red_btn = document.getElementsByClassName("red-color")[0];
  527. var red_text = red_btn.textContent;
  528. // 增强按钮点击效果
  529. enhanceBtnClickReaction();
  530. // 如果可以展开,则展开
  531. if (red_text.search("点击可继续阅读") !== -1) {
  532. red_btn.click();
  533. }
  534. // 否则启动按钮2,准备清理页面然后打印为PDF
  535. else {
  536. transformButtons();
  537. }
  538. }
  539. /**
  540. * 点击“继续阅读”,适用性:百度文库
  541. * @returns 特殊文档类型不予下载,返回空值
  542. */
  543. function readAll() {
  544. // 获取“继续阅读”按钮
  545. var read_all_btn = document.getElementsByClassName("read-all")[0];
  546. // 增强按钮点击效果
  547. enhanceBtnClickReaction();
  548. // 如果存在“继续阅读”的按钮
  549. if (read_all_btn) {
  550. // 跳转到文末(等同于展开全文)
  551. var cur_page = document.getElementsByClassName("cur-page")[0];
  552. // 取得最大页码
  553. var page_max = cur_page.parentElement.children[2];
  554. // 设置跳转页码为最大页码
  555. cur_page.value = page_max;
  556. // 跳转到尾页
  557. jump2pageNo(cur_page, page_max, "keyup");
  558. // 否则认为已经展开了文档,判断文档类型,然后显示对应的按钮
  559. } else {
  560. var hint = "文档已经完全展开,可以导出";
  561. alert(hint);
  562. try {
  563. // 判断文档类型
  564. var type = detectType();
  565. } catch (e) {
  566. alert("未知/特殊文档类型,例如学术文献,暂不支持下载\n也可与作者反馈或联系:\nallenlv2690@gmail.com");
  567. return undefined;
  568. }
  569. // 准备调整按钮,先获取按钮
  570. var init_btn = document.getElementsByClassName("init-btn")[0];
  571. var save_doc_btn = document.getElementsByClassName("save-doc-btn")[0];
  572. // 添加导出pdf功能的按钮
  573. save_doc_btn.style.width = "34.8%";
  574. createPrintPageBtn(printPageBaidu);
  575. // 纯文字类型文档推荐导出纯文本
  576. if (type === "doc-only-word" ||
  577. type === "pdf-only-word") {
  578. save_doc_btn.textContent += "(推荐)";
  579. }
  580. // 纯图类型文档推荐导出图片链接再拼合为PDF
  581. else if (type === "doc-only-pic" ||
  582. type === "pdf-pic-title" ||
  583. type === "ppt" ||
  584. type === "pdf-only-pic" ||
  585. type === "excel-only-pic") {
  586. save_doc_btn.textContent = "导出图片链接来合并为PDF(推荐)";
  587. }
  588. // 其他类型应该是图文混合型,推荐导出PDF
  589. else {
  590. var print_page_btn = document.getElementsByClassName("save-html-btn")[0];
  591. print_page_btn.textContent += "(推荐)";
  592. }
  593. // 调整按钮显示状况
  594. save_doc_btn.style.removeProperty("display");
  595. save_doc_btn.disabled = true;
  596. init_btn.style.display = "none";
  597. }
  598. }
  599. function readAllDoc88() {
  600. // 获取“继续阅读”按钮
  601. var continue_btn = document.querySelector("#continueButton");
  602. // 增强按钮点击效果
  603. enhanceBtnClickReaction();
  604. // 如果存在“继续阅读”按钮
  605. if (continue_btn) {
  606. // 跳转到文末(等同于展开全文)
  607. var cur_page = document.querySelector("#pageNumInput");
  608. // 取得当前页码(用于返回到现在位置)
  609. var page_old = cur_page.value;
  610. // 取得最大页码
  611. var page_max = cur_page.parentElement.textContent.replace(" / ", "");
  612. // 跳转到尾页
  613. jump2pageNo(cur_page, page_max, "keypress");
  614. // 跳转回来
  615. jump2pageNo(cur_page, page_old, "keypress");
  616. }
  617. // 否则启动按钮2,准备清理页面然后打印为PDF
  618. else {
  619. transformButtons();
  620. }
  621. }
  622. /**
  623. * 存储非PPT文档的png图形链接,适用性:百度文库
  624. */
  625. function savePDFData() {
  626. var pic_urls = document.getElementsByClassName("reader-pic-item");
  627. var text_list = [];
  628. // 去掉前缀
  629. var reg_exp_1 = new RegExp(": ?url[(]");
  630. // 去掉后缀
  631. var reg_exp_2 = new RegExp("[)]; ?background-position");
  632. for (var i = 0; i < pic_urls.length; i++) {
  633. var whole_text = pic_urls[i].getAttribute("style");
  634. var de_pretext = whole_text.split(reg_exp_1)[1];
  635. var url = de_pretext.split(reg_exp_2)[0];
  636. text_list.push(url);
  637. }
  638. text_list[0] = text_list[0].replace(/"/g, "");
  639. var content = text_list.join("\n");
  640. // 启动下载
  641. createAndDownloadFile("urls.csv", content);
  642. }
  643. /**
  644. * 存储纯文本,适用性:百度文库
  645. */
  646. function saveDocData() {
  647. // 获取文本
  648. var text_elements = document.getElementsByClassName("reader-word-layer");
  649. var texts = [];
  650. for (var elem of text_elements) {
  651. texts.push(elem.textContent);
  652. }
  653. // 美化后导出文本
  654. var origin_content = texts.join("");
  655. var content = formatText(origin_content);
  656. createAndDownloadFile("纯文本文档.txt", content);
  657. }
  658. /**
  659. * 存储PPT图像链接,适用性:百度文库
  660. */
  661. function savePPTData() {
  662. var pic_elements = document.getElementsByClassName("ppt-image-wrap");
  663. var pic_urls = [];
  664. for (var elem of pic_elements) {
  665. var pic_obj = elem.children[0];
  666. var url = pic_obj.src;
  667. pic_urls.push(url);
  668. }
  669. var content = pic_urls.join("\n");
  670. // 启动下载
  671. createAndDownloadFile("urls.csv", content);
  672. }
  673. /**
  674. * 存储文字型表格,适用性:百度文库
  675. */
  676. function saveExcelData() {
  677. // 1. 拿到表格
  678. var table_pic = document.getElementsByClassName("reader-pic-item")[0];
  679. var url = table_pic.style.getPropertyValue("background-image");
  680. // 获取图片地址
  681. var pure_url = url.slice(5, -2);
  682. // 2. 拿到表格内文字信息
  683. var text_elems = document.getElementsByClassName("reader-word-layer");
  684. var text_list = [];
  685. for (var elem of text_elems) {
  686. text_list.push(elem.textContent);
  687. }
  688. var _text = text_list.join("\n");
  689. // 替换奇怪的空格
  690. var text = _text.replace(/ /g, " ");
  691. // 3. 合并至一个字符串,然后导出
  692. var head = "表格图形链接如下(复制到浏览器中打开):";
  693. var content = head + "\n\n" + pure_url + "\n\n" + text;
  694. createAndDownloadFile("图片地址和表格内容.txt", content);
  695. }
  696. /**
  697. * 对于文字和图形混合型的data只能存储其中的纯文字\
  698. * 适用性:百度文库
  699. */
  700. function saveDocAndPicData() {
  701. // 获取文本
  702. var text_elements = document.getElementsByClassName("reader-word-layer");
  703. var texts = [];
  704. for (var elem of text_elements) {
  705. texts.push(elem.textContent);
  706. }
  707. var origin_content = texts.join("");
  708. // 美化后导出文本
  709. var content = formatText2(origin_content);
  710. createAndDownloadFile("纯文本文档.txt", content);
  711. }
  712. /**
  713. * 存储纯文本到本地,适用性:百度文库
  714. */
  715. function saveTxtData() {
  716. var text_elements = document.getElementsByClassName("p-txt");
  717. var texts = [];
  718. for (var elem of text_elements) {
  719. texts.push(elem.textContent);
  720. }
  721. var content = texts.join("");
  722. createAndDownloadFile("纯文本文档.txt", content);
  723. }
  724. /**
  725. * 按文档类型,用对应方法储存数据到本地,适用性:百度文库
  726. * @returns 特殊情况下返回空值,表示安全退出
  727. */
  728. function saveData() {
  729. var type = detectType();
  730. if (type === "doc-only-pic" ||
  731. type === "pdf-pic-title" ||
  732. type === "pdf-only-pic" ||
  733. type === "excel-only-pic") {
  734. // 对于纯图形文档,都用【图片下载合并器】来处理
  735. savePDFData();
  736. } else if (type === "doc-only-word" ||
  737. type === "doc-pic-word" ||
  738. type === "pdf-only-word" ||
  739. type === "pdf-pic-word") {
  740. // 对于包含大量文字、且非表格的文档,直接提出纯文本
  741. saveDocData();
  742. } else if (type === "ppt") {
  743. // ppt按类似于纯图文档的方法处理
  744. savePPTData();
  745. } else if (type === "excel-only-word") {
  746. // excel仅保存其中的纯文字
  747. saveExcelData();
  748. } else if (type === "txt") {
  749. // txt直接保存
  750. saveTxtData();
  751. } else if (type === "safe_quit") {
  752. // 安全退出
  753. return;
  754. } else {
  755. var info = [];
  756. for (var key in type) {
  757. info.push(key + " : " + type[key]);
  758. }
  759. alert("未知处理类型,请反馈或联系作者:\nallenlv2690@gmail.com\n" + info.join("\n"));
  760. }
  761. }
  762. /**
  763. * 下载全部图片链接,适用性:得力文库
  764. */
  765. function savePicUrls() {
  766. var pages = document.querySelectorAll(".inner_page div");
  767. var pic_urls = [];
  768. for (var elem of pages) {
  769. var pic_obj = elem.children[0];
  770. var url = pic_obj.src;
  771. pic_urls.push(url);
  772. }
  773. var content = pic_urls.join("\n");
  774. // 启动下载
  775. createAndDownloadFile("urls.csv", content);
  776. }
  777. /**
  778. * 按文档类型,用对应方法储存数据到本地,适用性:得力文库
  779. */
  780. // function saveDataDeliwenku() {
  781. // var type = detectTypeDeliwenku();
  782. // if (type === "pdf-only-pic") {
  783. // savePicUrls();
  784. // } else {
  785. // var info = [];
  786. // for (var key in type) {
  787. // info.push(key + " : " + type[key]);
  788. // }
  789. // alert("未知处理类型,请反馈或联系作者:\nallenlv2690@gmail.com\n" + info.join("\n"));
  790. // }
  791. // }
  792. /**
  793. * 创建两个初始按钮:展开文档、存储文档
  794. * @returns
  795. */
  796. function create2btns() {
  797. // 创建脚本启动按钮1、2
  798. var btn_1 = document.createElement("button");
  799. var btn_2 = document.createElement("button");
  800. // 设定按钮1、2样式
  801. btn_1.setAttribute("class", "init-btn");
  802. btn_1.style.height = "25px";
  803. btn_1.style.width = "50%";
  804. btn_1.style.marginLeft = "25%";
  805. btn_1.style.border = "none";
  806. btn_1.style.backgroundColor = "blue";
  807. btn_1.style.color = "white";
  808. btn_1.style.fontWeight = "bold";
  809. btn_1.textContent = "展开文档";
  810. btn_2.setAttribute("class", "save-doc-btn");
  811. btn_2.style.height = "25px";
  812. btn_2.style.width = "50%";
  813. btn_2.style.marginLeft = "25%";
  814. btn_2.style.backgroundColor = "green";
  815. btn_2.style.border = "none";
  816. btn_2.style.display = "none";
  817. btn_2.style.color = "white";
  818. btn_2.style.fontWeight = "bold";
  819. // 添加按钮元素到页面
  820. var section = document.createElement("section");
  821. section.setAttribute("class", "btns_section");
  822. section.appendChild(btn_1);
  823. section.appendChild(btn_2);
  824. document.body.appendChild(section);
  825. // 返回元素引用
  826. return [btn_1, btn_2]
  827. }
  828. /*
  829. * 主函数部分
  830. */
  831. /**
  832. * 百度文库文档下载策略
  833. */
  834. function baiduWenku() {
  835. // 创建脚本启动按钮1、2
  836. var [btn_1, btn_2] = create2btns();
  837. btn_2.textContent = "导出纯文本";
  838. // 绑定主函数
  839. btn_1.onclick = readAll;
  840. btn_2.onclick = saveData;
  841. // 解除打印限制
  842. allowPrint();
  843. }
  844. /**
  845. * 豆丁文档下载策略
  846. */
  847. function docin() {
  848. // 创建脚本启动按钮
  849. var [btn_1, btn_2] = create2btns();
  850. btn_1.remove();
  851. btn_2.textContent = "打印页面到PDF";
  852. btn_2.style.removeProperty("display");
  853. // 绑定主函数
  854. btn_2.onclick = printPageDocin;
  855. }
  856. /**
  857. * 爱问共享资料文档下载策略
  858. */
  859. function ishare() {
  860. // 创建脚本启动按钮1、2
  861. var [btn_1, btn_2] = create2btns();
  862. btn_2.textContent = "打印页面到PDF";
  863. // 绑定主函数
  864. btn_1.onclick = readAlliShare;
  865. btn_2.onclick = printPageiShare;
  866. // 移除底部下载条
  867. var detailfixed = document.getElementsByClassName("detail-fixed")[0];
  868. detailfixed.remove();
  869. }
  870. /**
  871. * 得力文库文档下载策略
  872. */
  873. function deliwenku() {
  874. // 创建脚本启动按钮1、2
  875. var [btn_1, btn_2] = create2btns();
  876. btn_2.textContent = "导出全部图片链接";
  877. // 绑定主函数
  878. btn_1.onclick = readAllDeliwenku;
  879. btn_2.onclick = savePicUrls;
  880. // 尝试关闭页面弹窗
  881. try { document.querySelector("div[title=点击关闭]").click(); } catch (e) { console.log(0); }
  882. // 解除打印限制
  883. allowPrint();
  884. }
  885. /**
  886. * 道客巴巴文档下载策略
  887. */
  888. function doc88() {
  889. // 创建脚本启动按钮1、2
  890. var [btn_1, btn_2] = create2btns();
  891. btn_2.textContent = "打印页面到PDF";
  892. // 绑定主函数
  893. btn_1.onclick = readAllDoc88;
  894. btn_2.onclick = printPageDoc88;
  895. }
  896. /**
  897. * 主函数:识别网站,执行对应文档下载策略
  898. */
  899. function main() {
  900. var host = window.location.host;
  901. if (host === "wenku.baidu.com") {
  902. baiduWenku();
  903. } else if (host === "www.docin.com") {
  904. docin();
  905. } else if (host === "ishare.iask.sina.com.cn") {
  906. ishare();
  907. } else if (host === "www.deliwenku.com") {
  908. deliwenku();
  909. } else if (host === "www.doc88.com") {
  910. doc88();
  911. } else {
  912. console.log("匹配到了无效网页");
  913. }
  914. }
  915. window.onload = main;