通用網站內容抓取工具,可批量抓取小說、論壇內容等並保存為TXT文檔
目前為
起點以及其他知名小說站都推薦用這個腳本【小說】下載腳本,遇到沒人願意適配的不知名小站再考慮我的腳本。
輕量級抓取腳本,用於下載網頁中的主要內容,理論上適用於任何非Ajax寫入正文的小說網站、論壇、貼吧等而無需為此寫任何規則。
腳本會自動檢索頁面中的主要內容並下載(省得複製完gal攻略還要手動逐條刪除「某某某13級頭銜水龍王發表於X年X月X日來自XX客戶端」)。 如果位於小說目錄頁會遍歷所有章節並排序拼接後存為TXT文檔。
CTRL+F9 或點擊命令菜單SHIFT+CTRL+F9 忽略目錄,僅下載當前頁.mask,.ksam,意為刪除class為mask或者ksam的元素。.l_chaptname>a ,輸入並下載後發現通過 url 無法下載正文內容,正文是 ajax 通過 articlescontent 下載的。此時可後接 @@articles@@articlescontent (@@ 分隔) 將章節 url 中的 articles 替換為 articlescontent 。 綜上 .l_chaptname>a@@articles@@articlescontent 即可適配該站。其中第一個 articles 可使用正則,例如 @@articles(\d+)@@$1content 代表將連結中的「articles1」「articles2」等替換為「1content」「2content」。main>section ul>li>div>a,無需替換連結,因此後兩項留空。有6個@了 😂。正文在meta里,需要自定義代碼提取meta-preload數據的content項。綜上 main>section ul>li>div>a@@@@@@var noval=JSON.parse(data.querySelector("#meta-preload-data").content).novel;noval[Object.keys(noval)[0]].content; 即可下載p站小說。其中「data」代表抓取網頁的document對象,若返回的是純文本,則用 data.body.innerText 獲取。主要是
因為我要下載馳星周的漂流街,卻發現前人的輪子「【小說】下載腳本」不能用,又不想為這破站 🙃 寫規則,而且我就是看不上霸道總裁修仙穿越你咬我啊指不定它三天兩頭改個版呢。寫個通用規則的腳本,一來可以不用追著數不清的小說站適配修改更新,二來也免去了法律風險。
這個腳本會自動去查找主要內容並下載,不需要寫規則。當然如果你家網站廣告內容比正文還多我也沒辦法。
遇到特殊網站還是建議用「【小說】下載腳本」。