通用網站內容爬蟲抓取工具,可批量抓取任意站點的小說、論壇內容等並保存為TXT文檔
< 腳本怠惰小説下載器的回應
https://www.twbook.cc大佬能问下为什么这网址爬取的小说会有一大堆生辟字(错误字),在原网站上看又没有错误字体。这网站要用加速器
因为这个网站用的是css防盗字体,这是字体路径at.alicdn.com/t/c/font_2048323_8o8i7rg3j9w.woff2
你得按照文字对应的实际字形一一替换,建议找chatgpt写个脚本ocr识别伪装字形后批量替换
登入以回復
https://www.twbook.cc大佬能问下为什么这网址爬取的小说会有一大堆生辟字(错误字),在原网站上看又没有错误字体。这网站要用加速器