通用网站内容爬虫抓取工具,可批量抓取任意站点的小说、论坛内容等并保存为TXT文档
< 脚本怠惰小说下载器的反馈
https://www.twbook.cc大佬能问下为什么这网址爬取的小说会有一大堆生辟字(错误字),在原网站上看又没有错误字体。这网站要用加速器
因为这个网站用的是css防盗字体,这是字体路径at.alicdn.com/t/c/font_2048323_8o8i7rg3j9w.woff2
你得按照文字对应的实际字形一一替换,建议找chatgpt写个脚本ocr识别伪装字形后批量替换
登录以发表回复。
https://www.twbook.cc大佬能问下为什么这网址爬取的小说会有一大堆生辟字(错误字),在原网站上看又没有错误字体。这网站要用加速器