前言
绅士漫画是一个免费的漫画网站,里面收录了大量的本子资源,包含汉化本,生肉本,以及韩漫,都由汉化组或者搬运工上传,不二压。
最近一直在使用E绅士(e-hentai.org),这应该是全世界最大的本子网站了,而且其丰富的tag可以让你轻松找到符合自己XP的本子。但是不幸的是E站每天都会接收到大量的版权投诉,导致大量的画廊被删除。
虽然E站的服务器遍布全球,并不在美国境内,所以也不需要遵守美国法律,有的服务器甚至是抗DMCA的,但是E绅士仍会接受这些版权投诉,并把对于的画廊删除。
详见:https://forums.e-hentai.org/index.php?showtopic=246653
即便如此,版权内容还是会被不断上传,并不断的被删除。
我觉得这挺荒诞的,但这就是E站的做法,他们肯定也考虑了很多,我作为一个看本子的只会觉得很可惜。irodori什么时候死啊
总结一下:
天下苦版权炮久矣!!
但在偶然之间,发现了绅士漫画这个网站(www.wnacg.com),这是一个免费的在线的漫画网站,里面收录的本子也不少,最重要的一点是,这里没有版权炮,不必担心上一秒还在鉴赏的本子,下一秒就被删除了。
标签系统虽然没有E站那么丰富,但提供标签也能够查找到自己喜欢的作者,而且免登录,免费下载。
但是对于我这样的lsp而言,漫画只能单本下载是不足以满足我的,批量下载漫画是必须的,于是写了这个爬虫。
搭配之前搭建了一个在线的漫画阅读的项目(详见:Docker搭建Komga漫画库)
就可以做到把喜欢的本子统统下载下来了!
简介
下载
点此下载:
wnacg.py
requirements.txt
功能
- 查找可用域名(详见发布页:绅士发布页)
- 通过漫画的url下载
- 通过关键词下载
- 批量下载
- 单本下载
- 解压或打包
之前写的yande爬虫,实际上是有许多弊端的,虽然有一个友好的gui,但实际上却忽略了许多问题:比如如何在mac上运行,如何在Android上运行,如何在linux上运行等等。
后来我想通了,一个爬虫下载的脚本,只需要使用最基本的命令窗即可。
食用方法
安装并配置python环境略去,不了解的可以自行百度。
下载wnacg.py文件,以及requirements.txt。
放在同一路径下,运行
pip install -r requirements.txt
安装依赖,运行py脚本。
python wnacg.py
运行成功后会自动创建一个config.ini 配置文件模板,默认不用管。
- 提示需要输入绅士漫画发布页,默认回车即可。
- 提示输入下载目录,输入下载路径或者回车即可,如
E:\wnacg
,留空回车将会在当前文件夹生成output文件夹存放下载的漫画。 - 提示输入是否解压为文件夹。
- 自动检测可用的域名,并选择其中一个。(没有什么区别,仅域名不同,某些域名ban日本IP)
- 输入关键词,列出可下载漫画列表。可以下载单本,下载整页或者下载全部漫画。
- 输入链接下载单本漫画,只能是photos-index-aid格式URL,其他格式不支持。
碎碎念
代码写的很长很乱,目前能用就是赢!感兴趣的小伙伴可以自行修改。
这个爬虫主要是写了两种下载的实现。
- 第一种是调用漫画界面的自带的打包下载
- 另一种是请求每一页的图片并获取图片地址。
第一种形式很方便,但是绅士的打包是交由上传者决定的,不打包的漫画无法通过这个方法下载(我觉得这么做意义不明就是了),只能每一张图片请求了。
那么最后祝愿诸君都能在新的一年里找到自己喜欢的本子~