可用于下载book118的PDF文档
- 爬虫爬取图片链接
- 下载图片
- 将图片拼合成pdf文件
参数 | 解释 | 必备参数 |
---|---|---|
-h 、--help |
显示帮助 | ❌ |
-u 、--url |
要下载的文件的网页地址 | ✔ |
-o 、--output |
文件保存名,默认是文档的标题.pdf | ❌ |
-p 、--proxy |
设置要使用的代理地址(默认使用环境变量中HTTP_PROXY 和HTTPS_PROXY 设置的值),可以使用-p '' 强制设置不走代理 |
❌ |
-f 、--force |
强制重新下载,不使用缓存 | ❌ |
-t 、--thread |
要使用的线程数,如不指定默认是10 | ❌ |
-s 、--safe |
如果被服务器拒绝可以打开此选项,将强制单线程,并增加请求和下载的间隔时间 | ❌ |
python3 -m pip install documentDownloader
安装完成后即可直接使用 documentDownloader
命令
如:documentDownloader -u https://max.book118.com/html/2020/0109/5301014320002213.shtm -o '单身人群专题研究报告-2019' -p http://127.0.0.1:1080 -f -t 20
克隆该项目,或在releases页面选择版本下载
- 安装Python3
- 安装依赖模块(Pillow、reportlab、requests)
python -m pip install -r requirements.txt
- 使用
python3 main.py
执行
如:python main.py -u https://max.book118.com/html/2020/0109/5301014320002213.shtm -o '单身人群专题研究报告-2019' -p http://127.0.0.1:1080 -f -t 20
仅供学习爬虫及相关知识,请支持正版图书
虽然book118上的好多pdf也是盗版吧