sitecopy is a tool that facilitates personal website backup and network data collection
sitecopy is a tool that facilitates personal website backup and network data collection
网站复制,也可称为网站备份。是通过工具将网页上的内容全部保存下来。当然不仅仅只是保存了一个html页面,而是将网页源码内所包含的css、js和静态文件等全部保存,以在本地也可以完整的浏览整个网站。网络上也有一些类似的工具,但使用起来并不理想。于是自己写一个Python脚本,方便个人对网站的备份,也方便一些网络资料的收集。
关于SiteCopy的开发记录:论如何优雅的复制一个网站的所有页面
对互联网任何网站的复制需在取得授权后方可进行,若使用者因此做出危害网络安全的行为后果自负,与作者无关,特此声明。
Python版本: 3.7
安装依赖库:
pip3 install -r requirements.txt
python sitecopy.py -u "http://www.threezh1.com"
python sitecopy.py -u "http://www.threezh1.com" -e
python sitecopy.py -s "site.txt"
python sitecopy.py -s "site.txt" -e
指定链接爬取的循环次数: -d (默认为200)
指定线程数:-e (默认为30)
例子: 爬取 www.threezh1.com 网站所有页面,指定链接爬取的循环次数为200,指定线程数为30
python sitecopy.py -u "http://www.threezh1.com" -e -d 200 -t 30
运行截图:
目录截图:
页面截图:
非常希望能够和师傅们共同交流对这些问题的解决方式,我的邮箱:[email protected]