入门

几个库

Requests:自动爬取HTML页面,自动网络请求提交

robots.txt:网络爬虫排除标准

Beautiful Soup:解析HTML页面

Scrapy:爬虫框架

采用Python 3.x系列版本

网络爬虫尺寸