我想,我会架一支鱼竿,独钓岁月那一边的故事。

python 几种网页解析器

正则表达式——字符串形式的模糊匹配 html.parser——结构化解析 Beautiful Soup——结构化解析 lxml——结构化解析 python的网页解析器:正则表达式(文档复杂,比较复杂)、HTML.parser、Beautif…

简单爬虫架构

爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器” 网页解析…