导入mode,import与from…import的不同之处在于,简单说: 如果你想要直接输入argv变量到你的程序中而每次使用它时又不想打sys, 则可使用:from sys import argv 一般说来,应该避免使用fr…
Python 字符串前面加'r'
在Python的string前面加上‘r’, 是为了告诉编译器这个string是个raw string,不要转意backslash ‘\’ 。 例如,\n 在raw string中,是两个字符,\和n, 而不会转意为…
python 几种网页解析器
正则表达式——字符串形式的模糊匹配 html.parser——结构化解析 Beautiful Soup——结构化解析 lxml——结构化解析 python的网页解析器:正则表达式(文档复杂,比较复杂)、HTML.parser、Beautif…
简单爬虫架构
爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况 URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器” 网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器” 网页解析…
mac install python scrapy
xcode-select --install ruby -e "$(curl -fsSL https://raw.githubusercontent.com/Homebrew/install/master/install)" brew se…
AttributeError: 'module' object has no attribute 'whois'
wrong library, solution is to remove old one and install new - pip uninstall whois && pip install python-whois &…
python识别网站所用技术
构建网站所使用的技术类型也会对我们如何爬取产生影响。有一个十分有用的工具可以检查网站构建的技术类型一builtwith模块。该模块的安装方法如下。 pip install builtwith 该模块将URL作为参数,下载该URL并对其进行分…
如何在win7下安装python包工具pip
1.在安装pip前,请确认你win系统中已经安装好了python,和easy_install工具,如果系统安装成功,easy_install在目录C:\Python27\Scripts 下面, 确认截图如下: 2.进入命令行,然后把目录切换…