隔离期间全民学爬虫之python-安装环境(一)
隔离期间学习python-安装环境(一)
终极目标是想通过python爬我自己的博客网站,并将内容数据化,保存到数据库
我的电脑是macbook,我的python就安装在我的mac上
python安装
用homebrew安装:
brew install python
检验一下:
python --version
通过homebrew这种方式安装的python3,命令行输入python
没反应,但输入python3
有反应的,需要去你电脑:/usr/local/bin
目录里将python3文件重命名为python就ok了
安装好python以后,需要搭建爬虫环境。
python语法什么的,这些就不写了,就分享一些比较好的论坛吧:
- python 官网: https://www.python.org/downloads/
- python中文社区:https://learnku.com/python
- python学习论坛:https://www.pythontab.com/
爬虫环境搭建
准备爬虫环境,其实基本上是python的第三方库。
基本上有:
- pip:python包管理器
- wheel python特定包装包支持工具
- requests 网络请求库-同步,aiohttp-异步
- 自动化测试工具:Selenium,可驱动浏览器执行特定动作,需要各厂家的浏览器驱动支持
- PhamtomJS WebKit浏览器引擎,配合Selenium使用,后台模拟浏览器打开操作
- 网页解析库 lxml、Beautiful Soup、pyquery等
- 光学字符识别验证码识别库–tesserocr+图片处理神器–imagemagick
网络库安装
先安装一个python包管理器—pip3(源码安装)
curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
python get-pip.py
安装完成,验证一下pip3是否安装成功:
pip3 -V
我们用python包管理器安装requests库:
pip3 install requests
提示超时:
因为我天朝GFW原因,无法访问。
换个镜像源吧:
https://cloud.tencent.com/developer/article/1520882
mkdir -p ~/.pip
touch ~/.pip/pip.conf
写入:
[global]
timeout = 6000
index-url = https://mirrors.aliyun.com/pypi/simple/
trusted-host = mirrors.aliyun.com
再次安装:
pip3 install requests
光速!!
由于requests库只支持同步请求,所以还得安装一个异步支持的网络请求包:
pip3 install aiohttp
wheel 安装
pip3 install wheel
它是一种后缀为.whl
的安装包支持工具
自动化测试工具Selenium安装
pip3 install selenium
Selenium只是个自动化驱动,它还需要各自厂家浏览器的内核驱动,我电脑上默认用的是chrome,所以,要安装ChromeDriver。
下载地址:
https://chromedriver.chromium.org/downloads
将下载下来的可执行文件移动到环境变量所在目录里:
mv chromedriver /usr/local/bin
然后测试一下:
返回这些说明配置成功了。
安装PhantomJS
这个不能通过brew或者pip3安装了,这个和chromedriver一样,是个可执行文件,安装方式也是一模一样。
下载地址:https://phantomjs.org/download.html
把文件下载好后,解压,移动到path记录过的目录里:
mv phantomjs /usr/local/bin
然后测试一下是否ok:
安装网页解析器
pip3 install lxml
安装验证码识别库
验证码识别库tesserocr:
pip3 install tesserocr
安装图片处理神器:
pip3 install imagemagick
完结
到这里,爬虫环境基本已经搭建完成了,下期将用一个小例子在这个环境上运行,去爬我们想要的东西。