文章目录
  1. 1. 隔离期间学习python-安装环境(一)
    1. 1.1. python安装
    2. 1.2. 爬虫环境搭建
      1. 1.2.1. 网络库安装
      2. 1.2.2. wheel 安装
      3. 1.2.3. 自动化测试工具Selenium安装
      4. 1.2.4. 安装PhantomJS
      5. 1.2.5. 安装网页解析器
      6. 1.2.6. 安装验证码识别库
    3. 1.3. 完结

隔离期间学习python-安装环境(一)

终极目标是想通过python爬我自己的博客网站,并将内容数据化,保存到数据库

我的电脑是macbook,我的python就安装在我的mac上

python安装

用homebrew安装:

brew install python

检验一下:

python --version

paste image

通过homebrew这种方式安装的python3,命令行输入python没反应,但输入python3有反应的,需要去你电脑:/usr/local/bin 目录里将python3文件重命名为python就ok了

安装好python以后,需要搭建爬虫环境。

python语法什么的,这些就不写了,就分享一些比较好的论坛吧:

  1. python 官网: https://www.python.org/downloads/
  2. python中文社区:https://learnku.com/python
  3. python学习论坛:https://www.pythontab.com/

爬虫环境搭建

准备爬虫环境,其实基本上是python的第三方库。
基本上有:

  1. pip:python包管理器
  2. wheel python特定包装包支持工具
  3. requests 网络请求库-同步,aiohttp-异步
  4. 自动化测试工具:Selenium,可驱动浏览器执行特定动作,需要各厂家的浏览器驱动支持
  5. PhamtomJS WebKit浏览器引擎,配合Selenium使用,后台模拟浏览器打开操作
  6. 网页解析库 lxml、Beautiful Soup、pyquery等
  7. 光学字符识别验证码识别库–tesserocr+图片处理神器–imagemagick

网络库安装

先安装一个python包管理器—pip3(源码安装)

curl https://bootstrap.pypa.io/get-pip.py -o get-pip.py
python get-pip.py

安装完成,验证一下pip3是否安装成功:

pip3 -V

paste image

我们用python包管理器安装requests库:

pip3 install requests

提示超时:
paste image

因为我天朝GFW原因,无法访问。
换个镜像源吧:

https://cloud.tencent.com/developer/article/1520882

mkdir -p ~/.pip
touch ~/.pip/pip.conf

写入:

[global]
timeout = 6000
index-url = https://mirrors.aliyun.com/pypi/simple/
trusted-host = mirrors.aliyun.com

再次安装:

pip3 install requests

光速!!

由于requests库只支持同步请求,所以还得安装一个异步支持的网络请求包:

pip3 install aiohttp

wheel 安装

pip3 install wheel

它是一种后缀为.whl的安装包支持工具

自动化测试工具Selenium安装

pip3 install selenium

Selenium只是个自动化驱动,它还需要各自厂家浏览器的内核驱动,我电脑上默认用的是chrome,所以,要安装ChromeDriver。

下载地址:

https://chromedriver.chromium.org/downloads

将下载下来的可执行文件移动到环境变量所在目录里:

mv chromedriver /usr/local/bin

然后测试一下:

paste image

返回这些说明配置成功了。

安装PhantomJS

这个不能通过brew或者pip3安装了,这个和chromedriver一样,是个可执行文件,安装方式也是一模一样。

下载地址:https://phantomjs.org/download.html

把文件下载好后,解压,移动到path记录过的目录里:

mv phantomjs /usr/local/bin

然后测试一下是否ok:

paste image

安装网页解析器

pip3 install lxml

安装验证码识别库

验证码识别库tesserocr:

pip3 install tesserocr

安装图片处理神器:

pip3 install imagemagick

完结

到这里,爬虫环境基本已经搭建完成了,下期将用一个小例子在这个环境上运行,去爬我们想要的东西。

文章目录
  1. 1. 隔离期间学习python-安装环境(一)
    1. 1.1. python安装
    2. 1.2. 爬虫环境搭建
      1. 1.2.1. 网络库安装
      2. 1.2.2. wheel 安装
      3. 1.2.3. 自动化测试工具Selenium安装
      4. 1.2.4. 安装PhantomJS
      5. 1.2.5. 安装网页解析器
      6. 1.2.6. 安装验证码识别库
    3. 1.3. 完结