也说不上是原创吧,根据网络的一些文章来整理自己可以用的资料

参考链接:

基本步骤(主要参考链接):

https://github.com/bowenpay/wechat-spider

1)python环境, 检查python的版本

如果是centos 7.x,默认就是python2.7(64位),

http://www.xitongzhijia.net/linux/201603/69219.html

包括下载和详细安装步骤。

 

这个版本有点不稳定,锁屏或者重启之后就会变黑屏----
----如果已经黑屏了就Ctrl+Alt+F2,进入到命令界面,输入yum upgrade(需要比较长的时间,且需要联网)进行系统更新,更新完后一定要reboot重启虚拟机就可以。返回正常的图形界面,正常使用。

2)安装依赖包, clone代码 安装Mysql-python依赖

yum install python-devel mysql-devel gcc

安装lxml依赖

yum install libxslt-devel libxml2-devel

安装浏览器环境 selenium依赖.(如果是mac环境,仅需安装firefox, 但确保版本是 firefox 36.0,使用最新的版本会报错)

  1. yum install xorg-x11-server-Xvfb
  2. yum upgrade glib2 # 确保glib2版本大于2.42.2,否则firefox启动会报错
  3. yum install firefox # centos下安装最新的firefox版本

clone代码,安装依赖python库

(要先安装俩个工具Pip–https://zhidao.baidu.com/question/1240554972151163659.html

和git—$yum install -y git)

  1. $ git clone https://github.com/bowenpay/wechat-spider.git
  2. $ cd wechat-spider
  3. $ pip install -r requirements.txt

3) 创建mysql数据库(首先要查看mysql是否安装,如果没有http://www.mamicode.com/info-detail-503994.html)

—-可以先用mysql -V查看版本(注意V是大写的)

—-可能会提示Can’t connect to local MySQL server through socket

–(http://www.aiezu.com/db/mysql_cant_connect_through_socket.html)

—-输入service mysqld status查看mysql状态,如果没有打开则输入service mysqld start进行开启。

创建数据库wechatspider,默认采用utf8编码。(如果系统支持,可以采用utf8mb4,以兼容emoji字符)

 

$mysql 
mysql> CREATE DATABASE `wechatspider` CHARACTER SET utf8mb4;

4) 安装和运行Redis

$ wget http://download.redis.io/releases/redis-2.8.3.tar.gz
$ tar xzvf redis-2.8.3.tar.gz
$ cd redis-2.8.3
$ make
$ make install
$ redis-server

5) 更新配置文件local_settings

在 wechatspider 目录下,添加 local_settings.py 文件,配置如下:

  1. # -*- coding: utf-8 -*-
  2. SECRET_KEY=“xxxxxx”
  3. CRAWLER_DEBUG = True
  4. # aliyun oss2, 可以将图片和视频存储到阿里云,也可以选择不存储,爬取速度会更快。 默认不存储。
  5. #OSS2_ENABLE = True
  6. #OSS2_CONFIG = {
  7. # “ACCESS_KEY_ID”: “XXXXXXXXXXXXXX”,
  8. # “ACCESS_KEY_SECRET”: “YYYYYYYYYYYYYYYYYYYYYY”,
  9. # “ENDPOINT”: “”,
  10. # “BUCKET_DOMAIN”: “oss-cn-hangzhou.aliyuncs.com”,
  11. # “BUCKET_NAME”: “XXXXX”,
  12. # “IMAGES_PATH”: “images/”,
  13. # “VIDEOS_PATH”: “videos/”,
  14. # “CDN_DOMAIN”: “XXXXXX.oss-cn-hangzhou.aliyuncs.com”
  15. #}
  16. # mysql 数据库配置
  17. DATABASES = {
  18. ‘default’: {
  19. ‘ENGINE’: ‘django.db.backends.mysql’,
  20. ‘HOST’: ’127.0.0.1′,
  21. ‘NAME’: ‘wechatspider’,
  22. ‘USER’: ‘root’,
  23. ‘PASSWORD’: ,
  24. ‘OPTIONS’:{
  25. ‘charset’: ‘utf8mb4′,
  26. },
  27. }
  28. }
  29. # redis配置,用于消息队列和k-v存储
  30. REDIS_OPTIONS = {
  31. ‘host’: ‘localhost’,
  32. ‘port’: 6379,
  33. ‘password’: ,
  34. ‘db’: 4
  35. }

6) 初始化表

$ python manage.py migrate

7)启动网站

python manage.py runserver 0.0.0.0:8001

访问 http://localhost:8001/(说明可以连上了,因为我们还没创建账户密码,所以还不能访问,下面就是创建账户密码)

6) 创建超级管理员账号,访问后台,并配置要爬取的公众号和关键字,通过链接可以创建登录的账户密码

python manage.py createsuperuser-----http://jingyan.baidu.com/article/f71d6037770a7b1ab641d1b6.html
创建完后,在登录之前的 http://localhost:8001/,再输入设置的账户密码就可以了。下面是最终效果:

https://blog.csdn.net/ksx_120999/article/details/53221046