从火箭少女101（创造101）了解爬虫——先导篇 - 小程的研发日常

从火箭少女101（创造101）了解爬虫——先导篇

2018/08/12

在追《创造101》时，因嫌看数据太麻烦做了【创造101成员网络数据】，在《创造101》结束后，抽时间做了【火箭少女101数据中心】，有很多小伙伴问我一些相关的问题，为了不让自己每次重复回答，所有准备写这一个系列的文章。当然啦，其实这个东西十分简单，我也琢磨着怎么下笔才能产生内容。但在此之前，我需要说明的是：

一般而言我们需要遵守网站的robots协议，该协议在域名的根目录下通过 http://xxx.com/robots.txt 的形式访问。这个文件告诉了爬虫什么目录可以访问，什么目录不可以访问。但遗憾的是，有可能你需要访问的数据在这个文件禁止访问的行列里，这个时候就不必遵循了......

但做为一个有节操的爬虫作者，你应该严格控制爬虫获取数据的节奏，高并发的请求会给服务器带来巨大的压力和占用大量带宽，虽然服务器有相关防范措施，但我们也需要掌握好这个度，不然IP可能会被BAN。

整体结构

文章分为三大部分：

从火箭少女101（创造101）了解爬虫——前端篇
从火箭少女101（创造101）了解爬虫——爬虫篇
从火箭少女101（创造101）了解爬虫——后端篇

前端篇大致分为DOM，正则相关。
爬虫篇大致分为Node爬虫及Python爬虫。
后端篇大致分为服务器、数据库、Nginx、CDN、接口相关。

需要说明的是，因为我本身是一个前端，所以JavaScript一把梭，那么正因如此，Node在这个里面是不可缺的一部分。那么下面也说说这个系列文章所用的技术栈。

前端：Vue、Echarts
爬虫：Node.js（request及puppeteer）
后端：Koa2
服务器：CentOS
数据库：MySQL

当然，这个系列文章默认你已将基本掌握了HTML、CSS、JavaScript、Python，如果你是新人，那么这个系列文章可能不适合你，建议先了解以下相关内容：《JavaScript教程》、《CSS教程》、《HTML教程》、《简明 Python 教程》，因为本系列文章所有示例都是使用ES6，所以你得基本会使用《ES6标准入门》。

Node Linux 爬虫

程哲林

程哲林