您的位置：首页 > 新闻资讯 > 正文

数据来源于哪里？爬虫怎么采集数据？

发布时间：2018-12-10 15:18:58 来源：互联网

很多企业的决策往往是根据数据决定的，那么这些数据来源于哪里？大家都知道爬虫可以大量的采集数据，那么爬虫怎么采集数据，如果获得大量的数据呢？这些数据都是公开的吗？下面跟黑洞代理一起去了解一下关于数据的一些问题。

timg (23).jpg

一、数据来源于哪里

1.公开数据

如统计局、工商行政、知识产权、银行证券等公开信息和数据。

2.爬虫爬取

使用爬虫技术，进行网页爬取，或通过公开和非公开的接口调用，获得数据。

3.用户数据

如 BAT 等公司，拥有大量用户，每天用户都会产生海量的原始数据。

另外还包括 PGC （专业生产内容）和 UGC （用户生产内容）数据，如新闻、自媒体、微博、短视频等等。

4.数据交换

不同公司间进行数据交换，彼此进行数据补全。

5.第三方购买

市场上有很多产品化的数据库，包括商业类和学术类，如 Bloomberg、 CSMAR、 Wind、知网等等，一般以公司的名义购买数据查询权限，比如咨询公司、高等院校、研究机构都会购买。

6.窃取数据

通过内鬼渠道获取其他公司用户数据，或者利用黑客等非常规手段，通过定制入侵获取数据或地下黑市购买其他公司数据。此处内鬼泄漏远多于黑客窃取。

二、爬虫怎么采集数据

1.分析需求

首先要预估这个网址的数据量大小，然后去明确采集哪些数据，有没有必要去把目标网站的数据都采集下来，因为采集的数据量越多，耗费的时间就越多，需要的资源就越多，对目标网站造成的压力就越大，数据采集工程师不能为了采集数据，对目标网站造成太大的压力。原则是尽量少采集数据来满足自己的需求，避免全站采集。

2.编写代码

因为要采集的网站数据很多，所以要求编写的代码做到稳定运行一周甚至一个月以上，所以代码要足够的健壮，足够的强悍。一般要求做到网站不变更模板，程序能一直执行下来。这里有个编程的小技巧，我认为很重要，就是代码编写好以后，先去跑一两个小时，发现程序的一些报错的地方，修改掉，这样的前期代码测试，能保证代码的健壮性。

3.数据存储

当数据量有三五千万的时候，无论是MySQL还是Oracle还是SQL Server，想在一个表里面存储，已经不太可能了，这个时候可以采用分表来存储。数据采集完毕，往数据库插入的时候，可以执行批量插入等策略。保证自己的存储不受数据库性能等方面的影响。

上文详细的介绍了数据来源于哪里，爬虫怎么采集数据的问题。现在大数据时代，许多企业都需要采集数据，但是建议在采集数据时，适当控制，以免对目标网站造成了dos攻击。