
qq:800819103
在线客服,实时响应
qq群
在线客服,实时响应
客服电话
13318873961如何打造c#爬虫框架
一 ,为什么要造轮子
有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求,大多是JAVA,PYTHON甚至于还有NODEJS,C++,再或者在开源中国查询C#的爬虫,仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说,单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,另根据我多年的开发经验大多爬虫性能瓶颈在并发下载(网速)、IP池,因此我认为用C#写一个爬虫框架绝对是可行的,那么为什么我大.NET没有一个强大的爬虫框架呢?说真的我不知道,可能爬虫框架核心上比较简单而没有被大牛看上,也可能.NET的开发人员没有别的语言的开发人员勤奋,或是.NET的开源氛围没有别的语言高。随着.NET开源消息的公布,我觉得是时候开发一个跨平台,跨语言的爬虫框架了。我不喜欢复杂的东西,总是觉得复杂的东西容易出问题,可能跟我个人能力有限,驾驭不了有关。所以设计DotnetSpider的时候是参考JAVA下一个轻量级爬虫框架webmagic,但是肯定有我自己的理解和改进在内的。
二 ,框架设计
其实爬虫的设计我觉得还是挺成熟的,大部分都会拿出下图来说事,由于我是参考的webmagic,所以也少不得得贴上来给大家一看(图片是直接从webmagic上拿的)
Scheduler:负责URL的调度,可以实现如Queue, PriorityScheduler, RedisScheduler(可用于分布式)等等
Downloader: 负责下载HTML,可以实现如HttpDownloader, 浏览器的Downloader(WebDriver), FiddlerDownloader,本地文件Downloader等等
PageProcesser: 负责HTML解析及新的符合规则的URL解析,从上图可以看到传入Processer的是Page对象,里面包含了下载好的完整HTML或者JSON数据
Pipeline: 负责数据的存储, 可以实现如MySql, MySqlFile,MSSQL,MongoDb等等
三 ,与别的爬虫的差异
使用JSON定义爬虫,所以可以最终实现跨语言(不同语言只要写一个JSON转换的provider就好)
由于使用JSON做解析,所以可以实现类中属性是别的类的情况(仅限MongoDB, 关系型数据库不好存这种数据)\
自动建表
有.NET CORE版本,因此可以跨平台(已经在LINUX下运行大量任务了)
有感于IP代理的不稳定性,因此代理模块没有细致测试使用,而是实现了另一种换IP手段(ADSL拨号)
加入基本的数据验证模块
四 ,最基本使用方法
最基本的使用方法是不需要引用Extension, 引用Common, Core, JLog就好,然后需要你自己实现IPipeline和Processer
使用我们的代理云有哪些优势?
1分布式代理IP数万代理IP节点分布全国各个省市,IP段无重复。
2支持多线程高并发使用。
3家庭宽带线路所有资源均来自家庭宽带终端,IP绿色纯净,适用所有项目。
4多项使用授权使用代理IP时需要用户名密码或IP白名单绑定,后台自由切换。
5长效+HTTPS所有代理IP支持HTTPS协议,使用无需客户端支持,代理IP平均使用时长高达4小时
相关文章内容简介
1 如何打造c#爬虫框架
如何打造c#爬虫框架 一∵,为什么要造轮子 有兴趣的同学可以去各大招聘网站看一下爬虫工程师的要求,大多是JAVA,PYTHON甚至于还有NODEJS,C++,再或者在开源中国查询C#的爬虫,仅有几个非常简单或是几年没有更新的项目。从我看的一些文章来说,单纯性能上.NET对比JAVA,PYTHON并没有处于弱势,另根据我多年的开发经验大多爬虫性能瓶颈在并发下... [阅读全文]
最新标签
推荐阅读
22
2019-01
哪些方法可以让自己网站排名靠前
影响网站排名的因素非常多,今天小编从SEO优化方面有讲下哪些方法可以让自己网站排名靠前。很多人觉得SEO人员工作很简单,不就是发发文章链接嘛,文章还不用自己写,简单多了。
22
2019-01
关键词排名一直上不去,怎么提高关键词排名
互联网上非常多网站,但是大部分的网站数据非常差,关键词排名一直上不去,其中也有竞争激烈的原因,另外也有优化的问题,优化不专业,见效慢,很有可能没有什么效果的。
11
2019-09
如何选择IP代理软件?
如何选择IP代理软件?许多用户在需要更换IP的时候,就需要用到IP代理软件。这个时候,就需要到海量的网络软件中选择合适的软件。选择IP代理软件的时候,有很多的注意事项。首先来说,IP
16
2019-01
独立IP虚拟主机有什么优势及作用?
在网站搭建后,一般来说会选购云虚拟主机,而云虚拟主机又分成独立IP云虚拟主机和普通的云虚拟主机,那独立IP虚拟主机有哪些优点呢?下面跟着黑洞代理小编来了解一下吧!
热门文章