您的位置: 首页 > 新闻资讯 > 正文

动态IP如何帮助爬虫爬取网易社会新闻内容

发布时间:2019-04-22 17:28:19 来源:互联网

  网上每天都有大量的新闻内容出现,如何快速获取这些内容呢?今天黑洞代理IP就为大家分享一下,爬取是如何爬取网易的社会新闻内容的。首先我们可以先打开目标页面,右键检查,查找我们需要的内容。这里我们主要抓取新闻标题、链接和新闻内容。

动态IP如何帮助爬虫爬取网易社会新闻内容

  代码如下:

  import re

  from urllib import request

  from bs4 import BeautifulSoup

  def download(title, url):

  req = request.urlopen(url)

  res = req.read()

  soup = BeautifulSoup(res,'lxml')

  #print(soup.prettify())

  tag = soup.find('div',class_='post_text')

  #print(tag.get_text())

  title = title.replace(':','')

  title = title.replace('"','')

  title = title.replace('|','')

  title = title.replace('/','')

  title = title.replace('\\','')

  title = title.replace('*','')

  title = title.replace('<',' title="title.replace('">','')

  title = title.replace('?','')

  #print(title)

  file_name = r'E:\code\python\spider_news\sociaty\\' +title + '.txt'

  file = open(file_name,'w',encoding = 'utf-8')

  file.write(tag.get_text())

  if __name__ == '__main__':

  urls = ['http://temp.163.com/special/00804KVA/cm_shehui.js?callback=data_callback',

  'http://temp.163.com/special/00804KVA/cm_shehui_02.js?callback=data_callback',

  'http://temp.163.com/special/00804KVA/cm_shehui_03.js?callback=data_callback']

  for url in urls:

  #url = 'http://temp.163.com/special/00804KVA/cm_shehui_02.js?callback=data_callback'

  req = request.urlopen(url)

  res = req.read().decode('gbk')

  #print(res)

  pat1 = r'"title":"(.*?)",'

  pat2 = r'"tlink":"(.*?)",'

  m1 = re.findall(pat1,res)

  news_title = []

  for i in m1:

  news_title.append(i)

  m2 = re.findall(pat2,res)

  news_url = []

  for j in m2:

  news_url.append(j)

  for i in range(0,len(news_url)):

  #print(news_title[i],news_body[i])

  download(news_title[i],news_url[i])

  print('正在爬取第' + str(i) + '个新闻',news_title[i])

  通过上述代码,我们就可以获取到网易社会新闻的相关内容了。黑洞代理IP为您提供安全稳定、高效便捷的爬虫代理IP服务,更多问题请点击官网咨询客服。


相关文章内容简介

1 动态IP如何帮助爬虫爬取网易社会新闻内容

  网上每天都有大量的新闻内容出现,如何快速获取这些内容呢?今天黑洞代理IP就为大家分享一下,爬取是如何爬取网易的社会新闻内容的。首先我们可以先打开目标页面,右键检查,查找我们需要的内容。这里我们主要抓取新闻标题、链接和新闻内容。  代码如下:  import∵re  from∵urllib∵import∵request  from∵bs4∵import∵BeautifulSoup  def∵download... [阅读全文]

最新标签

在线咨询
大客户经理
大客户经理
13318873961

大客户经理微信

微信公众号

微信公众号

回到顶部