文章抓取之下载图片和文件

来源:未知 责任编辑:责任编辑 发表时间:2015-01-01 13:17 点击:

来到新公司后第一个任务就是让我给编辑部的人抓文章,文章抓取工具公司已经开发了一个,我也就直接拿来用了,结果用的很不习惯,操作太繁琐里面的代码逻辑也是比较混乱。所以我就大刀阔斧对它进行了一番修改。我主要还是希望能使这个工具尽量的通用一些,虽说各个网站都不一样,但抓了几天后还是发现有些共同的东西的。通过设置各个元素的xpath表达式,基本可以解决大部分的网站抓取。

1.抽取出文章列表的标题链接 ,一般的标题链接都是放在ul或者是div里面的a标签,而这些ul和div往往都会设置一个class属性,于是文章的xpath一般可以设置://div[@class='title']

2.列表页都是会有分页的,通过设置起始页和末页的大小,进行一个循环即可

3.根据上面的文章链接获取内容的链接后,就可以发出一个http请求获取正文部分,正文部分如果是文本还是比较好解决,最多的要求就是去掉每个网站的广告。运气好些你会碰到一些仁慈点的网站,广告所在的元素会有一些明显的特征,如加了id或是class属性,这样就可以设置要过滤的节点来进行过滤

4.暂时还在想...............

 最后要讲讲文章正文部分不单单是文本呢,有图片的,甚至还有下载资料(如rar,zip压缩包)的 怎么办。起初工具里是可以支持下载图片的,而且我发现它使用的是WebClient 实现文件下载的。如果下载地址是绝对定位的形式可以下载。如果图片是根据参数动态生成的就麻烦了,会报Uri格式错误。

最后下载的实现大概这样:

1             Stream stream = _response.GetResponseStream(); 
2             FileStream fs = new FileStream(filePath + fileName, FileMode.Create); 
3  
4             //1kb下载 
5             //byte[] _buffer=new byte[1024]; 
6             //int count = stream.Read(_buffer, 0, _buffer.Length); 
7             //while (count > 0) 
8             //{
9             //    fs.Write(_buffer, 0, _buffer.Length);
10             //    count = stream.Read(_buffer, 0, _buffer.Length);
11             //}
12 
13             //fs.Flush();
14             //fs.Close();
15             //stream.Close();
16             
17             //逐字节下载
18             int size;
19             while ((size = stream.ReadByte()) != -1)

发表评论
请自觉遵守互联网相关的政策法规,严禁发布色情、暴力、反动的言论。
用户名: 验证码:点击我更换图片
最新评论 更多>>

推荐热点

  • 浅析.NET下XML数据访问新机制
  • asp.net 面试+笔试题目第1/2页
  • C# 邮件地址是否合法的验证
  • asp.net 设置GridView的选中行的实现代码
  • C#高级编程:数据库连接[1]
  • 经典C++程序1
  • IIS 自动回收导致后台定时器失效的问题解决
  • ASP.NET GridView列表代码示例
  • Asp.net MVC源码分析--Action Filter的链式调用
网站首页 - 友情链接 - 网站地图 - TAG标签 - RSS订阅 - 内容搜索
Copyright © 2008-2015 计算机技术学习交流网. 版权所有

豫ICP备11007008号-1