文章标题:$article['title'];
火车头数据采集平台二次开发SDK
发布时间:$article['dateline'];
2014-06-27 22:49:12
浏览量:$article['views'];
6796
分类链接 $article['cateurl'];
/solution
分类名称:$article['catename'];
采集方案
文章内容:echo $article['content'];

部分企业级用户咨询如何使用我们火车采集器的一些功能进行二次开发,我们提供了强大的开发SDK(火车头采集框架测试源代码.rar)。简介如下:

开发框架主要提供无限级采集模块。用户可以通过它,快速生成具有强大采集能力的采集软件。该框架包含以下功能

1.Http请求模块
a.请求下载一个网页或文件
b.提交数据到网站
c.解析源码中的图片链接
d.探测文件真实地址
2.文件下载模块
类似火车采集器运行时显示文件下载及进度的类库,可以在界面上显示,也可以不显示界面运行.
3.无限级采集功能
类似火车采集器中的无限级采集模块中的功能。标签编辑部分支持通过采集得到数据和自定义格式的数据。提取数据的方式包含前后截取,正则提取和标签组合。数据处理部分的功能如下
a.内容截取
b.纯正则替换
c.随机插入
d.HTML标签排除
e.字符串替换
f.运行C#代码
g.字符编/解码
h.智能提取时间
i.Http头信息提取
j.Http请求
k.简繁转换
l.内容添加前后缀
m.空内容缺省
n.补全单网址
o.提取第一张图片
p.将结果转化为火星文
q.自动转化为拼音
r.自动摘要

下面我来演示一下如何使用极少量的代码,来实现一个简单的采集程序。该SDK可以免费测试使用,如需要购买技术支持请联系tech@locoy.com进行咨询。

 

点击查看原图

如图,该API调用火车采集器的无限级采集设置窗口,进行任务的配置。同时可以将所有的配置保存下来。对于编辑好的任务,可以直接点击运行任务就可以运行。而这一切,只需要少量的代码就可以实现。附件中有该程序的源代码。

 

以下是sdk的文档截图

点击查看原图


Tags:$article['tag']

原文链接:$article['url'];
/article/303.html
阅读排行 $hotdata=getHotArticle(1);