星期三, 2015-05-27 16:10 — adminshiping1

Drupal采集模块介绍

By g089h515r806 on 21 9月 2014

想用Drupal采集插件，可以先下载一下亚艾元Drupal采集器发行版，装起来，就能用，里面有一个详细的文档。亚艾元Drupal采集器，采用标准的Drupal模块，完全开源，只不过为了支持中文采集，对模块个别地方坐了修改。
我们这里介绍一下，亚艾元Drupal采集器里面，用到的与采集相关的模块插件：

1， Feeds模块，这个是主模块，它是用来导入数据，开始是收割RSS数据，后来发展为导入各种数据，再后来，我们发现，基于这个模块，可以用来采集网页信息。
2， job_scheduler模块，这个是Feeds模块依赖的插件，采集时的任务调度，很多时候需要依赖于这个模块。
3， feeds_tamper模块，这个模块，用来在导入数据的时候，对数据进行预处理、也就是清理工作，非常好用的帮助模块。采集网页数据时，必备模块。
4， feeds_xpathparser模块，这个模块使得我们可以使用Xpath规则，解析数据，网页采集过来的数据，是HTML格式的，需要使用Xpath规则解析。这个也是必备模块之一。
5， feeds_crawler模块，这是一个小爬虫，方便采集各种分页列表，非常好用，网页抓取必备模块。
6， feeds_smartparser模块，从HTML页面中，智能提取全文，网页采集必备模块之一。
7， feeds_selfnode_processor模块，采集过来的节点本身，还是一个Feed种子，通过HTTP请求，抓取更详细的信息，完善自身节点，网页采集必备模块之一。
8， Views/Ctools views data export，将网页采集过来的数据，导出成各种格式，支持XML，CSV，Excel。
9， feeds_spider模块，采集蜘蛛，类似于feeds_crawler，网页采集模块之一。

相信熟悉使用了上述模块以后，即便是不使用亚艾元Drupal采集器，大家也能够搭建出来自己的采集网站。
亚艾元Drupal采集器，就是基于上述的标准模块构建出来，结合我们的实际经验，做了有益的总结与归纳。

来自 http://www.thinkindrupal.com/node/5307

3.1日下午，在北京成功举办了一次Drupal聚会，参与人数很多，看来大家对数据的抓取及整合都非常有兴趣。

老葛介绍了历年给中华书局、高能物理所抓取RSS信息、外语研究出版社图书信息共享以及抓取京东图书信息的心得体会。可以看出drupal在数据的抓取、处理、整合及共享方面功能越来越强大。

老葛重点介绍FeedAPI,Feeds,FeedsCrawler, Feeds Spider, Feeds Self Node processor,XML,Xpath, Feeds Smart Parser，job scheduler的具体应用。并把抓取流程及注意事项等做了相关介绍。其中https://drupal.org/project/feeds_smartparser(link is external) 是老葛贡献的，赞一下。

崔克俊介绍了赵高欣基于Drupal做的社交问答网站Drupal大学，http://drupal001.net(link is external)，欢迎大家注册，邀请码请给113017582@qq.com(link sends e-mail)发信要。

于志成介绍了他马上就要上线的采集Drupal官方网站模块，并增加汉化翻译，功能汇总整合的Drupalproject项目，非常炫，令人耳目一新，即将上线，敬请期待。

初步定于4月初再举办一次聚会，征集聚会话题，欢迎交流分享。

联系人崔克俊 cuikejun@qq.com(link sends e-mail) 手机13681445347 13381113196 QQ:372948992

来自 http://drupalchina.cn/node/2578

普通分类:

drupal

You are here

Drupal采集模块介绍

Drupal采集模块介绍

友情链接

搜索表单

用户登录

You are here

Drupal采集模块介绍

Drupal采集模块介绍

友情链接