欢迎各位兄弟 发布技术文章
这里的技术是共享的
想用Drupal采集插件,可以先下载一下亚艾元Drupal采集器发行版,装起来,就能用,里面有一个详细的文档。亚艾元Drupal采集器,采用标准的Drupal模块,完全开源,只不过为了支持中文采集,对模块个别地方坐了修改。
我们这里介绍一下,亚艾元Drupal采集器里面,用到的与采集相关的模块插件:
1, Feeds模块, 这个是主模块,它是用来导入数据,开始是收割RSS数据,后来发展为导入各种数据,再后来,我们发现,基于这个模块,可以用来采集网页信息。
2, job_scheduler模块,这个是Feeds模块依赖的插件,采集时的任务调度,很多时候需要依赖于这个模块。
3, feeds_tamper模块,这个模块,用来在导入数据的时候,对数据进行预处理、也就是清理工作,非常好用的帮助模块。采集网页数据时,必备模块。
4, feeds_xpathparser模块,这个模块使得我们可以使用Xpath规则,解析数据,网页采集过来的数据,是HTML格式的,需要使用Xpath规则解析。这个也是必备模块之一。
5, feeds_crawler模块,这是一个小爬虫,方便采集各种分页列表,非常好用,网页抓取必备模块。
6, feeds_smartparser模块,从HTML页面中,智能提取全文,网页采集必备模块之一。
7, feeds_selfnode_processor模块,采集过来的节点本身,还是一个Feed种子,通过HTTP请求,抓取更详细的信息,完善自身节点,网页采集必备模块之一。
8, Views/Ctools views data export,将网页采集过来的数据,导出成各种格式,支持XML,CSV,Excel。
9, feeds_spider模块,采集蜘蛛,类似于feeds_crawler,网页采集模块之一。
相信熟悉使用了上述模块以后,即便是不使用亚艾元Drupal采集器,大家也能够搭建出来自己的采集网站。
亚艾元Drupal采集器, 就是基于上述的标准模块构建出来,结合我们的实际经验,做了有益的总结与归纳。
来自 http://www.thinkindrupal.com/node/5307
3.1日下午,在北京成功举办了一次Drupal聚会,参与人数很多,看来大家对数据的抓取及整合都非常有兴趣。
老葛介绍了历年给中华书局、高能物理所抓取RSS信息、外语研究出版社图书信息共享以及抓取京东图书信息的心得体会。可以看出drupal在数据的抓取、处理、整合及共享方面功能越来越强大。
老葛重点介绍FeedAPI,Feeds,FeedsCrawler, Feeds Spider, Feeds Self Node processor,XML,Xpath, Feeds Smart Parser,job scheduler的具体应用。并把抓取流程及注意事项等做了相关介绍。其中https://drupal.org/project/feeds_smartparser 是老葛贡献的,赞一下。
崔克俊介绍了赵高欣基于Drupal做的社交问答网站Drupal大学,http://drupal001.net,欢迎大家注册,邀请码请给113017582@qq.com发信要。
于志成介绍了他马上就要上线的采集Drupal官方网站模块,并增加汉化翻译,功能汇总整合的Drupalproject项目,非常炫,令人耳目一新,即将上线,敬请期待。
初步定于4月初再举办一次聚会,征集聚会话题,欢迎交流分享。
联系人崔克俊 cuikejun@qq.com 手机13681445347 13381113196 QQ:372948992
来自 http://drupalchina.cn/node/2578