观后小结:技术演讲 - WebCrawling and Metadata Extractors - Andrew Montalenti

演讲内容摘要:

Web crawling is a hard problem and the web is messy. There is no shortage of semantic web standards -- basically, everyone has one. How do you make sense of the noise of our web of billions of pages?

This talk presents two key technologies that can be used: Scrapy, an open source & scalable web crawling framework, and Mr. Schemato, a new, open source semantic web validator and distiller.

演讲视频在 vimeo 上,幻灯片可以看 Speaker Deck 上的,或者浏览器直接打开这儿。幻灯片是用 reSTS5 制作的,源码在 github 上。

演讲者是 Andrew Montalenti, co-founder/CTO of Parse.ly

个人观后小结:

  • 他对三个页面抓取相关的动词之间区别的理解:Crawling, Spidering, Scraping
  • Parse.ly 有大于 1TB 的生产数据是放在内存中的
  • 开发和测试环境使用 Scrapy Cloud,生产环境使用 Rackspace Cloud
  • 现场演示如何基于 Scrapy 定制爬虫
  • 演示了他们是怎么使用 Scrapy Cloud
  • 介绍了他们的开源项目:Schemato - the unified validator for the next generation of metadata

作者:czhang

原文链接:http://jianshu.io/p/CFP7Gx

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 136,309评论 19 139
  • 我承认我是个自私的人 当我看到我在乎的人对别人也像对我这般好甚至更加时 我会难过会生气 朋友也好爱人也罢 我承认我...
    哀慕熙荣阅读 160评论 2 1
  • 弘丹参考的是傅佩荣老师的《人能弘道-傅佩荣谈论语》,绿窗幽梦参考的是朱熹的《四书章句集注》,由弘丹整理。 小编会每...
    弘丹阅读 1,253评论 3 10
  • 简介 UIView 对象有一个 transform 属性,该属性可以使控件产生移动、缩放、旋转效果,其坐标系统采用...
    小白进城阅读 349评论 0 0
  • 前言# 首先声明一点,破解他人软件是违法行为,本篇文章仅供技术交流! 应朋友之邀,写一篇关于android反编译入...
    美猴王丶阅读 18,463评论 1 20

友情链接更多精彩内容