大数据时代4

谷歌的翻译之所以更好并不是因为它拥有一个更好的算法机制。和微软的班科和布里尔一样，这是因为谷歌翻译增加了很多各种各样的数据。从谷歌的例子来看，它之所以能比IBM的Candide系统多利用成千上万的数据，是因为它接受了有错误的数据。2006年，谷歌发布的上万亿的语料库，就是来自于互联网的一些废弃内容。这就是“训练集”，可以正确地推算出英语词汇搭配在一起的可能性。

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

读书笔记——《大数据时代》(4)
数据的价值包含首要价值和潜在价值。过去，一旦数据的基本用途实现了，我们便认为数据已经达到了它的目的，准备将其删除，...
whybask阅读 369评论 0赞 0
[3/4]我所经历的大数据平台发展史（三）：互联网时代 • 上篇
//我所经历的大数据平台发展史（三）：互联网时代 • 上篇http://www.infoq.com/cn/arti...
葡萄喃喃呓语阅读 51,422评论 10赞 200
Dr.Elephant源码分析--MapReduce
Job日志 mapred-site.xml配置任务执行日志路径(hdfs) 作业启动时，hadoop会将作业信息放...
炮灰向前冲啦阅读 1,525评论 0赞 3
愿你也能有个一起变老的红颜知己
王小五和我我不知道此刻在看这篇文章的朋友，你们有没有一个交心的知己？她真心为你，在她心里，你是她的亲人。你开心时...
九蹬阅读 441评论 2赞 1
记忆时光机
一这是H市的冬天，漫天的雪带着寒冷的温度扑面而来，我能感觉到我马上就要变成其中一片。很多人都说雪很美，是一种...
很奇葩的三番阅读 545评论 0赞 5

赞1赞

赞赏

手机看全文