抓取 网站所有页面内容, 例如http://spark.apache.org/
通过Spark 读取词频
分析常见词出现频率
背诵单词表,查阅相关文档无障碍
步骤
抓取网页 存到hdfs中
读取hdfs文章、清洗<HTML>标签
统计词频
生成单词表
对比 计算机专业单词表
抓取 网站所有页面内容, 例如http://spark.apache.org/
通过Spark 读取词频
分析常见词出现频率
背诵单词表,查阅相关文档无障碍
步骤
抓取网页 存到hdfs中
读取hdfs文章、清洗<HTML>标签
统计词频
生成单词表
对比 计算机专业单词表