SNS:专指社交网络服务,包括了社交软件和社交网站,全称Social Networking Services,即“社交网站”或“社交网”。SNS也指Social Network Software,社交网络软件,是一个采用分布式技术,通俗地说是采用P2P(Peer to Peer)技术,构建的下一代基于个人的网络基础软件。
P2P是英文peer to peer lending(或peer-to-peer)的缩写,意即个人对个人(伙伴对伙伴)。又称点对点网络借款,是一种将小额资金聚集起来借贷给有资金需求人群的一种民间小额借贷模式。
Lucene:是一套用于全文检索和搜寻的开源程式库,由Apache软件基金会支持和提供
HBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统”。HBase在Hadoop之上提供了类似于Bigtable的能力。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。
算法问题:
1.图切割问题
图切割问题本质上是一个聚类问题,几乎所有聚类算法的基本思想都是相近的:给定一批数据,自动对数据进行聚类,使得聚合到同一类别的数据之间比较相似,而不同类别之间的数据差异较大。
2.谱聚类算法
谱聚类算法优点:
1.谱聚类具有坚实的理论基础:图谱理论
谱聚类不含凸球数据分布的隐性假设,而常见的很多聚类算法比如KMeans,EM算法都存在这一假设,(语音识别,文本挖掘等)
3.应用谱聚类在SNS中挖掘兴趣圈子