登录注册写文章

[R]可能是史上代码最少的协同过滤推荐引擎

葡萄喃喃呓语

[R]可能是史上代码最少的协同过滤推荐引擎

可能是史上代码最少的协同过滤推荐引擎 – 不周山
http://www.wentrue.net/blog/?p=970

实际上是用R实现的item-based CF推荐算法。

读入数据，原数据是user-subject的收藏二元组

data = read.table('data.dat', sep=',', header=TRUE)

标识user与subject的索引

user = unique(data$user_id)
subject = unique(data$subject_id)
uidx = match(data$user_id, user)
iidx = match(data$subject_id, subject)

从二元组构造收藏矩阵

M = matrix(0, length(user), length(subject))
i = cbind(uidx, iidx)
M[i] = 1

对列向量（subject向量）进行标准化，%*%为矩阵乘法

mod = colSums(M²⁾0.5 # 各列的模
MM = M %*% diag(1/mod) # M乘以由1/mod组成的对角阵，实质是各列除以该列的模

crossprod实现MM的转置乘以MM，这里用于计算列向量的内积，S为subject的相似度矩阵

S = crossprod(MM)

user-subject推荐的分值

R = M %*% S
R = apply(R, 1, FUN=sort, decreasing=TRUE, index.return=TRUE)
k = 5

取出前5个分值最大的subject

res = lapply(R, FUN=function(r)return(subject[r$ix[1:k]]))

输出数据

write.table(paste(user, res, sep=':'), file='result.dat', quote=FALSE, row.name=FALSE, col.name=FALSE)

最后编辑于：2017.12.10 16:12:50

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Linux 系统命令及其使用详解( 大全 )
Linux 系统命令及其使用详解( 大全) 名称： cat 使用权限：所有使用者使用方式：cat [-AbeEn...
小向资源网阅读 1,588评论 0赞 3
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,634评论 19赞 139

“我”只愿能够在你心里留下温暖——写在暂别简书之际
我在简书这段日子六月，在朋友的建议下注册了简书，陆陆续续放一些公号里的文章试水；七月，开始密集写稿投稿，加入散...
驿路奇奇阅读 956评论 49赞 18
请不要用你的眼镜来看他人
如果你没有经历一模一样的失败，你可能无法理解他人眼中失败的挫败。如果你没有经历一模一样的失恋，就无法看见他人失恋...
沸腾的小饺子阅读 458评论 0赞 0
【奇幻】这个世界疯了！(06)
“因为你想活着！”板砖的斩钉截铁地说到：“你想真真实实、有血有肉的活着！” “你心里还有牵挂，你还放不下！” 板砖...
往亦云阅读 485评论 1赞 1

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文