使用rabbitmq对文本使用tf_idf算法进行分析的项目记录

之前用爬虫爬了三个源,共爬取了30w左右的博客,爬虫项目:itmap_spiders

接着对这些文本进行分析,要求是找出每篇文章的关键词。我对TF*IDF算法有一些了解,就选择了它。项目:itmap_data_analysis

业务架构

由于数据量有点大,所以使用消息队列进行拆分,拆分标准是按照步骤来。具体的步骤如下图所示。

architecture

技术栈:

使用pika来与RabbitMQ连接。
使用click来编写命令行命令。
使用mongodb来储存结果。

遇到的问题

logging

使用click时发现一直没有打印日志,解决方法是设置日志级别:

logging.basicConfig(level=logging.INFO)

click

跟随另一位同伙的代码,第一次使用click,真是好用啊!
需要能够多次输入collection时,需要增加参数multiple,这样在命令行使用时,可以多次添加--collection collection_name-c collection_name

@click.command()
@click.option('--collection', '-c', type=click.Choice(collections), multiple=True, help='mongo中的collection名')
def func(collection):
    for c in collection:
        pass

pymongo

速度

计算TF的步骤,由于消费者执行速度实在太慢(rabbit的admin界面对应的queue的state大部分情况下是idle状态),所以稍微优化了下。
目前主要是通过使用bulk-write来提速。另外,对于计算TF步骤而言,设计的时候是一次只对一篇文章进行计算,但是发现这样做太耗费与mongodb的连接了,所以改成了一次对100篇文章进行计算。

与消费者的龟速成鲜明对比的是,生产者往队列里塞得极快!至于计算TF后面俩步骤是什么情况,还得等我先跑完TF再看。。。

auth

terminal中输入mongo

use admin
db.auth(‘username’,’password’)
备份

terminal中输入

mongodump -u username -p password --authenticationDatabase=admin  -d data -o /data/db
-u 是username -p是password,不填会报authentication的错, --authenticationDatabase需要指明auth在哪个db中
-d 是要备份的db,不指明就是所有
-o 是dump文件保存的地方,不指明就是当前目录
还可以使用-h 来指明是哪个mongod,比如127.0.0.1:27017,端口可不填
恢复

terminal中输入

mongorestore -h localhost:27017 -d data . -u root -p Song123654 --authenticationDatabase=admin
各个参数同上,那个点表示是当前目录

*nix命令

*nix 使用scp传输文件

scp ubuntu@111.112.113.114:~/datadir/data/article-juejin.bson article-juejin.bson

前面和ssh登录一样,因为scp也是使用ssh,后面同cp命令

修改文件的用户组

chgrp [-R] group_name file_name

修改文件所有者

chown [-R] owner_name file_name
-R表示递归,会将目录下的所有文件同时做修改

也可以这么用:

chown group_name:owner_name file_name

docker-compose命令

docker-compose up -d service_name
docker-compose build/start/stop/restart service_name
docker-compose scale service_name=2
docker-compose logs -f service_name

defaultdict

defaultdict-of-defaultdict

想要将defaultdict的默认值也设置为defaultdict:

defaultdict(lambda: defaultdict(int))

若直接写,会报错,是因为defaultdict(int)并不是可调用对象:

In [2]: defaultdict(defaultdict(int))
---------------------------------------------------------------------------
TypeError                                 Traceback (most recent call last)
<ipython-input-2-535a33200cb5> in <module>()
----> 1 defaultdict(defaultdict(int))

TypeError: first argument must be callable or None
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,772评论 6 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,458评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,610评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,640评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,657评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,590评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,962评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,631评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,870评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,611评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,704评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,386评论 4 319
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,969评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,944评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,179评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 44,742评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,440评论 2 342

推荐阅读更多精彩内容

  • 这篇文章是针对有tensorflow基础但是记不住复杂变量函数的读者,文章列举了从输入变量到前向传播,反向优化,数...
    horsetif阅读 1,158评论 0 1
  • tensorflow是通过计算图的方式建立网络。比喻说明:结构:计算图建立的只是一个网络框架。编程时框架中不会出现...
    MachineLP阅读 1,581评论 0 1
  • #幸福是需要修出来的~每天进步1%~幸福实修10班-03-陈莉梅-浙江永康# 20170810(17/30) 【幸...
    陈莉梅阅读 117评论 0 1
  • 好久,没有听过时代这个词了。 我们出生于物质丰腴的时代,一个没有饥饿,战争的时代 。但是我们无法确定这个时代的称谓...
    貂蝉有点美阅读 325评论 0 0
  • 工作:1.学校家国情怀月,撰写两个班的诗歌脚本。排演节目,超级用心。获得了一等奖,在学校表演了三次。家长开放日的压...
    美丽的糖糖阅读 143评论 0 1