搭建集群

0x00 安装配置过程

本着“跟着官方走准没错”的信条,下载源码按照torqueAdminGuide-6.1.1.pdf的描述一步步安装依赖和Torque主体即可。下面都是在非root用户下操作。

  • Torque主要分三个部分:Server、Schd和mom。在管理节点上只装Server和Schd即可(./configure时--disable-client --disable-mom,更多参数见P35),记得按说明加上对应的service。当然在管理节点上面也可以安装mom用作计算节点,不需要其它操作了,如下图。


    image.png
  • 针对上一条,./configure部分里说的“至少要加上……参数”(也就是下图所示)可以无视了,实际装的时候只把cgroups(后面会要求在计算节点上装这个)和hwloc装上了,但没加这俩参数,最后也能跑起来。

    image.png

  • 管理节点搞定后,用下面命令生成计算节点所需的安装脚本torque-package-clients-linux-x86_64.shtorque-package-mom-linux-x86_64.sh

make packages

把这俩scp到所有计算节点上,执行(加参数--install)安装。然后按照说明加上对应的service,以后启动起来很方便。(见P17,还会让装croups)

torque-package-clients-linux-x86_64.sh --install
torque-package-mom-linux-x86_64.sh --install
  • 接下来对服务器进行初始化。有两种方式,这里采用的是执行脚本,省心一些。
qterm
sudo ./torque.setup <non-root user name>
  • 下面的几步很关键,关系到管理节点和计算节点能否相互沟通。(之前源码装的时候采用了默认路径)
    • 在管理节点路径/var/spool/torque/server_priv/nodes(需要权限,该文件需要手动创建)写入集群中计算节点的hostname,格式如下,一行为一个节点:(注:node-name为节点的主机名hostname,详见P25)当然把管理节点写进去也没影响。
node-name[:ts] [np=] [gpus=] [properties]
  • 在所有计算节点的路径/var/spool/torque/mom_priv/config(需要权限,该文件需要手动创建)写入管理节点信息,一般写如下内容即可,让计算节点明确谁是管理节点:(多了我也不懂:()
$pbsserver <server-hostname>
$logevent 255
  • 在所有节点的/etc/hosts文件里把整个集群的ip和hostname对应关系写好,很简单不举例了。写完之后用hostname作为目标ping测试一下,能通就行。

    • 最最重要的的一步,很简单也最容易被忽略:把所有节点的实际hostname改成nodes、config、hosts那些文件里对应的,否则无法实现torque功能。查了半天log才发现这个问题。
  • 有个据称是计算节点用来沟通的daemon:trqauthd。 按照P35在所有节点上都把这个服务跑起来。

0x01 运行及测试

  • 现在去确认:管理节点上运行了pbs_server、pbs_schd、trqauthd,计算节点上运行了pbs_mom、trqauthd。没有的话就restart把它们跑起来。
[example]
sudo service [service name] resart
  • 都完成之后,参见P56创建一个queue(没创建时也会存在一个默认队列batch)并测试整个集群是否正常运行。
    • 在这个过程中会对queue参数进行查看。想要更改的话格式如下(具体的属性选项见PDF):
[example]
qmgr -c 'set queue <queue name> <properties as it in pdf>
qmgr -c 'set server <properties as it in pdf>
  • 运行“pbsnodes -a”命令后要确认各计算节点的state均为free,否则集群无法正常运作。
  • 尝试PDF中的“echo "sleep 30" | qsub”进行作业提交后,由于本文前面已确认了pbs_schd服务的运行,故查看队列状态结果应如下(30秒内状态S都是R,而PDF中那时pbs_schd服务未运行,故写的是Q,要注意):
> qstat
Job id          Name   User          Time Use  S  Queue 
------          -----  -----------   --------  -- ----
0.<server name> STDIN  <user name>          0  R  batch

0x02 遇到的一些坑和有用的tips

  • 遇到任何看不懂的情况和PDF没提的情况,勤看log日志,日志里的情况去搜一下基本都懂了:
    • 服务节点:/var/spool/torque/server_log/<对应日期>
    • 计算节点:/var/spool/torque/mom_log/<对应日期>
  • 把所有节点的实际hostname改成nodes、config、hosts那些文件(前文都有提及)里对应的,否则无法实现torque功能。查了半天log才发现这个问题。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,456评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,370评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,337评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,583评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,596评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,572评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,936评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,595评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,850评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,601评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,685评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,371评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,951评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,934评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,167评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,636评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,411评论 2 342

推荐阅读更多精彩内容