年总包百万可谈的运维面试记录(初面+终面,已过)

本次面试岗位是研究院及其附属人工智能公司

初面+终面,基本是这些问题:
1.介绍一下你的情况,经历
您好,我叫xxx,我上份工作在xxx,公司是从事xx,在业界的地位xx,工作主要分为三个部分,分别是
千卡级别超算建设和管理
运维体系建设(整套运维架构+devops体系)
IT和项目管理

2.讲一下超算的结构吧
网络结构,巴拉巴拉

网络:
400G ib + 400 G ROCE,
1.ib作为网络通信+储存通信,基于jfs+ ib实现高速响应
超算监控:
uptime 收集指标,对cuda进行二开,采集响应率,显卡探活,

grafana + promtthues
主要指标:

机器的exporter
IB网络的exporter

nvida的exporter

pod的exporter

3.储存是怎么实现的
1.roce网络的储存
4t 的ssd组成1pb集群,通过roce通信
2.ib网络的储存

对超算闲置空间 通过jfs + minio + ib实现高速性能
为什么不用roce?
1.roce性能差,响应慢,对于大量文件吞吐差
2.roce已经在用,新集群如果迁移数据复用roce会卡顿
3.ib日常使用率过低,可以重复利用

4.超算你们是怎么用的
k8s+ slurm

5.运维体系,你该如何建设?IT体系呢?
从DNS负载均衡 -> cdn负载均衡 -> cdn ->前端 / waf ->api -> k8s ,分三层网络flanel,后端+数据+不重要的服务等,密钥轮换

IT体系
0信任网关,基于casdoor之类的实现全系统打通,自研itsm系统优化xxx问题,比如您当前系统xx问题(提前做准备发现)

6.你的英语怎么样?
I think it‘s ok

Hello, interviewer,my  name is xx,my last job work for xxx

during that time ,it have three part

first side xxx

second side xxx 

last side  xxx

before my last job, I work for xxx

xxx

xx
6..如果你加入我们公司,你如何设计超算?

这不是一个纯技术的问题,是一个项目工程学,我有pmp,熟悉xxx的建设,有年消费过亿的项目管理经验balabala

首先 xxx,其次xxx
7.你抗压能力怎么样?
抗压还可以,这个也取决于同事气氛,是否可以同频,工作压力反倒是其次(其实就是把锅和承若反推到面试官身上)
8.啥时候可以入职?

一个半月左右,要处理完手上供应商的问题

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容