有趣的一次调试

果果小姚 [TesterGC](javascript:void(0);) 1周前

记录下今天的debug

测试过程遇到的问题如下:

创建emr集群,创建失败,cloudbreak里面日志显示如下:

图片

涉及到查到服务端的日志和iaas层日志

未调度到服务层,查询iaas日志,主要涉及controller节点,

图片

日志路径如下

cd /var/lib/docker/volumes/kolla_logs/_data/nova/

cd /var/lib/docker/volumes/kolla_logs/_data/heat

controller01日志如下:

图片

controller02日志如下:

图片

controller03日志如下:

图片

cd /var/lib/docker/volumes/kolla_logs/_data/nova/路径下主要看nova-scheduler.log 和nova-api.log

从controller03的nova-api.log找到cloudbreak里面2ed0d3cb-d4c8-4820-8d7c-35884a998f91的报错

图片

通过grep 2ed0d3cb-d4c8-4820-8d7c-35884a998f91 nova-api.log 可以找到instance的ID,为 cc2bc608-e0f4-4e09-9815-b9a28235744e

图片

去查看cc2bc608-e0f4-4e09-9815-b9a28235744e的日志,

图片

对比创建成功的EME集群的日志:

图片

通过实例分配的ID进行查看,此处ID为c8324f38-1176-4a44-bd05-dc5db8900154,可以看到选择的是compute02.sugon.local节点,而报错的选择的是controller02-ironic节点。(这一点当时未留意)

图片

/var/lib/docker/volumes/kolla_logs/_data/heat日志目录,主要查看heat-engine.log

接着往下找,了解到报错的日志是10:02分,接着去找其它日志

2021-08-23 10:02:11.946 34 INFO nova.api.openstack.compute.server_external_events [req-846a86d2-45e5-4465-9c16-1470b6fb26d7 ea7639ce246f48b5909c9ce3aed9ff96 cb4b3cff7360470fb8b7d2c04d6d85c3 - default default] Creating event network-changed:2ed0d3cb-d4c8-4820-8d7c-35884a998f91 for instance cc2bc608-e0f4-4e09-9815-b9a28235744e on controller02-ironic

查找nova-scheduler.log的日志,发现同样时间点,出现

[req-c5e28bf4-f296-4fec-81b4-15a95ab8d944 90c441c4f6b2422d95dc9b6ef7643c00 8baa91c7394e4bd8afe8b934f317e5a2 - default default] HTTP exception thrown: 云主>机类型 bigdata.tiny 没有找到。

怀疑是此原因导致,接着对比正确的集群的日志,创建成功的时间是8.21号,下午5:34

图片

查找nova-api.log,发现创建成功的也有该报错,故类型找不到跟报的异常没关系

图片

因为创建失败的调用了删除,联系iaas同事对 nova封闭了delete api

再次创建提示:

图片

根据nova instance-action-list 740f4821-6b35-45cc-9b46-c3b13c9041f5,查找相关操作的request id信息

图片

通过nova instance-action 740f4821-6b35-45cc-9b46-c3b13c9041f5 req-5fe079a8-8cff-47e2-b8c6-d355aa573b5b查看调用的节点,调度到了裸机,

图片

查找创建集群所用镜像的id属性:glance image-list

图片

glance image-show 63cc81d4-8a15-4c3e-9740-4beaddd87cd9--查看属性

图片

缺少hypervisor_type ,需要将 hypervisor_type 搞成kvm

图片
图片

通过glance image-update {image_id} --property hypervisor_type=kvm将其属性添加

图片

造成缺少该属性原因是,上传时,openstack image create "cv-sugon-analysis-cluster-20210701-alpha" --file cv-sugon-analysis-cluster-20210701-alpha.raw --disk-format raw --container-format bare --public

应该是openstack image create "cv-sugon-analysis-cluster-20210701-alpha" --file cv-sugon-analysis-cluster-20210701-alpha.raw --disk-format raw --container-format bare --public --property hypervisor_type=kvm

改完后,创建集群实验,创建通过

图片
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 第1章、文献信息检索 01、文献资源的分类 一、根据出版形式进行分类 类型 特点图书 对现有知识的总结,思想内...
    Jason_5b5a阅读 374评论 0 0
  • https://www.baidu.com/link?url=N-vRBc-RKu-Nap1fvi-KCPi--H...
    生活愉快888阅读 143评论 0 0
  • 第十三章小白鼠2 而到了D级水平后,训练的伤亡率则更高,训练时间是两年。四个清洁工训练营会相互PK:擅长冷兵器四个...
    长沙的欧阳阅读 196评论 0 0
  • 我是黑夜里大雨纷飞的人啊 1 “又到一年六月,有人笑有人哭,有人欢乐有人忧愁,有人惊喜有人失落,有的觉得收获满满有...
    陌忘宇阅读 8,624评论 28 53
  • 人工智能是什么?什么是人工智能?人工智能是未来发展的必然趋势吗?以后人工智能技术真的能达到电影里机器人的智能水平吗...
    ZLLZ阅读 3,996评论 0 5