Openstack neutron 常見故障分析


1.  節點down了,如圖1-12所示

  

圖1-12

剛剛部署完了,一看上去全部是down掉了,down掉了怎么辦?我要查整個部署。一查沒有部署這個沒有部署那個,這時日志很關鍵。所以在部署的時候要統一日志收集,你在上面就可以看到各種日志。看Rabbitmq,文件句柄太少了,或者是硬盤太小了,都會影響到rabbitmq接受agent的連接。還有檢查Server,看Neutron Server是不是出問題了。最后就是不要出現時間不同步的問題。

2.  floatingip不通,如圖1-13所示


  圖1-13

先看看VM是否分配到了固定IP, 是否能通到VM網絡的網關。再查詢它的安全組規則,看看是否阻止了某種網絡流量。再看看這個IP所在的ROUTER是什么,再看看router所在的網絡節點,進入這個路由器所在的名字空間,察看floatingip是否存在。軟件方面有時候重啟也是能解決問題的。

3.  L3節點錯誤,如圖1-14所示

 

 圖1-14

L3出錯了怎么辦?這時可能需要遷移。首先我們把這個L3 agent設為down,down完之后看看這個節點上所有的router。 接着把所有router的管理狀態設為down, 然后又設為up, 這時系統就會重新綁定router到其它網絡節點。這個過程很復雜,人工去做會影響比較長的時間。現在很多友商用監控,如果L3 agent出錯, 啟動自動腳本進行遷移。 在Kilo版中, HA router也是一個不錯的選擇。

4.  還有一個端口綁定失敗,如圖1-15所示


  圖1-15

這是經常遇到的一個問題。在我的產品中,如果出現綁定失敗,就直接拋出錯誤,這樣問題就會第一時間暴露出來。如果不這樣做,直接把“binding_failure”寫在數據庫里面,虛擬機就拿不到IP。怎么解決呢?在Neutron里面只要把這個host_id先置一下,再置回去,這時候能讓Neutron agent重新綁定端口,設置正確的TAG.

5.  要注意TAG 4095端口,如圖1-16所示


  圖1-16

我們確認port不在Neutron Server中,然后刪除ovs  port。如果在Neutron Server中有,就要重新改一下,讓它的binding重新做。

做OpenStack運維,整個網絡流程是必須掌握的。我們看Neutron鏈路分析,如圖1-17所示




注意!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系我们删除。



 
粤ICP备14056181号  © 2014-2020 ITdaan.com