Master/Slave+Group構成時のRA失敗時の挙動について (Linux-ha-jp) - Linux-HA Japan

池田様

千田です。

暫定対処まで教えていただきありがとうございます。
# Pacemaker 1.0.11のバグなのですね。。。

migrateコマンドに関しても正常にF/Oしていなかったので情報ありがとうございます。
先にResourceGroupをmigrateし、その後Master/SlaveSetをmigrateという
二度手間な手順で対処していました。
# unmigrateの場合も同じ

とりあえず最新版の1.0.11を使用して検証していましたが、
1.0.10も考慮したほうが良さそうですね。
リリースノート等をみて最終的にどちらで行うか判断したいと思います。

以上、よろしくお願いいたします。

> 千田様
>
> NTTデータ先端技術の池田です。
> 本事象はPacemaker 1.0.11のバグです。
> # Pacemaker 1.0.10では発生しません。
>
> 次期バージョン(1.0.12)での動作改善も検討中ですが
> 暫定対処として下記の設定を追加してください。
>
> colocation co1 inf: rg1 ms_drbd0:Master
> order o1 inf: ms_drbd0:promote rg1:start
> --- 追加ここから ---
> location rsc_location-1 ms_drbd0 \
> rule role=master -inf: defined fail-count-res_fs \
> rule role=master -inf: defined fail-count-res_vip \
> rule role=master -inf: defined fail-count-res_apache \
> rule role=master -inf: defined fail-count-res_tomcat
> --- 追加ここまで ---
>
> primitiveリソースのフェイルカウントが増加した場合は
> Masterリソースを強制的に他ノードへ移動させます。
>
> 参考情報
> http://www.gossamer-threads.com/lists/linuxha/pacemaker/74734
>
> なお、migrate(=move)コマンドによるリソースの移動についても
> groupを指定したリソースの移動ができません。
> migrateコマンドには、groupの最終リソース
> (今回の設定例ではres_tomcat)を指定してください。
>
> 実行例
> # crm resource migrate res_tomcat <移動先ノード名> force
>
> リソースの移動が完了したことをcrm_monコマンドなどで確認した後に
> 移動処理のために追加された制約を解除してください。
> # crm resource unmigrate res_tomcat
>
> 参考情報
> http://linux-ha.sourceforge.jp/wp/archives/1809/3
>
> 以上よろしくお願いいたします。
>
> 池田淳子
>
> 2011年9月29日15:21 hirame023 <hiram****@gmail*****>:
> > 千田と申します。
> >
> > heartbeat-3.0.5-1.1.el5とpacemaker-1.0.11-1.2.el5で検証をしています。
> >
> > Master/Slave+Group構成時に特定箇所のRAを停止させた場合、期待通りにF/Oが行われません。
> > この現象の原因/回避方法等分かる方はいらっしゃいますでしょうか？
> >
> > 以下、挙動と構成です。
> >
> > ■挙動
> > Online: [ node01 node02 ]
> >
> >  Master/Slave Set: ms_drbd0
> >      Masters: [ node01 ]
> >      Slaves: [ node02 ]
> >  Resource Group: rg1
> >      res_fs     (ocf::heartbeat:Filesystem):    Started node01
> >      res_vip    (ocf::heartbeat:IPaddr2):       Started node01
> >      res_apache (ocf::heartbeat:apache):        Started node01
> >      res_tomcat (ocf::heartbeat:tomcat):        Started node01
> >
> > 1.res_vipに障害が起こったと仮定しnode01側でifdown eth0などのコマンドを実行しFAILEDを発生させる
> > 2.migration-threshold="1"、monitorのon-failがrestartなのでF/Oが実施
> > 3.res_tomcat、res_apache、res_vipの順で停止するが、res_vipが停止までで処理が終了しF/Oされない
> > # 上記構成で全てのRAが起動状態の時にres_apacheやres_tomcatを単体で停止させた場合は、期待通りにF/Oされます。
> > # Group内でres_vipとres_apacheを入れ替えた場合、res_apacheが同様の挙動を起こします。
> >
> > ■crm
> > primitive res_apache ocf:heartbeat:apache \
> >         params configfile="/etc/httpd/conf/httpd.conf" port="80" \
> >         op start interval="0" \
> >         op monitor interval="10s" \
> >         op stop on-fail="block" interval="0"
> > primitive res_drbd0 ocf:linbit:drbd \
> >         params drbd_resource="r0" drbdconf="/etc/drbd.conf" \
> >         op start interval="0" timeout="240s" \
> >         op monitor interval="10s" role="Master" timeout="30s" \
> >         op monitor interval="20s" role="Slave" timeout="30s" \
> >         op stop on-fail="block" interval="0"
> > primitive res_fs ocf:heartbeat:Filesystem \
> >         params device="/dev/drbd0" fstype="ext3" directory="/data" \
> >         op start interval="0" timeout="60s" \
> >         op monitor interval="10s" timeout="40s" \
> >         op stop on-fail="block" interval="0" timeout="60s"
> > primitive res_tomcat ocf:heartbeat:tomcat \
> >         params catalina_base="/usr/local/tomcat"
> > catalina_home="/usr/local/tomcat" catalina_pid="tomcat"
> > java_home="/usr/local/java" tomcat_user="tomcat"
> > statusurl="http://127.0.0.1:8080" \
> >         op start interval="0" \
> >         op monitor interval="10s" timeout="60s" \
> >         op stop on-fail="block" interval="0" timeout="120s"
> > primitive res_vip ocf:heartbeat:IPaddr2 \
> >         params ip="192.168.100.100" cidr_netmask="24" nic="eth0" \
> >         op start interval="0" timeout="60s" \
> >         op monitor interval="10s" timeout="60s" \
> >         op stop on-fail="block" interval="0" timeout="60s"
> > group rg1 res_fs res_vip res_apache res_tomcat \
> >         meta target-role="Started"
> > ms ms_drbd0 res_drbd0 \
> >         meta master-max="1" master-node-max="1" clone-max="2"
> > clone-node-max="1" notify="true" target-role="Master"
> > colocation co1 inf: rg1 ms_drbd0:Master
> > order o1 inf: ms_drbd0:promote rg1:start
> > property $id="cib-bootstrap-options" \
> >         dc-version="1.0.11-1554a83db0d3c3e546cfd3aaff6af1184f79ee87" \
> >         cluster-infrastructure="Heartbeat" \
> >         no-quorum-policy="ignore" \
> >         stonith-enabled="false" \
> >         startup-fencing="false" \
> >         last-lrm-refresh="1316995556"
> > rsc_defaults $id="rsc-options" \
> >         resource-stickiness="INFINITY" \
> >         migration-threshold="1"
> > op_defaults $id="op-options" \
> >         timeout="120s" \
> >         on-fail="restart"
> >
> > 以上、よろしくお願いいたします。
> >
> >
> > _______________________________________________
> > Linux-ha-japan mailing list
> > Linux****@lists*****
> > http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
> >
> >
>
>
>
> ------------------------------
>
> _______________________________________________
> Linux-ha-japan mailing list
> Linux****@lists*****
> http://lists.sourceforge.jp/mailman/listinfo/linux-ha-japan
>
>
> 以上: Linux-ha-japan まとめ読み, 46 巻, 27 号
> *********************************************

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools

[Linux-ha-jp] Master/Slave+Group構成時のRA失敗時の挙動について

Linux-HA Japan Forkpm_logconv-cspm_diskdpm_logconv-hbpm_extrasdocpm_crmgenvm-ctlpm_kvm_tools

[Linux-ha-jp] Master/Slave+Group構成時のRA失敗時の挙動について

Linux-HA Japan
Fork
pm_logconv-cs
pm_diskd
pm_logconv-hb
pm_extras
doc
pm_crmgen
vm-ctl
pm_kvm_tools