2013年12月21日

208.5 日問題の逆襲

昨年の始め頃、 208.5 日以上連続稼働すると動作が停止したり kernel panic が発生したりする可能性があるという TSC 絡みの不具合が話題になりました。

Linux カーネルの sched_clock() が 208.5 日の連続稼働でオーバーフローする現象について
https://access.redhat.com/site/solutions/121233

Does Red Hat Enterprise Linux 6 or 5 have a reboot problem which is caused by sched_clock() overflow around 208.5 days?
https://access.redhat.com/site/solutions/68466

しかし、上記の不具合を修正したカーネルには落とし穴があったようです。(誰も話題にしないので、注意喚起の意味で URL を貼っておきます。)

Systems with Intel® Xeon® Processor E5 hung after upgrade of Red Hat Enterprise Linux 6
https://access.redhat.com/site/solutions/433883

手元の VMware Player 上で 4 VCPU を割り当てた CentOS 6 32bit 環境において、 TSC の書き換えにより連続稼働をエミュレートするという方法で再現試験を行った限りでは、この不具合の再現率は100%のように見受けられます。

Intel Xeon E5 は業務用サーバとして広く使われていると思いますので、油断していると襲われますよ〜。

posted by 熊猫さくら at 23:51| Comment(6) | TrackBack(0) | Linux