耐障害性

Stratusの耐障害性は、ハード的に行われていて、アプリケーションプログラムは意識する必要性がありません。CPUボード、メモリーボードなどがすべて二重化されていて、片方が障害となっても動き続けます。当然双方障害だとだめですが。1つのボードも中身が二重化されていて、ボード内でも障害検知が行われます。それ故、故障したボードをオンライン中に抜き差ししても問題ないという。
ハード障害でアプリ的に問題(エラー検知)されるのは、通信障害くらいでしょうか。通信ボードは相手との接続の関係もあり、接続自体を二重化できませんから、バックアップに切り替わるときに回線が切断されたり、停止します。この時アプリには回線切断の事象が通知されます。この辺りは、アプリケーション的にエラーリカバリするのが一般的でした。(データを破棄して、相手側にタイムアウトを検知させるとか、エラーの通知を行う等)

TANDEMでは、CPUボードが停止すると、そのCPU上で動くプログラムはすべて停止します。プログラムをソフト的に二重化して対応しており、メインプログラムとバックアッププログラムを別CPUで動かし、同期をとりつつ動作し、障害時にプログラムが切り替わるという手法でした。こういった手法をプログラミングしなければならなかったので、プログラマーにかかる負担が大きかったです。
パッケージを移植するために初期調査している段階で、HPの技術者にいろいろ聞きながら移植作業をおこなってましたが、この二重化の部分で聞いた情報が間違っていて、後に障害対策で苦労した記憶があります。ファーストユーザーに導入し、動かしてある程度の取引を処理したら、突然エラーが出始めたり、障害テストでCPUダウンさせて切り替わりのテストでバックアップがさらに停止したり散々だった。結局マニュアルを読み直して対応したのですが、社内の周りからの目は痛かったです。自分のスキルの低さもあったのだろうけど、自分的には騙された感の方が強かったと思う。

とまあ、ライバル2機種で比較すればStratusの圧勝って感じが今でも強いです。