インスタンス障害とインスタンスリカバリについての基礎知識

Oracle Databaseにおいて、インスタンス障害やそれに伴うインスタンスリカバリは、システム運用の重要な部分です。本記事では、インスタンス障害の概要、発生する原因、そしてインスタンスリカバリの仕組みについて解説します。

💰 【PR】Oracleエンジニアの市場価値、調べてみませんか？

Oracleのスキルは需要が高く、特定の資格や経験を持っていると年収が大幅にアップするケースがあります。まずはIT専門のエージェントで非公開求人をチェックしてみませんか？

1. インスタンス障害とは？
2. インスタンスリカバリの概要
1. インスタンスリカバリとは？
2. インスタンスリカバリの仕組み
  1. (1) ロールフォワード (Redo Application)
  2. (2) ロールバック (Undo Application)
3. リカバリ時間の短縮についての設定
1. FAST_START_MTTR_TARGETの概要
2. 設定例
4. アラートログに記録されるメッセージの詳細
5. リカバリ後の確認手順
6. インスタンス障害の防止策
7. まとめ

1. インスタンス障害とは？

インスタンス障害の定義

インスタンス障害とは、Oracleインスタンスが予期せず停止し、データベースにアクセスできなくなる状況を指します。インスタンスとは、Oracleデータベースを操作するためのメモリ構造〈SGA〉とバックグラウンドプロセスの集合体を指します。

主な原因

電源トラブル：サーバーのとつぜんの電源断。
OS障害：オペレーティングシステムのクラッシュ。
ハードウェア障害：メモリ、CPU、またはディスクの故障。
Oracleプロセスの強制終了：管理者によるプロセスのkill操作。
リソース不足：メモリやディスクの枯渇によるインスタンス停止。

インスタンス障害の影響

インスタンス障害が発生すると、トランザクションの途中でデータベースが停止するため、データが一部コミットされていない状態になります。この状態は「非整合性」が生じていると言えます。

2. インスタンスリカバリの概要

インスタンスリカバリとは？

インスタンスリカバリは、インスタンス障害後にOracle Databaseが自動的に行うデータベースの整合性回復プロセスです。このプロセスにより、障害前の状態に可能な限り復元されます。

インスタンスリカバリの仕組み

インスタンスリカバリは主に以下の2つのフェーズで実行されます。

(1) ロールフォワード (Redo Application)

目的：障害発生直前までのコミット済みトランザクションを適用する。
詳細：REDOログファイルに記録されている変更内容を適用します。この操作により、データベースを最新の状態に復元します。

(2) ロールバック (Undo Application)

目的：未コミットのトランザクションを取り消す。
詳細：UNDO表領域に記録されている変更内容を元に戻します。これにより、データベースの整合性が確保されます。

3. リカバリ時間の短縮についての設定

リカバリに要する時間を短縮するために、Oracle Databaseでは「FAST_START_MTTR_TARGET」パラメータを使用します。

FAST_START_MTTR_TARGETの概要

目的：リカバリの最大手間時間を移動データベースのパラメータで設定できる。
単位：秒
デフォルト値：0（アクティブな設定が無い場合、Oracleはシステムに依存した加担値を自動計算します）。

設定例

下記は「リカバリの手間を最大で30秒に制限する」例です。

ALTER SYSTEM SET FAST_START_MTTR_TARGET = 30;

この設定により、Oracleはリカバリ時間を頑張って短くしようとするため、DBWRとLGWRの動作が変わる場合があります。ただし、ディスクのアクセス性に影響を及ぼす可能性もあるため、設定は気をつけて行う必要があります。

4. アラートログに記録されるメッセージの詳細

インスタンスリカバリが発生した場合、アラートログには次のようなメッセージが記録されます。

アラートログの出力例

Starting up instance (normal)
Database mounted in Exclusive Mode
Instance Recovery started
Redo applied up to change number 1234567
Recovery of Online Redo Log: Thread 1 Group 1 Seq# 456 Reading mem 0
Recovery of Online Redo Log: Thread 1 Group 2 Seq# 457 Reading mem 0
Recovery completed for thread 1
Instance Recovery completed at SCN 1234567
Database opened

主なメッセージの意味

Instance Recovery started
- インスタンスリカバリが開始されたことを示します。
Redo applied up to change number <number>
- ロールフォワードが進行中であることを示します。
Recovery completed for thread <number>
- 指定されたスレッドのリカバリが完了したことを示します。
Instance Recovery completed at SCN <number>
- インスタンスリカバリが正常に完了したことを示します。
Database opened
- データベースが再び操作可能な状態になったことを示します。

アラートログの確認コマンド

アラートログをリアルタイムで確認するには、次のコマンドを使用します：

tail -f $ORACLE_BASE/diag/rdbms/<DB_NAME>/<INSTANCE_NAME>/trace/alert_<INSTANCE_NAME>.log

5. リカバリ後の確認手順

インスタンスリカバリ後、以下の手順でシステムが正常に動作しているか確認します。

(1) アラートログの確認

アラートログには、リカバリに関する詳細情報が記録されています。ログ内のエラーメッセージや警告がないか確認します。

(2) データベースの整合性確認

重要なテーブルやトランザクションが正しく復元されているかを確認します。

(3) パフォーマンスモニタリング

リカバリ後のシステム負荷を監視し、必要に応じて調整を行います。

6. インスタンス障害の防止策

(1) ハードウェアの冗長化

電源やディスクの冗長化を行い、障害リスクを最小化します。

(2) 定期的なバックアップ

障害が発生してもデータを復旧できるよう、定期的にバックアップを取得します。

(3) リソースの監視

CPU、メモリ、ディスクの使用率を常に監視し、リソース不足による障害を防ぎます。

7. まとめ

インスタンス障害は避けられない場合がありますが、Oracle Databaseの自動インスタンスリカバリ機能により、データベースの整合性を迅速に回復できます。管理者としては、リカバリ後に適切な確認を行うことが重要です。また、障害を未然に防ぐための監視と予防策を実施することで、安定した運用を実現できます。

この記事がインスタンス障害とリカバリの理解を深める一助となれば幸いです。

[参考]
Oracle Database バックアップおよびリカバリ・ユーザーズ・ガイド 19c

💰 【PR】Oracleエンジニアの市場価値、調べてみませんか？

▶ テックゴー｜IT転職エージェントの無料キャリア面談