ANALYZE

名前

ANALYZE -- データベースに関する統計を集計する

概要

ANALYZE [ VERBOSE ] [ table [ (column [, ...] ) ] ]

説明

ANALYZEはデータベース内のテーブルに関する統計情報を集計し、その結果をpg_statisticシステムテーブルに保存します。 問い合わせプランナが最も効率の良い問い合わせの実行計画を決定する際、この統計情報が使用されます。

パラメータがない場合、ANALYZEは現在のデータベース内の全てのテーブルを検査します。 パラメータがある場合、ANALYZEは指定されたテーブルのみを検査します。 さらに列名のリストを与え、その列の統計情報のみを更新することも可能です。

パラメータ

VERBOSE

進行状況の表示を有効にします。

table

解析の対象とするテーブルの名前です(スキーマ修飾名も可)。 デフォルトは、現在のデータベース内の全テーブルです。

column

解析の対象とする列名です。 デフォルトは全ての列です。

出力

VERBOSEが指定された場合、ANALYZEは進捗メッセージとして処理中のテーブルを表示します。 さらに、テーブルについての各種統計情報も表示されます。

注釈

ANALYZEは定期的に、もしくは、テーブルの内容に大きな変更がある度に行うことを推奨します。 統計情報が正確であれば、プランナが最も適切な問い合わせ計画を選択できるようになります。 これによって、問い合わせ処理の速度が向上します。 VACUUMANALYZEは、1日1回、データベースがあまり使用されていない時間帯に実行するのが一般的です。

VACUUM FULLとは異なり、ANALYZEは、対象とするテーブルの読み取りロックのみを必要とします。 したがって、そのテーブルに対する他の操作と並行して実行することができます。

通常、ANALYZEによって集計される統計情報には、各列の典型的な値と各列のデータ分布の概要を示す度数分布が含まれます。 ANALYZEによってあまり意味がないとみなされた場合(例えば、一意性制約が付加された列では、典型的な値というものは存在しません)や、列のデータ型が適切な演算子をサポートしていない場合は、片方もしくは両方の情報が省略されてしまう可能性があります。 第22章に、統計情報についての詳細が記載されています。

巨大なテーブルでは、ANALYZEは、全ての行を検査するのではなく、テーブルの中からランダムにサンプルを取り出して使用します。 これによって、非常に巨大なテーブルであっても短時間で解析することが可能です。 しかし、このようにして得られた統計情報はおおよそのものでしかなく、テーブルの内容に変更がなくてもANALYZEを実行する度に変化することに注意してください。 これにより、EXPLAINが表示する、プランナの推定コストも多少変化します。 稀に、このような不確定要素のせいで、問い合わせオプティマイザがANALYZEを実行する度に異なる問い合わせ計画を選択してしまうことがあります。 これを防止するには、以下に示すようにANALYZEで収集される統計情報の量を増やしてください。

default_statistics_target設定パラメータ変数を調整するか、もしくはALTER TABLE ... ALTER COLUMN ... SET STATISTICSを使用して統計対象を列単位に設定し、解析を列ベースにすることで、解析の範囲を制御することができます (詳しくはALTER TABLEを参照してください)。 対象値として設定するのは、典型的な値のリストにおけるエントリ数の最大値と度数分布のビンの最大数です。 デフォルトの対象値は10です。 しかし、この値は、プランナの推定精度とANALYZEの処理時間、pg_statisticの占める容量とのトレードオフによって変更可能です。 対象値を0に設定すると、その列に関する統計情報の集計は無効になります。 決してWHERE句、GROUP BY句、ORDER BY句に使用されない列に対しては、このような設定が有用です。 プランナにとってそのような列の統計情報は不要だからです。

解析する列の統計情報対象値の最大値によって、統計情報を作成するために抽出する行数が決定します。 対象値を大きくすると、比例して、ANALYZEに要する時間とディスク容量が増加します。

互換性

標準SQLにはANALYZE文はありません。