Machine Learning | Google for Developers

このページは Cloud Translation API によって翻訳されました。

オーバーフィットとプルーニング

上記のアルゴリズムを使用すると、サンプルが分離可能であることを前提として、トレーニングサンプルを完全に分類するディシジョンツリーをトレーニングできます。ただし、データセットにノイズが含まれている場合、このツリーはデータに過剰適合し、テストの精度が低下します。

次の図は、特徴 x とラベル y の間に直線関係があるノイズのあるデータセットを示しています。この図は、正則化を適用せずにこのデータセットでトレーニングされたディシジョンツリーも示しています。このモデルは、すべてのトレーニングサンプルを正しく予測します（モデルの予測はトレーニングサンプルと一致します）。ただし、同じ線形パターンと異なるノイズインスタンスを含む新しいデータセットでは、モデルのパフォーマンスは低下します。

一般的な傾斜は +1 ですが、データセットにノイズが多いため、個々のデータポイントが最適化線から大きく外れることがあります。

図 12. ノイズが多いデータセット。

ディシジョンツリーの過剰適合を制限するには、ディシジョンツリーをトレーニングするときに、次の正則化条件のいずれかまたは両方を適用します。

最大深度を設定する: ディシジョンツリーが最大深度（10 など）を超えないようにします。
リーフのサンプルの最小数を設定する: サンプル数が一定数未満のリーフは、分割の対象になりません。

次の図は、リーフあたりの最小サンプル数が異なる場合の影響を示しています。モデルがキャプチャするノイズが少なくなります。

3 つのプロット。それぞれ、リーフあたりの最小サンプル数に異なる値が設定された場合の影響を示しています。値は 2、5、10 です。

図 13. リーフあたりの最小サンプル数が異なる。

特定の枝を選択的に削除（剪定）することで、トレーニング後に正規化することもできます。つまり、特定のリーフ以外のノードをリーフに変換します。削除するブランチを選択する一般的なソリューションは、検証データセットを使用することです。つまり、ブランチを削除することで検証データセット上のモデルの品質が向上する場合、そのブランチは削除されます。

次の図は、この考え方を示しています。ここでは、葉以外の緑色のノードを葉に変換した場合（オレンジ色のノードを剪定した場合）に、意思決定ツリーの検証精度が向上するかどうかをテストします。

2 つのディシジョンツリー。1 つのディシジョンツリーには 9 つのノードがあり、もう 1 つは、条件の 1 つをリーフに変換することで、6 つのノードにまでプルーニングされています。

図 14. 条件とその子をリーフにプルーニング。

次の図は、データセットの 20% を検証として使用して、意思決定ツリーを剪定した場合の効果を示しています。

不規則な過剰適合モデルと直線の理想モデルを示すプロット

図 15. データセットの 20% を使用して、ディシジョンツリーを剪定。

検証データセットを使用すると、ディシジョンツリーの初期トレーニングに使用できるサンプル数が減ることに注意してください。

多くのモデル作成者は複数の条件を適用しています。たとえば、次のすべてを行うことができます。

リーフあたりの最小サンプル数を適用します。
最大深度を適用して、ディシジョンツリーの成長を制限します。
ディシジョンツリーを剪定する。

YDF コード

YDF では、学習アルゴリズムは、すべてのプルーニングハイパーパラメータのデフォルト値で事前構成されています。たとえば、次の 2 つのプルーニングハイパーパラメータのデフォルト値を示します。

サンプルの最小数は 5 個（min_examples = 5）です
トレーニングデータセットの 10% は検証用に保持されます（validation_ratio = 0.1）。

validation_ratio=0.0 を設定すると、検証データセットでのプルーニングを無効にできます。

これらの条件により、チューニングが必要な新しいハイパーパラメータ（最大ツリー深度など）が導入されます。多くの場合、ハイパーパラメータの自動チューニングが使用されます。ディシジョンツリーは通常、クロスバリデーションでハイパーパラメータチューニングを使用できるほどトレーニングが速いです。たとえば、「n」個のサンプルを含むデータセットの場合:

トレーニングサンプルを重複しない p つのグループに分割します。例: p=10。
すべての可能なハイパーパラメータ値（最大深度が {3,5,6,7,8,9}、最小サンプル数が {5,8,10,20} など）。
- 各グループで、他の p-1 グループでトレーニングされたディシジョンツリーの品質を評価します。
- グループ全体の評価を平均します。
平均評価が最も高いハイパーパラメータ値を選択します。
選択したハイパーパラメータを使用して、すべての「n」個のサンプルを使用して最終的なディシジョンツリーをトレーニングします。

このセクションでは、ディシジョンツリーで過剰適合を制限する方法について説明しました。これらの方法にもかかわらず、過小適合と過剰適合は決定木の大きな弱点です。決定木では、過剰適合を制限する新しい方法が導入されています。この方法については後で説明します。

直接ディシジョンツリーの解釈

ディシジョンツリーは解釈が容易です。ただし、例をいくつか変更するだけで、決定木の構造が完全に変わり、解釈も変わる可能性があります。

ディシジョンツリーはトレーニング例を分割して構築されるため、ディシジョンツリーを使用して（モデルではなく）データセット自体を解釈できます。各リーフは、データセットの特定のコーナーを表します。

YDF コード

YDF では、model.describe() 関数を使用してツリーを確認できます。model.get_tree() を使用して個々のツリーにアクセスしてプロットすることもできます。詳細については、 YDF のモデル検査チュートリアルをご覧ください。

ただし、間接的な解釈も有益です。

理解度を確認する

オーバーフィットとプルーニング

直接ディシジョン ツリーの解釈

直接ディシジョンツリーの解釈