クロスバリデーションと決定木の理解に役立つ質問する

Question

私が理解できない問題は、最終的に k 個の決定木が作成され、それらはすべて同じように分割されない可能性があるため、わずかに異なる可能性があることです。どの木を選択しますか?

クロスバリデーションの目的特定のものを選択するのに役立つものではありません実例分類器（または決定木、または自動学習アプリケーション）のモデルつまり、平均エラー率、この平均に対する偏差などのメトリックを提供し、アプリケーションから期待できる精度のレベルを主張するのに役立ちます。クロス検証が主張するのに役立つことの 1 つは、トレーニングデータが十分に大きいかどうかです。

特定の木を選択することに関して代わりに、利用可能なトレーニングデータの 100% でさらに別のトレーニングを実行する必要があります。これにより、通常はより優れたツリーが生成されます。(クロス検証アプローチの欠点は、[通常は少量の] トレーニングデータを「フォールド」に分割する必要があることです。質問で示唆されているように、これにより、特定のデータインスタンスに対して過剰適合または不足適合のツリーが発生する可能性があります)。

決定木の場合、ノードで収集され、ツリーの剪定に使用される統計への参照が何に関係するのかわかりません。おそらく、クロス検証関連のテクニックの特定の使用でしょうか?...

Answer 1

私が理解できない問題は、最終的に k 個の決定木が作成され、それらはすべて同じように分割されない可能性があるため、わずかに異なる可能性があることです。どの木を選択しますか?

クロスバリデーションの目的特定のものを選択するのに役立つものではありません実例分類器（または決定木、または自動学習アプリケーション）のモデルつまり、平均エラー率、この平均に対する偏差などのメトリックを提供し、アプリケーションから期待できる精度のレベルを主張するのに役立ちます。クロス検証が主張するのに役立つことの 1 つは、トレーニングデータが十分に大きいかどうかです。

特定の木を選択することに関して代わりに、利用可能なトレーニングデータの 100% でさらに別のトレーニングを実行する必要があります。これにより、通常はより優れたツリーが生成されます。(クロス検証アプローチの欠点は、[通常は少量の] トレーニングデータを「フォールド」に分割する必要があることです。質問で示唆されているように、これにより、特定のデータインスタンスに対して過剰適合または不足適合のツリーが発生する可能性があります)。

決定木の場合、ノードで収集され、ツリーの剪定に使用される統計への参照が何に関係するのかわかりません。おそらく、クロス検証関連のテクニックの特定の使用でしょうか?...

クロスバリデーションと決定木の理解に役立つ質問する

ベストアンサー1

おすすめ記事