ワンホットエンコーディングが機械学習のパフォーマンスを向上させるのはなぜですか? [closed] 質問する

Question

多くの学習アルゴリズムは、特徴ごとに単一の重みを学習するか、サンプル間の距離を使用します。前者は、説明しやすいロジスティック回帰などの線形モデルの場合です。

データセットに「国籍」というカテゴリ特性が 1 つだけあり、その値が「英国」、「フランス」、「米国」であるとします。一般性を失うことなく、これらが 0、1、2 としてエンコードされていると仮定します。すると、線形分類器でこの特性の重み w が与えられ、制約 w×x + b > 0、または同等の w×x < b に基づいて何らかの決定が下されます。

ここで問題となるのは、重み w が 3 者択一をエンコードできないことです。w×x の可能な値は 0、w、2×w の 3 つです。これら 3 つすべてが同じ決定につながる (すべて < b または ≥b) か、「UK」と「French」が同じ決定につながるか、「French」と「US」が同じ決定につながります。モデルが「UK」と「US」に同じラベルを付け、「French」を外れたラベルにする必要があることを学習する可能性はありません。

ワンホットエンコーディングにより、特徴空間が実質的に 3 つの特徴に拡大され、それぞれに独自の重みが付けられるため、決定関数は w[UK]x[UK] + w[FR]x[FR] + w[US]x[US] < b になります。ここで、すべての x はブール値です。この空間では、このような線形関数は、可能性の任意の和/論理和を表現できます (たとえば、「UK または US」は、英語を話す人の予測子になる可能性があります)。

同様に、サンプル間の標準的な距離メトリック (k 近傍法など) に基づく学習者は、ワンホットエンコーディングなしでは混乱します。ナイーブエンコーディングとユークリッド距離では、フランスと米国間の距離は 1 です。米国と英国間の距離は 2 です。しかし、ワンホットエンコーディングでは、[1, 0, 0]、[0, 1, 0]、[0, 0, 1] 間のペアワイズ距離はすべて √2 に等しくなります。

これはすべての学習アルゴリズムに当てはまるわけではありません。決定木やランダムフォレストなどの派生モデルは、十分な深さがあれば、ワンホットエンコーディングなしでカテゴリ変数を処理できます。

Answer 1

多くの学習アルゴリズムは、特徴ごとに単一の重みを学習するか、サンプル間の距離を使用します。前者は、説明しやすいロジスティック回帰などの線形モデルの場合です。

データセットに「国籍」というカテゴリ特性が 1 つだけあり、その値が「英国」、「フランス」、「米国」であるとします。一般性を失うことなく、これらが 0、1、2 としてエンコードされていると仮定します。すると、線形分類器でこの特性の重み w が与えられ、制約 w×x + b > 0、または同等の w×x < b に基づいて何らかの決定が下されます。

ここで問題となるのは、重み w が 3 者択一をエンコードできないことです。w×x の可能な値は 0、w、2×w の 3 つです。これら 3 つすべてが同じ決定につながる (すべて < b または ≥b) か、「UK」と「French」が同じ決定につながるか、「French」と「US」が同じ決定につながります。モデルが「UK」と「US」に同じラベルを付け、「French」を外れたラベルにする必要があることを学習する可能性はありません。

ワンホットエンコーディングにより、特徴空間が実質的に 3 つの特徴に拡大され、それぞれに独自の重みが付けられるため、決定関数は w[UK]x[UK] + w[FR]x[FR] + w[US]x[US] < b になります。ここで、すべての x はブール値です。この空間では、このような線形関数は、可能性の任意の和/論理和を表現できます (たとえば、「UK または US」は、英語を話す人の予測子になる可能性があります)。

同様に、サンプル間の標準的な距離メトリック (k 近傍法など) に基づく学習者は、ワンホットエンコーディングなしでは混乱します。ナイーブエンコーディングとユークリッド距離では、フランスと米国間の距離は 1 です。米国と英国間の距離は 2 です。しかし、ワンホットエンコーディングでは、[1, 0, 0]、[0, 1, 0]、[0, 0, 1] 間のペアワイズ距離はすべて √2 に等しくなります。

これはすべての学習アルゴリズムに当てはまるわけではありません。決定木やランダムフォレストなどの派生モデルは、十分な深さがあれば、ワンホットエンコーディングなしでカテゴリ変数を処理できます。

ワンホットエンコーディングが機械学習のパフォーマンスを向上させるのはなぜですか? [closed] 質問する

ベストアンサー1

おすすめ記事