ワンホットエンコーディングが機械学習のパフォーマンスを向上させるのはなぜですか? [closed] 質問する

ワンホットエンコーディングが機械学習のパフォーマンスを向上させるのはなぜですか? [closed] 質問する

特定のデータ セット (マトリックス) に One Hot エンコーディングを使用し、それを学習アルゴリズムのトレーニング データとして使用すると、元のマトリックス自体をトレーニング データとして使用する場合と比較して、予測精度に関して大幅に優れた結果が得られることに気付きました。このパフォーマンスの向上はどのようにして起こるのでしょうか。

ベストアンサー1

多くの学習アルゴリズムは、特徴ごとに単一の重みを学習するか、サンプル間の距離を使用します。前者は、説明しやすいロジスティック回帰などの線形モデルの場合です。

データセットに「国籍」というカテゴリ特性が 1 つだけあり、その値が「英国」、「フランス」、「米国」であるとします。一般性を失うことなく、これらが 0、1、2 としてエンコードされていると仮定します。すると、線形分類器でこの特性の重み w が与えられ、制約 w×x + b > 0、または同等の w×x < b に基づいて何らかの決定が下されます。

ここで問題となるのは、重み w が 3 者択一をエンコードできないことです。w×x の可能な値は 0、w、2×w の 3 つです。これら 3 つすべてが同じ決定につながる (すべて < b または ≥b) か、「UK」と「French」が同じ決定につながるか、「French」と「US」が同じ決定につながります。モデルが「UK」と「US」に同じラベルを付け、「French」を外れたラベルにする必要があることを学習する可能性はありません。

ワンホットエンコーディングにより、特徴空間が実質的に 3 つの特徴に拡大され、それぞれに独自の重みが付けられるため、決定関数は w[UK]x[UK] + w[FR]x[FR] + w[US]x[US] < b になります。ここで、すべての x はブール値です。この空間では、このような線形関数は、可能性の任意の和/論理和を表現できます (たとえば、「UK または US」は、英語を話す人の予測子になる可能性があります)。

同様に、サンプル間の標準的な距離メトリック (k 近傍法など) に基づく学習者は、ワンホット エンコーディングなしでは混乱します。ナイーブ エンコーディングとユークリッド距離では、フランスと米国間の距離は 1 です。米国と英国間の距離は 2 です。しかし、ワンホット エンコーディングでは、[1, 0, 0]、[0, 1, 0]、[0, 0, 1] 間のペアワイズ距離はすべて √2 に等しくなります。

これはすべての学習アルゴリズムに当てはまるわけではありません。決定木やランダム フォレストなどの派生モデルは、十分な深さがあれば、ワンホット エンコーディングなしでカテゴリ変数を処理できます。

おすすめ記事