WordPiece トークン化は、NLP における稀な単語の問題を効果的に処理するのにどのように役立ちますか? 質問する

Question

WordPiece と BPE は、NLP タスクで単語をサブワードレベルに分割するためによく使用される 2 つの類似した手法です。どちらの場合も、語彙は言語のすべての個別の文字で初期化され、語彙内の最も頻繁な/可能性の高い記号の組み合わせが語彙に繰り返し追加されます。

WordPieceアルゴリズムを考えてみます。原著論文（文言は私が若干修正しました）：

テキスト内のすべての文字を使用して、単語ユニットインベントリを初期化します。

1 のインベントリを使用して、トレーニングデータ上に言語モデルを構築します。

現在の単語インベントリから 2 つの単位を組み合わせて新しい単語単位を生成し、単語単位インベントリを 1 つ増やします。モデルに追加したときにトレーニングデータの可能性が最も高くなる可能性のあるすべての単語単位の中から、新しい単語単位を選択します。

事前に定義された単語単位の制限に達するか、可能性の増加が特定のしきい値を下回るまで、2 に進みます。

のバイオペアルゴリズムはステップ 3 のみで異なり、ここでは、現在のサブワード単位のセットの中で次に頻繁に出現するペアの組み合わせとして新しい単語単位を選択するだけです。

例

入力テキスト: 彼女は歩きました。彼は犬の散歩係です。私は歩きます

最初の 3 つの BPE マージ:

w a=wa
l k=lk
wa lk=walk

したがって、この段階では、語彙には、、、およびとともに、すべての最初の文字が含まれますwa。lk通常walk、これは一定数のマージ操作に対して実行されます。

珍しい/OOV 単語はどのように処理されますか?

簡単に言えば、このような分割方法を使用すると、OOV 単語は不可能になります。語彙に出現しない単語は、サブワード単位に分割されます。同様に、まれな単語の場合、使用したサブワードのマージの数が限られているため、その単語は語彙に出現しないため、より頻繁なサブワードに分割されます。

これはどのように役立ちますか?

モデルがという単語を見たと想像してくださいwalking。この単語がトレーニングコーパスに少なくとも数回出現しない限り、モデルはこの単語をうまく処理する方法を学習できません。ただし、、、という単語がそれぞれ数回しか出現しない可能性がありますwalked。walkerサブワードwalks分割がなければ、これらすべての単語はモデルによって完全に異なる単語として扱われます。

walk@@ ingただし、これらが、などに分割されるとwalk@@ ed、それらすべてにwalk@@共通点が生まれ、トレーニング中に頻繁に発生するようになるため、モデルはそれについてさらに学習できるようになる可能性があることに注意してください。

Answer 1