YOLO オブジェクト検出: アルゴリズムはグリッド セルよりも大きい境界ボックスをどのように予測しますか? 質問する

YOLO オブジェクト検出: アルゴリズムはグリッド セルよりも大きい境界ボックスをどのように予測しますか? 質問する

私は、YOLO2 と YOLO3 のアルゴリズムがどのように機能するかをより深く理解しようとしています。このアルゴリズムは、グリッドに到達するまで一連の畳み込みを処理します13x13。その後、各グリッド セル内のオブジェクトと、それらのオブジェクトの境界ボックスを分類できます。

ここに画像の説明を入力してください

この図を見ると、赤で囲まれた境界ボックスが個々のグリッド セルよりも大きいことがわかります。また、境界ボックスはオブジェクトの中心に配置されています。

私の質問は、ネットワークのアクティベーションが個々のグリッド セルに基づいている場合、予測された境界ボックスがグリッド セルのサイズを超える理由についてです。つまり、グリッド セルの外側にあるすべてのものは、そのセルで検出されたオブジェクトの境界ボックスを予測するニューロンには未知であるはずです。

より正確に言えば、私の質問は次のとおりです。

1. アルゴリズムはグリッド セルよりも大きい境界ボックスをどのように予測しますか?

2. アルゴリズムは、オブジェクトの中心がどのセルにあるかをどのように認識するのでしょうか?

ベストアンサー1

グリッド セルの外側にあるものはすべて、そのセル内で検出されたオブジェクトの境界ボックスを予測するニューロンには未知である必要があります。

それは正確ではありません。セルは、ニューロンがオブジェクトの中心がその中にある場合に反応することを学習した画像のパーティションに対応しています。

しかし受容野これらの出力ニューロンはセルよりもはるかに大きく、実際には画像全体をカバーします。そのため、割り当てられた「中心セル」よりもはるかに大きなオブジェクトを認識し、その周囲に境界ボックスを描くことができます。

つまり、細胞は出力ニューロンの受容野の中心に位置しますが、その部分ははるかに小さくなります。また、ある程度は恣意的であり、たとえば重なり合った細胞があると想像することもできます。その場合、物体が細胞の重なり合う領域の中心に位置すると、隣接するニューロンが同時に発火することが予想されます。

おすすめ記事