10.文字の特徴量表現

Created: 2022/07/14
Last Update: 2022/07/14

文字の特徴量表現の図示

前述のCenterNetを用いた、文字の位置と特徴量を同時に出力するモデルでは、検出された各文字の中心位置に、 それぞれの文字の128次元の特徴量ベクトルが出力されます。 この特徴量ベクトルは、同じ文字はほぼ同じベクトルとなり、近い字体の文字は似たベクトル、異なる文字は異なったベクトルに、 学習されます。

文字の特徴量ベクトル表現

前章で示したように、各文字のBoxの大きさと位置、並んでいる方向のラインが分かり、 本章で示したように、各文字の128次元の特徴量ベクトルがそれぞれ得られます。

現時点では、字体の似た異なる文字、例えば夕とタ、一とーなどが判別できていません。 この後で、Transformerを使ったモデルに、特徴量ベクトルの並びを入力して、文字コードを出力します。 こうすることで、文脈に応じて正しい文字を選択できることが期待できます。

もくじへ戻る