Word2Vecの仕組み
BoW(Bag-of-Words)
「文章」をその中に含まれている単語の1-of-Kベクトルを足し合わせたもので表現する方法
辞書 | 単語ハッシュ値 |
---|---|
a | 1 |
an | 2 |
apple | 3 |
my | 4 |
is | 5 |
pen | 6 |
this | 7 |
文章 | 単語ベクトルデータ | |
---|---|---|
this is a pen | (1, 0, 0, 0, 1, 1, 1 ) | |
) 距離 1.4 | ||
this is my pen | (0, 0, 0, 1, 1, 1, 1 ) | |
) 距離 2.0 | ||
this is an apple | (0, 1, 1, 0, 1, 0, 1 ) |