Word2Vecの仕組み
1-of-K表現による単語ベクトルの管理
単語ハッシュ値 | 単語ベクトルデータ |
---|---|
this | (1, 0, 0, 0) |
is | (0, 1, 0, 0) |
a | (0, 0, 1, 0) |
pen | (0, 0, 0, 1) |
- ある要素だけが1で、それ以外が0なベクトル
- 100万語の単語ベクトルを管理する場合、1つの単語は100万次元のベクトルで表現される。
- デフォルト200次元(200個の数字の組み)の空間内におけるベクトルとして表現できるように特徴量を抽出します。