word2vec visualizations
はじめに
Word2Vecとは
Word2Vecのイメージ
Word2Vecの活用事例
Word2Vecの仕組み
入力データ
ハッシュテーブルによる文章の表現
1-of-K表現による単語ベクトルの管理
BoW(Bag-of-Words)
学習アルゴリズム
高速化の手法
Word2Vecの実行方法
ビルドと実行
引数のチューニング
Word2Vecの実装
可視化することの意義
とあるGoogle研究者の論文より
可視化へのモチベーション
可視化のデモ(TensorBoard)
TensorBoard(手書き文字認識)
TensorBoard(自然言語処理)
可視化のデモ(text8コーパス)
可視化のデモ(ガンダム作品)
可視化のデモ(特許公報)
データを保有することの意義
手を動かそう
おわりに
参考:日本語の語彙数
参考:画像のベクトル演算
Powered by
GitBook
1-of-K表現による単語ベクトルの管理
Word2Vecの仕組み
1-of-K表現による単語ベクトルの管理
単語ハッシュ値
単語ベクトルデータ
this
(1, 0, 0, 0)
is
(0, 1, 0, 0)
a
(0, 0, 1, 0)
pen
(0, 0, 0, 1)
ある要素だけが1で、それ以外が0なベクトル
100万語の単語ベクトルを管理する場合、1つの単語は100万次元のベクトルで表現される。
デフォルト200次元(200個の数字の組み)の空間内におけるベクトルとして表現できるように特徴量を抽出します。
results matching "
"
No results matching "
"