word2vec visualizations
はじめに
Word2Vecとは
Word2Vecのイメージ
Word2Vecの活用事例
Word2Vecの仕組み
入力データ
ハッシュテーブルによる文章の表現
1-of-K表現による単語ベクトルの管理
BoW(Bag-of-Words)
学習アルゴリズム
高速化の手法
Word2Vecの実行方法
ビルドと実行
引数のチューニング
Word2Vecの実装
可視化することの意義
とあるGoogle研究者の論文より
可視化へのモチベーション
可視化のデモ(TensorBoard)
TensorBoard(手書き文字認識)
TensorBoard(自然言語処理)
可視化のデモ(text8コーパス)
可視化のデモ(ガンダム作品)
可視化のデモ(特許公報)
データを保有することの意義
手を動かそう
おわりに
参考:日本語の語彙数
参考:画像のベクトル演算
Powered by
GitBook
高速化の手法
Word2Vecの仕組み
高速化の手法
Negative Sampling
window変数(デフォルト:5単語) の範囲内にある単語については関連性の確率を高く、それ以外からランダムに選ばれた単語については確率を低くするように学習していく手法
階層的ソフトマックス
全ての単語毎に計算した場合、膨大な計算量になるため、階層的なグループに分けて、各グループごとに学習する
results matching "
"
No results matching "
"