word2vec 실습

서론


  • Word2vec에 대한 설명은 word_embedding/word2vec에 있다.

  • 한겨레 신문의 정치 기사 대략 1000개를 수집하였다.
    위의 데이터를 사용해 word2vec을 구현한다.

  • 코드는 github에 공개.

  • [URL] : https://github.com/vhrehfdl/Blog/tree/master/word_embedding

  • 총 3개의 python 파일로 구성되어 있다.

word2vec

정리


  • 앞서 소개했던 BoW, TF-IDF는 Count Based Language Model에 속한다. 왜나하면 word를 vector로 표현할 때 단어의 빈도수를 특성으로 표현하기 때문이다.

  • 이제부터 소개할 Language Model은 Neural Network Language Model이다.

  • NNLM에는 word2vec, FASTTEXT, Glove와 같은 방법들이 존재한다.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×