word2vec 실습

서론


  • Word2vec에 대한 설명은 word_embedding/word2vec에 있다.

  • 한겨레 신문의 정치 기사 대략 1000개를 수집하였다.
    위의 데이터를 사용해 word2vec을 구현한다.

  • 코드는 github에 공개.

  • [URL] : https://github.com/vhrehfdl/Blog/tree/master/word_embedding

  • 총 3개의 python 파일로 구성되어 있다.

word2vec

정리


  • 앞서 소개했던 BoW, TF-IDF는 Count Based Language Model에 속한다. 왜나하면 word를 vector로 표현할 때 단어의 빈도수를 특성으로 표현하기 때문이다.

  • 이제부터 소개할 Language Model은 Neural Network Language Model이다.

  • NNLM에는 word2vec, FASTTEXT, Glove와 같은 방법들이 존재한다.

Google Cloud Storage 설치하기

  • Google Cloud Storage 설치

GCS API 403 caller has no permission

  • 에러 : 403 caller has no error.
    GCS 사용하다가 마주친 에러

TF-IDF

  • tf idf 설명.

PostgreSQL 백업 복원

  • PostgreSQL은 DB 특성상 console 작업이 너무 불편해 PgAdmin을 연동해야 한다.

MySQL 백업 복원

  • MySQL Install.

Ubuntu git 설치

  • Git Install

php exec error

  • 에러

    1. PHP에서 Python 스크립트 파일을 실행시켰다.

    2. Python 스크립트 파일에는 pytube를 이용해 영상을 다운받는 코드가 있었다.

    3. 하지만 download 가 되지 않는 문제가 있었다.

  • 에러 원인

    PHP에서 exec를 실행하면 www-data 일반 유저의 권한으로 해당 스크립트 파일을 실행시킨다.
    일반 유저의 권한으로는 파일 읽기 쓰기가 되지 않기 때문에 에러가 났었다.

pycharm java_home error

  • 에러 : Pycharm에 JAVA_HOME이 설정되어 있지 않다.

  • 에러 원인 : Jpype가 설치되어 있지 않았고 JAVA_HOME이 설정 되어있지 않아서 에러가 발생했다.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×