BERT

BERT 소개


  • Google 에서 만든 Word Embedding 기법 ( 2018. 10. 11 논문 공개 )

  • NLP 11개 Task에 SOTA(State of the Arts)를 기록했으며, SQuAD v1.1에서는 인간보다 더 높은 정확도를 보여 주목을 받고 있다.

  • 최근까지 GLUE NLP Task 에서 1등을 차지했었다. ( 그러나 MT-DNN에 1등을 뺏겼다. )

  • Pre-trained 기반 딥러닝 언어 모델

  • BERT 개발자들의 접근방식 : (1) 범용 솔루션을 (2) 스케일러블 한 형태로 구현해서 (3) 많은 머신리소스로 훈련해서 성능을 높인다

  • BERT는 Contextual Embedding 방법에 속한다. (Contextualised Word Embedding은 단어마다 벡터가 고정되어 있지 않고 문장마다 단어의 Vector가 달라지는 Embedding 방법을 뜻한다 대표적으로 ELMo, GPT, BERT가 있다.)

word2vec 실습

서론


  • Word2vec에 대한 설명은 word_embedding/word2vec에 있다.

  • 한겨레 신문의 정치 기사 대략 1000개를 수집하였다.
    위의 데이터를 사용해 word2vec을 구현한다.

  • 코드는 github에 공개.

  • [URL] : https://github.com/vhrehfdl/Blog/tree/master/word_embedding

  • 총 3개의 python 파일로 구성되어 있다.

word2vec

정리


  • 앞서 소개했던 BoW, TF-IDF는 Count Based Language Model에 속한다. 왜나하면 word를 vector로 표현할 때 단어의 빈도수를 특성으로 표현하기 때문이다.

  • 이제부터 소개할 Language Model은 Neural Network Language Model이다.

  • NNLM에는 word2vec, FASTTEXT, Glove와 같은 방법들이 존재한다.

TF-IDF

  • tf idf 설명.

Bag of Words

소개


Bag of Words란 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도에만 집중하는 텍스트 데이터의 수치화 표현 방법이다.

One Hot Encoding

소개


One Hot Encoding이란 벡터 표현 방법이다.
One Hot Encoding을 이용해 표현한 벡터를 One Hot Vector라고 한다.

Your browser is out-of-date!

Update your browser to view this website correctly. Update my browser now

×