본문 바로가기

딥러닝/[딥 러닝을 이용한 자연어 처리 입문]딥러닝

다양한 단어의 표현 방법

1. 단어의 표현 방법

 

1)국소 표현(Local Representation) 방법

이산 표현(Discrete Representation)

 해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법

 

2)분산 표현(Distributed Representation) 방법

 연속 표현(Continuous Represnetation)

단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법입니다.

 

국소 표현 방법은 단어의 의미, 뉘앙스를 표현할 수 없지만, 분산 표현 방법은 단어의 뉘앙스를 표현할 수 있게 됩니다.

 

2. 단어 표현의 카테고리화

 

1)국소 표현(Local Representation) 방법

 

Bag of Words - 단어의 빈도수를 카운트(Count)하여 단어를 수치화하는 단어 표현 방법

BoW의 확장인 DTM(또는 TDM)

빈도수 기반 단어 표현에 단어의 중요도에 따른 가중치를 줄 수 있는 TF-IDF에 대해서 학습합니다.

 

2)연속 표현(Continuous Representation) 방법

 

워드투벡터(Word2Vec)-예측(prediction)을 기반으로 단어의 뉘앙스를 표현

워드투벡터(Word2Vec)의 확장인 패스트텍스트(FastText)

예측과 카운트라는 두 가지 방법이 모두 사용된 글로브(GloVe)에 대해서 학습합니다.