1. 단어의 표현 방법
1)국소 표현(Local Representation) 방법
이산 표현(Discrete Representation)
해당 단어 그 자체만 보고, 특정값을 맵핑하여 단어를 표현하는 방법
2)분산 표현(Distributed Representation) 방법
연속 표현(Continuous Represnetation)
단어를 표현하고자 주변을 참고하여 단어를 표현하는 방법입니다.
국소 표현 방법은 단어의 의미, 뉘앙스를 표현할 수 없지만, 분산 표현 방법은 단어의 뉘앙스를 표현할 수 있게 됩니다.
2. 단어 표현의 카테고리화
1)국소 표현(Local Representation) 방법
Bag of Words - 단어의 빈도수를 카운트(Count)하여 단어를 수치화하는 단어 표현 방법
BoW의 확장인 DTM(또는 TDM)
빈도수 기반 단어 표현에 단어의 중요도에 따른 가중치를 줄 수 있는 TF-IDF에 대해서 학습합니다.
2)연속 표현(Continuous Representation) 방법
워드투벡터(Word2Vec)-예측(prediction)을 기반으로 단어의 뉘앙스를 표현
워드투벡터(Word2Vec)의 확장인 패스트텍스트(FastText)
예측과 카운트라는 두 가지 방법이 모두 사용된 글로브(GloVe)에 대해서 학습합니다.
'딥러닝 > [딥 러닝을 이용한 자연어 처리 입문]딥러닝' 카테고리의 다른 글
문서 단어 행렬(Document-Term Matrix, DTM) (0) | 2023.03.14 |
---|---|
Bag of Words(BoW) (0) | 2023.03.14 |
원-핫 인코딩(One-Hot Encoding) (0) | 2023.03.14 |
패딩(Padding) (0) | 2023.03.13 |
정수 인코딩(Integer Encoding) (0) | 2023.03.13 |