DTM : 서로 다른 문서들의 BoW들을 결합한 표현 방법인 문서 단어 행렬(Document-Term Matrix, DTM) 표현 방법.
행과 열을 반대로 선택하면 TDM.
서로 다른 문서들을 비교할 수 있게 됩니다.
1. 문서 단어 행렬(Document-Term Matrix, DTM)의 표기법
문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것.
BoW 표현을 다수의 문서에 대해서 행렬로 표현하고 부르는 용어로, 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표기합니다.
문서 단어 행렬은 문서들을 서로 비교할 수 있도록 수치화할 수 있다
2. 문서 단어 행렬(Document-Term Matrix)의 한계
1) 희소 표현(Sparse representation)
원-핫 벡터과 DTM
단어 집합의 크기가 벡터의 차원이 된다.->데이터가 방대하다면 문서 벡터의 차원 또한 거대해진다.
대부분의 값이 0이 되는 희소 벡터 또는 희소 행렬이다.
=>공간적 낭비와 계산 리소스가 크다.많은 양의 저장 공간과 높은 계산 복잡도
구두점, 빈도수가 낮은 단어, 불용어를 제거하고, 어간이나 표제어 추출을 통해 단어를 정규화하여 단어 집합의 크기를 줄일 수 있습니다.
2) 단순 빈도 수 기반 접근
여러 문서에 등장하는 모든 단어에 대해서 빈도 표기를 하는 이런 방법은 때로는 한계를 가지기도 합니다.
앞서 불용어(stopwords)와 같은 단어들은 빈도수가 높더라도 자연어 처리에 있어 의미를 갖지 못하는 단어.
'딥러닝 > [딥 러닝을 이용한 자연어 처리 입문]딥러닝' 카테고리의 다른 글
코사인 유사도(Cosine Similarity) (2) | 2023.03.14 |
---|---|
TF-IDF(Term Frequency-Inverse Document Frequency) (0) | 2023.03.14 |
Bag of Words(BoW) (0) | 2023.03.14 |
다양한 단어의 표현 방법 (0) | 2023.03.14 |
원-핫 인코딩(One-Hot Encoding) (0) | 2023.03.14 |