문서 단어 행렬(Document-Term Matrix, DTM)

DTM : 서로 다른 문서들의 BoW들을 결합한 표현 방법인 문서 단어 행렬(Document-Term Matrix, DTM) 표현 방법.

행과 열을 반대로 선택하면 TDM.

서로 다른 문서들을 비교할 수 있게 됩니다.

1. 문서 단어 행렬(Document-Term Matrix, DTM)의 표기법

문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것.

BoW 표현을 다수의 문서에 대해서 행렬로 표현하고 부르는 용어로, 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표기합니다.

문서 단어 행렬은 문서들을 서로 비교할 수 있도록 수치화할 수 있다

2. 문서 단어 행렬(Document-Term Matrix)의 한계

1) 희소 표현(Sparse representation)

원-핫 벡터과 DTM

단어 집합의 크기가 벡터의 차원이 된다.->데이터가 방대하다면 문서 벡터의 차원 또한 거대해진다.

대부분의 값이 0이 되는 희소 벡터 또는 희소 행렬이다.

=>공간적 낭비와 계산 리소스가 크다.많은 양의 저장 공간과 높은 계산 복잡도

구두점, 빈도수가 낮은 단어, 불용어를 제거하고, 어간이나 표제어 추출을 통해 단어를 정규화하여 단어 집합의 크기를 줄일 수 있습니다.

2) 단순 빈도 수 기반 접근

여러 문서에 등장하는 모든 단어에 대해서 빈도 표기를 하는 이런 방법은 때로는 한계를 가지기도 합니다.

앞서 불용어(stopwords)와 같은 단어들은 빈도수가 높더라도 자연어 처리에 있어 의미를 갖지 못하는 단어.

코사인 유사도(Cosine Similarity) (2)	2023.03.14
TF-IDF(Term Frequency-Inverse Document Frequency) (0)	2023.03.14
Bag of Words(BoW) (0)	2023.03.14
다양한 단어의 표현 방법 (0)	2023.03.14
원-핫 인코딩(One-Hot Encoding) (0)	2023.03.14

Lobo2U