본문 바로가기

딥러닝/[딥 러닝을 이용한 자연어 처리 입문]딥러닝

문서 단어 행렬(Document-Term Matrix, DTM)

DTM : 서로 다른 문서들의 BoW들을 결합한 표현 방법인 문서 단어 행렬(Document-Term Matrix, DTM) 표현 방법.

행과 열을 반대로 선택하면 TDM.

서로 다른 문서들을 비교할 수 있게 됩니다.

 

1. 문서 단어 행렬(Document-Term Matrix, DTM)의 표기법

문서 단어 행렬(Document-Term Matrix, DTM)이란 다수의 문서에서 등장하는 각 단어들의 빈도를 행렬로 표현한 것.

BoW 표현을 다수의 문서에 대해서 행렬로 표현하고 부르는 용어로, 각 문서에서 등장한 단어의 빈도를 행렬의 값으로 표기합니다.

문서 단어 행렬은 문서들을 서로 비교할 수 있도록 수치화할 수 있다

 

2. 문서 단어 행렬(Document-Term Matrix)의 한계

 

1) 희소 표현(Sparse representation)

원-핫 벡터과 DTM

단어 집합의 크기가 벡터의 차원이 된다.->데이터가 방대하다면 문서 벡터의 차원 또한 거대해진다.

대부분의 값이 0이 되는 희소 벡터 또는 희소 행렬이다.

=>공간적 낭비와 계산 리소스가 크다.많은 양의 저장 공간과 높은 계산 복잡도

 

 구두점, 빈도수가 낮은 단어, 불용어를 제거하고, 어간이나 표제어 추출을 통해 단어를 정규화하여 단어 집합의 크기를 줄일 수 있습니다.

 

2) 단순 빈도 수 기반 접근

여러 문서에 등장하는 모든 단어에 대해서 빈도 표기를 하는 이런 방법은 때로는 한계를 가지기도 합니다. 

앞서 불용어(stopwords)와 같은 단어들은 빈도수가 높더라도 자연어 처리에 있어 의미를 갖지 못하는 단어.