본문 바로가기

딥러닝/[딥 러닝을 이용한 자연어 처리 입문]딥러닝

불용어(Stopword)

불용어(Stopword)

유의미한 단어 토큰만을 선별하기 위해 조사, 접미사 같은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 제거하는 과정이 필요하다. 

 

1.NLTK에서 불용어 확인하기

 NLTK에서는 패키지 내에서 미리 정의하고 있는 불용어 리스트 확인

 

2.NLTK를 통해서 불용어 제거하기

NLTK의 word_tokenize를 통해서 단어 토큰화를 수행.->불용어 제거

 

3.한국어에서 불용어 제거하기

한국어에서 불용어를 제거하는 방법으로는 간단하게는 토큰화 후에 조사, 접속사 등을 제거하는 방법이 있습니다.

하지만 명사, 형용사와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들이 생길때 사용자가 직접 불용어 사전을 만들기도 한다.

불용어가 많은 경우에는 코드 내에서 직접 정의하지 않고 txt 파일이나 csv 파일로 정리해놓고 이를 불러와서 사용하기도 합니다

불용어 참고 링크 : https://www.ranks.nl/stopwords/korean