불용어(Stopword)

불용어(Stopword)

유의미한 단어 토큰만을 선별하기 위해 조사, 접미사 같은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 제거하는 과정이 필요하다.

1.NLTK에서 불용어 확인하기

NLTK에서는 패키지 내에서 미리 정의하고 있는 불용어 리스트 확인

2.NLTK를 통해서 불용어 제거하기

NLTK의 word_tokenize를 통해서 단어 토큰화를 수행.->불용어 제거

3.한국어에서 불용어 제거하기

한국어에서 불용어를 제거하는 방법으로는 간단하게는 토큰화 후에 조사, 접속사 등을 제거하는 방법이 있습니다.

하지만 명사, 형용사와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들이 생길때 사용자가 직접 불용어 사전을 만들기도 한다.

불용어가 많은 경우에는 코드 내에서 직접 정의하지 않고 txt 파일이나 csv 파일로 정리해놓고 이를 불러와서 사용하기도 합니다

정수 인코딩(Integer Encoding) (0)	2023.03.13
정규 표현식(Regular Expression) (0)	2023.03.13
어간 추출(Stemming) and 표제어 추출(Lemmatization) (0)	2023.03.10
정제(Cleaning) and 정규화(Normalization) (0)	2023.03.10
토큰화(Tokenization) (0)	2023.03.10

내 블로그 - 관리자 홈 전환	`Q` `Q`
새 글 쓰기	`W` `W`

글 수정 (권한 있는 경우)	`E` `E`
댓글 영역으로 이동	`C` `C`

Lobo2U