본문 바로가기

딥러닝

(21)
정규 표현식(Regular Expression) 1.정규 표현식 문법과 모듈 함수 파이썬에서는 정규 표현식 모듈 re을 지원 1) 정규 표현식 문법 특수 문자설명 . 한 개의 임의의 문자를 나타냅니다. (줄바꿈 문자인 \n는 제외) ? 앞의 문자가 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 또는 1개) * 앞의 문자가 무한개로 존재할 수도 있고, 존재하지 않을 수도 있습니다. (문자가 0개 이상) + 앞의 문자가 최소 한 개 이상 존재합니다. (문자가 1개 이상) ^ 뒤의 문자열로 문자열이 시작됩니다. $ 앞의 문자열로 문자열이 끝납니다. {숫자} 숫자만큼 반복합니다. {숫자1, 숫자2} 숫자1 이상 숫자2 이하만큼 반복합니다. ?, *, +를 이것으로 대체할 수 있습니다. {숫자,} 숫자 이상만큼 반복합니다. [ ] 대괄호 안의..
불용어(Stopword) 불용어(Stopword) 유의미한 단어 토큰만을 선별하기 위해 조사, 접미사 같은 자주 등장하지만 분석을 하는 것에 있어서는 큰 도움이 되지 않는 단어들을 제거하는 과정이 필요하다. 1.NLTK에서 불용어 확인하기 NLTK에서는 패키지 내에서 미리 정의하고 있는 불용어 리스트 확인 2.NLTK를 통해서 불용어 제거하기 NLTK의 word_tokenize를 통해서 단어 토큰화를 수행.->불용어 제거 3.한국어에서 불용어 제거하기 한국어에서 불용어를 제거하는 방법으로는 간단하게는 토큰화 후에 조사, 접속사 등을 제거하는 방법이 있습니다. 하지만 명사, 형용사와 같은 단어들 중에서 불용어로서 제거하고 싶은 단어들이 생길때 사용자가 직접 불용어 사전을 만들기도 한다. 불용어가 많은 경우에는 코드 내에서 직접 정..
어간 추출(Stemming) and 표제어 추출(Lemmatization) 정규화 기법 : 코퍼스 복잡성 감소 * 코퍼스에 있는 단어의 개수를 줄일 수 있는 기법 : 표제어 추출(lemmatization)과 어간 추출(stemming) - 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄이는것 표제어 추출(Lemmatization)과 어간 추출(Stemming)은 코퍼스의 복잡성을 감소시키는 기법으로, 하나의 단어로 일반화시켜서 문서 내의 단어 수를 줄입니다. 1. 표제어 추출(Lemmatization) 단어의 원형을 찾아서 문서 내에 동일한 원형의 단어가 있는 경우에 하나의 단어로 일반화시키는 방법 * 표제어(Lemma) : '기본 사전형 단어'의 의미 단어들이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가서 단어의 개수를 줄일 수 있는지 판단합니다 표제어 추출은 문서에서..
정제(Cleaning) and 정규화(Normalization) 정제(Cleaning) and 정규화(Normalization) 토큰화(Tokenization) : 코퍼스에서 용도에 맞게 토큰을 분류하는 작업 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)한다. 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 1. 규칙에 기반한 표기가 다른 단어들의 통합 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 2. 대, 소문자 통합 대문자를 소문자로 변환하는 소문자 변환 작업 : 영어권 언어에서 대문자는 문장의 맨 앞 등과 같은 특정 상황에서만 쓰이고,..
토큰화(Tokenization) 토큰화 : 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 1 단어 토큰화 단어 토큰화 : 토큰의 기준을 단어(word)로 하는 경우 (단어 단위 외에도 단어구, 의미를 갖는 문자열) 2 토큰화 중 생기는 선택의 순간 from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer from tensorflow.keras.preprocessing.text import text_to_word_sequence word_tokenize import nltk nltk.download('punkt') print('단어 토큰화1 :',word_tokenize("Don't be fooled by the da..