본문 바로가기

전체 글

(414)
정제(Cleaning) and 정규화(Normalization) 정제(Cleaning) and 정규화(Normalization) 토큰화(Tokenization) : 코퍼스에서 용도에 맞게 토큰을 분류하는 작업 토큰화 작업 전, 후에는 텍스트 데이터를 용도에 맞게 정제(cleaning) 및 정규화(normalization)한다. 정제(cleaning) : 갖고 있는 코퍼스로부터 노이즈 데이터를 제거한다. 정규화(normalization) : 표현 방법이 다른 단어들을 통합시켜서 같은 단어로 만들어준다. 1. 규칙에 기반한 표기가 다른 단어들의 통합 같은 의미를 갖고있음에도, 표기가 다른 단어들을 하나의 단어로 정규화하는 방법 2. 대, 소문자 통합 대문자를 소문자로 변환하는 소문자 변환 작업 : 영어권 언어에서 대문자는 문장의 맨 앞 등과 같은 특정 상황에서만 쓰이고,..
토큰화(Tokenization) 토큰화 : 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 1 단어 토큰화 단어 토큰화 : 토큰의 기준을 단어(word)로 하는 경우 (단어 단위 외에도 단어구, 의미를 갖는 문자열) 2 토큰화 중 생기는 선택의 순간 from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer from tensorflow.keras.preprocessing.text import text_to_word_sequence word_tokenize import nltk nltk.download('punkt') print('단어 토큰화1 :',word_tokenize("Don't be fooled by the da..
[디지털서비스]데스크탑 가상화 기술(VDI, Virtual Desktop Infrastructure) 데스크탑 가상화 기술(VDI, Virtual Desktop Infrastructure) 중앙의 서버 자원을 이용해 데스크탑 업무 환경을 개별 사용자에게 네트워크상에서 제공하는 컴퓨팅 환경.
[디지털서비스]다크 데이터(Dark Data) 다크 데이터(Dark Data) 기업 내에 저장은 되어 있으나 분석 되지 않은 데이터. 실제 기업 내에서 분석되지 않는 데이터가 많다. 이러한 데이터에 대해 분석할 가치가 있는지 데이터의 가치가 내부적으로 검토 되어야 한다.
[디지털서비스]기계학습, 머신러닝(Machine Learning) 기계학습, 머신러닝(Machine Learning) 데이터를 통해 컴퓨터를 학습시키거나, 컴퓨터가 스스로 학습하여 인공지능의 성능을 향상시키는 방법.
[디지털서비스]그리드 컴퓨팅(Grid Computing) 그리드 컴퓨팅(Grid Computing) 지리적 분산된 컴퓨터 자원을 초고속 N/W로 연결하여 가상의 고성능, 대용량 컴퓨터를 구성하는 기술. 그리드 컴퓨팅은 지리적으로 멀리 떨어진 컴퓨터를 하나의 네트워크로 연결하여 관련 컴퓨터의 계산 능력을 결합함으로써 가상의 슈퍼 컴퓨터를 구축하려고 시작되었다.
[통계기법]최소신장트리(MST, Minimum Spanning Tree) 최소신장트리(MST, Minimum Spanning Tree) 그래프에서 순환 없이 모든 정점을 연결하였을때 가중치가 가장 적게 드는 그래프. 종류로는 Kruskal 알고리즘, Prim 알고리즘, Solin 알고리즘이 있다. 최소신장트리를 이용해서 네트워크 설계, 수송 시스템 설계, 도로 건설, 배관, 전기회로 설계를 수행할 수 있다.
[통계기법]오피니언 마이닝(Opinion Mining) 오피니언 마이닝(Opinion Mining) 웹사이트와 SNS에 나타난 여론과 의견을 분석하여 유의미한 정보로 재가공하는 기술.