본문 바로가기

전체 글

(413)
토큰화(Tokenization) 토큰화 : 코퍼스(corpus)에서 토큰(token)이라 불리는 단위로 나누는 작업 1 단어 토큰화 단어 토큰화 : 토큰의 기준을 단어(word)로 하는 경우 (단어 단위 외에도 단어구, 의미를 갖는 문자열) 2 토큰화 중 생기는 선택의 순간 from nltk.tokenize import word_tokenize from nltk.tokenize import WordPunctTokenizer from tensorflow.keras.preprocessing.text import text_to_word_sequence word_tokenize import nltk nltk.download('punkt') print('단어 토큰화1 :',word_tokenize("Don't be fooled by the da..
[디지털서비스]데스크탑 가상화 기술(VDI, Virtual Desktop Infrastructure) 데스크탑 가상화 기술(VDI, Virtual Desktop Infrastructure) 중앙의 서버 자원을 이용해 데스크탑 업무 환경을 개별 사용자에게 네트워크상에서 제공하는 컴퓨팅 환경.
[디지털서비스]다크 데이터(Dark Data) 다크 데이터(Dark Data) 기업 내에 저장은 되어 있으나 분석 되지 않은 데이터. 실제 기업 내에서 분석되지 않는 데이터가 많다. 이러한 데이터에 대해 분석할 가치가 있는지 데이터의 가치가 내부적으로 검토 되어야 한다.
[디지털서비스]기계학습, 머신러닝(Machine Learning) 기계학습, 머신러닝(Machine Learning) 데이터를 통해 컴퓨터를 학습시키거나, 컴퓨터가 스스로 학습하여 인공지능의 성능을 향상시키는 방법.
[디지털서비스]그리드 컴퓨팅(Grid Computing) 그리드 컴퓨팅(Grid Computing) 지리적 분산된 컴퓨터 자원을 초고속 N/W로 연결하여 가상의 고성능, 대용량 컴퓨터를 구성하는 기술. 그리드 컴퓨팅은 지리적으로 멀리 떨어진 컴퓨터를 하나의 네트워크로 연결하여 관련 컴퓨터의 계산 능력을 결합함으로써 가상의 슈퍼 컴퓨터를 구축하려고 시작되었다.
[통계기법]최소신장트리(MST, Minimum Spanning Tree) 최소신장트리(MST, Minimum Spanning Tree) 그래프에서 순환 없이 모든 정점을 연결하였을때 가중치가 가장 적게 드는 그래프. 종류로는 Kruskal 알고리즘, Prim 알고리즘, Solin 알고리즘이 있다. 최소신장트리를 이용해서 네트워크 설계, 수송 시스템 설계, 도로 건설, 배관, 전기회로 설계를 수행할 수 있다.
[통계기법]오피니언 마이닝(Opinion Mining) 오피니언 마이닝(Opinion Mining) 웹사이트와 SNS에 나타난 여론과 의견을 분석하여 유의미한 정보로 재가공하는 기술.
[통계기법]연관분석(Association Analysis) 연관분석(Association Analysis) 데이터들의 발생빈도를 기반으로 데이터들 간의 연관 관계를 밝히기 위한 너비 우선 탐색 기반의 마이닝 기법. 규칙 1. 한 항목 집합이 빈발하다면, 이 항목 집합의 모든 부분집합은 빈발 항목 집합 | {a,b}->{a},{b} 규칙 2. 한 항목 집합이 비 비발하다면, 이 항목 집합을 포함하는 모든 집합은 비 빈발항목 집합 | {a,b,c,b}->{a,b,c}