본문 바로가기

딥러닝/[밑바닥부터 시작하는 딥러닝]딥러닝

(2)
단순한 word2vec 원래 word2vec은 구글에서 개발한 자연어 처리를 위한 도구로서, 단어를 벡터로 표현하여 단어 간의 유사성을 계산하는 기능을 제공하였습니다. 하지만 이후에 이 도구가 사용한 알고리즘인 CBOW와 skip-gram이라는 모델이 유명해져서, word2vec이라는 용어는 이 모델을 가리키는 것으로도 자주 사용되게 되었습니다. word2vec에서는 CBOW 모델과 skip-gram 모델 두 가지를 사용하며, 각각의 모델에 대해 신경망을 구성합니다. CBOW 모델은 주변 단어들을 입력으로 받아 중앙 단어를 예측하는 방식이고, skip-gram 모델은 중앙 단어를 입력으로 받아 주변 단어를 예측하는 방식입니다. 1.CBOW 모델의 추론 처리 CBOW 모델은 Context Bag of Words의 약자로, 주변 ..
추론 기반 기법과 신경망 통계 기반 기법과 추론 기반 기법 단어의 의미는 주변 단어와의 관계에 따라 형성된다는 분포 가설은 자연어 처리 분야에서 매우 중요한 개념 중 하나입니다. 통계 기반 기법과 추론 기반 기법은 이 분포 가설을 이용하여 단어를 벡터로 표현하는 방법 중 두 가지입니다. 통계 기반 기법은 주변 단어의 출현 빈도를 집계하여 단어를 벡터로 변환하고, 추론 기반 기법은 주변 단어가 주어졌을 때 중심 단어가 출현할 확률을 예측하여 단어를 벡터로 변환합니다. 1.통계 기반 기법의 문제점 통계 기반 기법은 주변 단어의 빈도를 기초로 단어를 표현한다. 단어의 동시발생 행렬을 만들고 그 행렬에 SVD를 적용하여 밀집벡터(단어의 분산 표현)을 얻었습니다. 통계 기반 기법 통계 기반 기법은 단어의 동시발생 행렬을 만들어서 해당 행..