반응형



doc2vec이란?

paragraph2vec으로 뉴스 기사 본문과 같은 큰 텍스트 블록에 대하여 vector값으로 변환시키는 것을 말한다.

word2vec에서 확장된 버전이라고 생각하면 쉽다. 


시작하기

코퍼스(Corpus)의 크기, 문서의 개수가 많을수록 좋다.


실습

word2vec 모델에서는 두 개의 중요한 알고리즘이 있었다. (CBOW와 Skip-gram)

마찬가지로 doc2vec 모델에서도 Distribted memory(DM)과 Distributed bag of words(DBOW)가 있다.


doc2vec의 입력은 Labeled Sentence 객체의 iterator(연속)이다.

각 객체는 하나의 문장을 나타내며 단어 목록과 레이블 목록으로 구성된다.



참고문서




+ Recent posts