반응형
doc2vec이란?
paragraph2vec으로 뉴스 기사 본문과 같은 큰 텍스트 블록에 대하여 vector값으로 변환시키는 것을 말한다.
word2vec에서 확장된 버전이라고 생각하면 쉽다.
시작하기
코퍼스(Corpus)의 크기, 문서의 개수가 많을수록 좋다.
실습
word2vec 모델에서는 두 개의 중요한 알고리즘이 있었다. (CBOW와 Skip-gram)
마찬가지로 doc2vec 모델에서도 Distribted memory(DM)과 Distributed bag of words(DBOW)가 있다.
doc2vec의 입력은 Labeled Sentence 객체의 iterator(연속)이다.
각 객체는 하나의 문장을 나타내며 단어 목록과 레이블 목록으로 구성된다.
참고문서
- http://www.engear.net/wp/tag/doc2vec/
- doc2vec 튜토리얼 : https://rare-technologies.com/doc2vec-tutorial/
- gensim에서 doc2vec : https://radimrehurek.com/gensim/models/doc2vec.html
'◼︎ 개발 > ML 알고리즘' 카테고리의 다른 글
K-means Clustering 예제(1) (0) | 2017.11.14 |
---|---|
[머신러닝] lab 8 : Tensor Manipulation (0) | 2017.04.21 |
[머신러닝] lec 8-2 : 딥러닝의 기본 개념2 : Back-propagation 과 2006/2007 '딥'의 출현 (0) | 2017.04.21 |
텍스트 유사성을 판단하는 편집거리 알고리즘 (1) | 2017.04.12 |
[머신러닝] lec 8-1 : 딥러닝의 기본 개념 : 시작과 XOR 문제 (0) | 2017.04.11 |
[머신러닝] lab 7-2 : Meet MNIST Dataset (0) | 2017.04.11 |
[머신러닝] lab 7-1 : training/test dataset, learning rate, normalization (0) | 2017.04.04 |