'◼︎ Machine Learning' 카테고리의 글 목록

◼︎ Machine Learning

doc2vec 2017.12.08
3단계) 모델 학습 수행 ( Training ) 2017.12.08
2단계) 데이터 전처리(Preprocessing 및 파이썬 자연어처리 라이브러리 정리) 2017.12.08 1
K-means Clustering 예제(1) 2017.11.14
[머신러닝] lab 8 : Tensor Manipulation 2017.04.21
[머신러닝] lec 8-2 : 딥러닝의 기본 개념2 : Back-propagation 과 2006/2007 '딥'의 출현 2017.04.21
초평면과 퍼셉트론 이론 2017.04.14
파이썬(Python)에서 hdf5 파일 형식으로 데이터 읽고 쓰기 2017.04.14

doc2vec

2017. 12. 8. 15:16

doc2vec이란?

paragraph2vec으로 뉴스 기사 본문과 같은 큰 텍스트 블록에 대하여 vector값으로 변환시키는 것을 말한다.

word2vec에서 확장된 버전이라고 생각하면 쉽다.

시작하기

코퍼스(Corpus)의 크기, 문서의 개수가 많을수록 좋다.

실습

word2vec 모델에서는 두 개의 중요한 알고리즘이 있었다. (CBOW와 Skip-gram)

마찬가지로 doc2vec 모델에서도 Distribted memory(DM)과 Distributed bag of words(DBOW)가 있다.

doc2vec의 입력은 Labeled Sentence 객체의 iterator(연속)이다.

각 객체는 하나의 문장을 나타내며 단어 목록과 레이블 목록으로 구성된다.

참고문서

http://www.engear.net/wp/tag/doc2vec/
doc2vec 튜토리얼 : https://rare-technologies.com/doc2vec-tutorial/
gensim에서 doc2vec : https://radimrehurek.com/gensim/models/doc2vec.html

저작자표시 비영리 변경금지

'◼︎ Machine Learning > ML 알고리즘' 카테고리의 다른 글

K-means Clustering 예제(1) (0)	2017.11.14
[머신러닝] lab 8 : Tensor Manipulation (0)	2017.04.21
[머신러닝] lec 8-2 : 딥러닝의 기본 개념2 : Back-propagation 과 2006/2007 '딥'의 출현 (0)	2017.04.21
텍스트 유사성을 판단하는 편집거리 알고리즘 (1)	2017.04.12
[머신러닝] lec 8-1 : 딥러닝의 기본 개념 : 시작과 XOR 문제 (0)	2017.04.11
[머신러닝] lab 7-2 : Meet MNIST Dataset (0)	2017.04.11
[머신러닝] lab 7-1 : training/test dataset, learning rate, normalization (0)	2017.04.04

3단계) 모델 학습 수행 ( Training )

2017. 12. 8. 15:05

3단계) 모델 학습 수행 ( Training )

전체 순서

데이터 수집

기존에 수집되어 있는 데이타가 없다면 수집을 하는 단계
Python을 이용한 크롤러 만들기

데이터 전처리 (Data preprocessing)

특수문자, 단어 형태소 분석 등의 처리 등을 하는 단계
스페이스로 자르기 (어절 단위)
불용어 제거하기 (ex. stop > stopped > stopping)
어간 추출하기 (어간, 어미, 어근, 어절...)
문서 표현

모델 학습 수행 (Training)

데이타에 알고리즘 적용

학습결과 확인 및 평가

완료된 학습에 대한 결과를 평가하고 성능을 더 높이고 싶다면 전저리나 알고리즘을 변경하며 작업한다.

2~3단계를 수정하며 반복

저작자표시 비영리 변경금지

'◼︎ Machine Learning > 뉴스 카테고리 추천 시스템 만들기' 카테고리의 다른 글

2단계) 데이터 전처리(Preprocessing 및 파이썬 자연어처리 라이브러리 정리) (1)	2017.12.08

2단계) 데이터 전처리(Preprocessing 및 파이썬 자연어처리 라이브러리 정리)

2017. 12. 8. 08:59

[2단계] 데이터 전처리 (Preprocessing 및 파이썬 자연어처리 라이브러리 정리)

데이터 전처리 순서 (Preprocessing Step)

토큰화 (Tokenization)

문자열에서 단어로 분리시키는 단계

불용어 제거 (Stop word elimination)

전치사, 관사 등 너무 많이 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계

어간 추출 (Stemming)

단어의 기본 형태를 추출하는 단계

문서 표현 (Representation)

주어진 문서나 문장을 하나의 벡터로 표현하는 단계
단어들을 모두 인덱싱(indexing)하고 주어진 문서에 존재하는 단어의 빈도수를 사용하여 문서를 표현

자연어처리를 위한 Python 라이브러리 종류

1. KoNLPy (코엔엘파이) : http://konlpy-ko.readthedocs.io/ko/v0.4.3/#

한국어 자연어처리를 위한 대표적인 파이썬 라이브러리
NLP (Natural Language Processing, 자연어처리)란? 텍스트(Text)에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술 집합
Twitter, Komoran, Mecab 등 다양한 형태소 분석기를 내장하고 있음

관련된 글

https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/

4. 문서 표현 (Representation)

다양한 알고리즘을 사용하여서 문서(Text)를 벡터(Vector)값으로 변환하는 단계이다. (=임베딩, Embedding)

이렇게 바뀐 벡터(Vector)값을 통해서 우리는 유클리디안 거리, 코사인 유사도 등을 통해 단어간의 유사성 등을 구할 수 있다.

word2vec
doc2vec

Dictionary (사전)

단어와 단어에 대한 인덱스가 표시된 사전
단어 자체를 사용하여 문서를 표현하면 비효율적이다.
문서 집합에 있는 문서 전체를 읽어가면서 토큰화, 불용어 제거 등의 순서를 진행하여 사전을 구축한다.
불용어, 어간추출 등의 비적용/부분적용이 가능하다. (선택적)
ex) 사전 파일 (line 번호를 단어 index로 간주)

예제

뉴스 제목 = 한글 + 영어 + 한자 + 특수문자

1차 가정 : 한글만 허용하고 나머지는 삭제해서 학습시켜보기 (추후에 regex 라이브러리 찾아보기, + 영어 라이브러리 적용)

Read Document

from konlpy.corpus import kobill    # Docs from pokr.kr/bill
files_ko = kobill.fileids()         # Get file ids
doc_ko = kobill.open('1809890.txt').read()

Tokenize

from konlpy.tag import Twitter; t = Twitter()
tokens_ko = t.morphs(doc_ko)

Load tokens

import nltk
ko = nltk.Text(tokens_ko, name='대한민국 국회 의안 제 1809890호')   # For Python 2, input `name` as u'유니코드'

기능1) tokens

print(len(ko.tokens))       # returns number of tokens (document length)
print(len(set(ko.tokens)))  # returns number of unique tokens
ko.vocab()

기능2) count

ko.count('초등학교')   # Counts occurrences

기능3) Concordance

ko.concordance('초등학교')

기능4) Similar word

ko.similar('자녀')
ko.similar('육아휴직')

기능5) Collocations

en.collocations()

POS Tagging

from konlpy.tag import Twitter; t = Twitter()
tags_ko = t.pos("작고 노란 강아지가 페르시안 고양이에게 짖었다")

# 수집된 txt 파일을 한 줄씩 \n (줄바꿈)을 기준으로 읽어들인다. 

def read_data(filename):

    with open(filename, 'r') as f:

        data = [line.split('\t') for line in f.read().splitlines()]

        data = data[1:]   # header 제외

    return data

train_data = read_data('ratings_train.txt')

test_data = read_data('ratings_test.txt')

# row, column의 수가 제대로 읽혔는지 확인

print(len(train_data))      # nrows: 150000

print(len(train_data[0]))   # ncols: 3

print(len(test_data))       # nrows: 50000

print(len(test_data[0])) # ncols: 3

# 형태소(POS) 분석을 하고, Tokenizing 한다.

Q. 꼭 형태소/품사를 나눠야하는가?
데이터가 정말 충분하다면, 어절 단위로도 분석이 가능하지만 데이터가 적으므로 형태소로 나누는 것이 필요하다.
품사를 태깅해둔다면 동음이의어를 구분할 수 있다.

from konlpy.tag import Twitter

pos_tagger = Twitter()

def tokenize(doc):

    # norm, stem은 optional

    return ['/'.join(t) for t in pos_tagger.pos(doc, norm=True, stem=True)]

train_docs = [(tokenize(row[1]), row[2]) for row in train_data] # Training Data ( 학습용 데이터 )

test_docs = [(tokenize(row[1]), row[2]) for row in test_data] # Test Data  ( 검증용 데이터 )

# 잘 들어갔는지 확인

from pprint import pprint

pprint(train_docs[0])

# => [(['아/Exclamation',

#   '더빙/Noun',

#   '../Punctuation',

#   '진짜/Noun',

#   '짜증/Noun',

#   '나다/Verb',

#   '목소리/Noun'],

# '0')]

# 말뭉치(Corpus)가 어떤 특징을 가지고 있는지 Training Data의 Token 모으기

tokens = [t for d in train_docs for t in d[0]]

print(len(tokens))

# => 2194536

# NLTK를 통한 tokenize

import nltk
text = nltk.Text(tokens, name='NMSC')
print(text)
# => <Text: NMSC>

print(len(text.tokens))                 # returns number of tokens

# => 2194536

print(len(set(text.tokens)))            # returns number of unique tokens

# => 48765

pprint(text.vocab().most_common(10))    # returns frequency distribution

# => [('./Punctuation', 68630),

#     ('영화/Noun', 51365),

#     ('하다/Verb', 50281),

#     ('이/Josa', 39123),

#     ('보다/Verb', 34764),

#     ('의/Josa', 30480),

#     ('../Punctuation', 29055),

#     ('에/Josa', 27108),

#     ('가/Josa', 26696),

Doc2vec 예제

from collections import namedtuple

TaggedDocument = namedtuple('TaggedDocument', 'words tags')

# 여기서는 15만개 training documents 전부 사용함

tagged_train_docs = [TaggedDocument(d, [c]) for d, c in train_docs]

tagged_test_docs = [TaggedDocument(d, [c]) for d, c in test_docs]

from gensim.models import doc2vec

# 사전 구축

doc_vectorizer = doc2vec.Doc2Vec(size=300, alpha=0.025, min_alpha=0.025, seed=1234)

doc_vectorizer.build_vocab(tagged_train_docs)

# Train document vectors!

for epoch in range(10):

    doc_vectorizer.train(tagged_train_docs)

    doc_vectorizer.alpha -= 0.002  # decrease the learning rate

    doc_vectorizer.min_alpha = doc_vectorizer.alpha  # fix the learning rate, no decay

# To save

# doc_vectorizer.save('doc2vec.model')

pprint(doc_vectorizer.most_similar('공포/Noun'))

# => [('서스펜스/Noun', 0.5669919848442078),

#     ('미스터리/Noun', 0.5522832274436951),

#     ('스릴러/Noun', 0.5021427869796753),

#     ('장르/Noun', 0.5000861287117004),

#     ('판타지/Noun', 0.4368450343608856),

#     ('무게/Noun', 0.42848479747772217),

#     ('호러/Noun', 0.42714330554008484),

#     ('환타지/Noun', 0.41590073704719543),

#     ('멜로/Noun', 0.41056352853775024),

#     ('공포영화/Noun', 0.4052993059158325)]

해당 예제는 https://www.lucypark.kr/courses/2015-dm/text-mining.html 를 참고하여 만들어졌습니다.

참고 문서

Doc2vec : https://medium.com/@mishra.thedeepak/doc2vec-in-a-simple-way-fa80bfe81104
CNN으로 문장 분류하기 : https://ratsgo.github.io/natural%20language%20processing/2017/03/19/CNN/
세종 말뭉치 : http://konlpy-ko.readthedocs.io/ko/v0.4.3/data/#kkma-system-dictionary
https://www.slideshare.net/healess/python-tensorflow-ai-chatbot
RNN : http://aikorea.org/blog/rnn-tutorial-2/
TEXT Classification : http://arkainoh.blogspot.kr/2017/09/python.text.classification.html
https://ratsgo.github.io/natural%20language%20processing/2017/03/08/word2vec/
http://newsight.tistory.com/212
http://www.engear.net/wp/doc2vec-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/

저작자표시 비영리 변경금지

'◼︎ Machine Learning > 뉴스 카테고리 추천 시스템 만들기' 카테고리의 다른 글

3단계) 모델 학습 수행 ( Training ) (0)	2017.12.08

K-means Clustering 예제(1)

2017. 11. 14. 16:38

K-means Clustering 테스트 자료

import tensorflow as tf
from tensorflow.contrib.factorization import KMeans
from tensorflow.python.framework import ops


k = 3 #3개의 Cluster로 설정
num_features  = 3 #데이터 Feature 2 (카테고리 분류 코드, 제목)

# 데이터 읽어오기
Data_X = []
with open("C:/Users/N3815/Desktop/sample_kmeans_data.txt", 'r') as f:
    for line in f.readlines():
        dump = []
        dump.append(float(line.split()[1].split(":")[1]) )
        dump.append(float(line.split()[2].split(":")[1]))
        dump.append(float(line.split()[3].split(":")[1]))
        Data_X.append(dump)

    print(Data_X)

X = tf.placeholder(tf.float32, shape = [None, num_features])

kmeans = KMeans(inputs=X, num_clusters=k, distance_metric='squared_euclidean', use_mini_batch=True)

(all_scores, cluster_idx, scores, cluster_centers_initialized, init_op, train_op) = kmeans.training_graph()
cluster_idx = cluster_idx[0]
avg_distance = tf.reduce_mean(scores)

init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
sess.run(init_op, feed_dict={X: Data_X})

#학습
for i in range(1, 100) :
    _, d, idx = sess.run([train_op, avg_distance, cluster_idx], feed_dict={X: Data_X})

#확인
print(idx, d)
for i in range(0,k) :
    result = []
    for j in range(0, idx.size,1) :
        if(idx[j] == i):
            result.append(Data_X[j])
        print(i, '에 속한 데이터 :', result)

0 1:0.0 2:0.0 3:0.0

1 1:0.1 2:0.1 3:0.1

2 1:0.2 2:0.2 3:0.2

3 1:9.0 2:9.0 3:9.0

4 1:9.1 2:9.1 3:9.1

5 1:9.2 2:9.2 3:9.2

6 1:5.5 2:2.5 3:5.7

7 1:5.2 2:2.5 3:5.3

8 1:5.4 2:5.9 3:5.9

9 1:0.1 2:9.0 3:9.1

10 1:9.1 2:9.2 3:9.3

참고 : http://iamksu.tistory.com/84

저작자표시 비영리 변경금지

'◼︎ Machine Learning > ML 알고리즘' 카테고리의 다른 글

doc2vec (0)	2017.12.08
[머신러닝] lab 8 : Tensor Manipulation (0)	2017.04.21
[머신러닝] lec 8-2 : 딥러닝의 기본 개념2 : Back-propagation 과 2006/2007 '딥'의 출현 (0)	2017.04.21
텍스트 유사성을 판단하는 편집거리 알고리즘 (1)	2017.04.12
[머신러닝] lec 8-1 : 딥러닝의 기본 개념 : 시작과 XOR 문제 (0)	2017.04.11
[머신러닝] lab 7-2 : Meet MNIST Dataset (0)	2017.04.11
[머신러닝] lab 7-1 : training/test dataset, learning rate, normalization (0)	2017.04.04

[머신러닝] lab 8 : Tensor Manipulation

2017. 4. 21. 16:00

[머신러닝] lab 8: Tensor Manipulation

https://www.youtube.com/watch?v=ZYX0FaqUeN4&index=24&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm

1. 텐서플로우의 기본적인 1차원 Array 사용법

t = np.array([0,1,2,3,4,5,6])

pp.print(t)

print(t.ndim) #차원 수 출력

print(t.shape) #행렬

print(t[0], t[1], t[-1])...

print(t[2:5], t[4:-1])...

print(t[:2], t[4:])...

2. 2차원의 Array 사용법

t = np.array([1, 2, 3],[1, 2, 3], [1, 2, 3], [1, 2, 3])

pp.print(t) #(4,3)행렬이 나오게 됨

print(t.ndim) # 차원 수 : 2

print(t.shape) # 행렬

저작자표시 비영리 변경금지

'◼︎ Machine Learning > ML 알고리즘' 카테고리의 다른 글

doc2vec (0)	2017.12.08
K-means Clustering 예제(1) (0)	2017.11.14
[머신러닝] lec 8-2 : 딥러닝의 기본 개념2 : Back-propagation 과 2006/2007 '딥'의 출현 (0)	2017.04.21
텍스트 유사성을 판단하는 편집거리 알고리즘 (1)	2017.04.12
[머신러닝] lec 8-1 : 딥러닝의 기본 개념 : 시작과 XOR 문제 (0)	2017.04.11
[머신러닝] lab 7-2 : Meet MNIST Dataset (0)	2017.04.11
[머신러닝] lab 7-1 : training/test dataset, learning rate, normalization (0)	2017.04.04

[머신러닝] lec 8-2 : 딥러닝의 기본 개념2 : Back-propagation 과 2006/2007 '딥'의 출현

2017. 4. 21. 15:46

#모두를 위한 딥러닝 강좌 lec 8-2 : 딥러닝의 기본 개념2: Back-propagation 과 2006/2007 '딥'의 출현

https://www.youtube.com/watch?v=AByVbUX1PUI&list=PLlMkM4tgfjnLSOjrEJN31gZATbcj_MpUm&index=23

Breakthrough

in 2006 and 2007 by Hinton and Bengio

초기값을 잘준다면 신경망이 많아도 학습이 잘 될 수 있다는 이론의 논문 발표

뉴럴넷이라고 하면 사람들이 어려워하고 힘들어하니까 Deep learning 으로 명칭도 바꿔서 말하기 시작함

ImageNet

이미지 넷이라는 사이트에서는 사진을 주고 컴퓨터에게 무슨 사진인지 맞춰보라고 하는 기능이 비약적으로 오류율을 줄이면서 관심을 더 갖게 됨

뿐만 아니라 기술의 발전으로 그림을 설명하기도 했다.

최근 바이두에서는 소음이 많은 곳에서도 사람의 음성을 인식하는 기술을 개발했다..

그러면서 Hinton이 왜 이전에 잘 안됐는지 4가지 원인을 밝혀보았다.

요건 다음 시간에..

데이터 마이닝을 알면 뭐가 좋은가?

비즈니스 환경에서 활용할 수 있다.

ex) 유튜브의 자막, 페이스북의 추천도 모두 AI를 통해서 만들어지고 있는 서비스다.

저작자표시 비영리 변경금지

'◼︎ Machine Learning > ML 알고리즘' 카테고리의 다른 글

doc2vec (0)	2017.12.08
K-means Clustering 예제(1) (0)	2017.11.14
[머신러닝] lab 8 : Tensor Manipulation (0)	2017.04.21
텍스트 유사성을 판단하는 편집거리 알고리즘 (1)	2017.04.12
[머신러닝] lec 8-1 : 딥러닝의 기본 개념 : 시작과 XOR 문제 (0)	2017.04.11
[머신러닝] lab 7-2 : Meet MNIST Dataset (0)	2017.04.11
[머신러닝] lab 7-1 : training/test dataset, learning rate, normalization (0)	2017.04.04

초평면과 퍼셉트론 이론

2017. 4. 14. 13:35

동영상으로 보는 초평면의 개념

저작자표시 비영리 변경금지

'◼︎ Machine Learning > 머신러닝 관련 문서' 카테고리의 다른 글

파이썬(Python)에서 hdf5 파일 형식으로 데이터 읽고 쓰기 (0)	2017.04.14
hdf5 파일 형식이란? (0)	2017.04.14
데이터마이닝 분석 방법 및 알고리즘 (0)	2017.02.06
데이터마이닝의 개념 (0)	2017.02.03

파이썬(Python)에서 hdf5 파일 형식으로 데이터 읽고 쓰기

2017. 4. 14. 10:33

저작자표시 비영리 변경금지

'◼︎ Machine Learning > 머신러닝 관련 문서' 카테고리의 다른 글

초평면과 퍼셉트론 이론 (0)	2017.04.14
hdf5 파일 형식이란? (0)	2017.04.14
데이터마이닝 분석 방법 및 알고리즘 (0)	2017.02.06
데이터마이닝의 개념 (0)	2017.02.03

PREV 1 2 3 4 5 NEXT

Ailyn의 기술 블로그