44) 불 대수

  • 불 대수는 하나의 명제가 '참' 또는 '거짓'인가를 판단하는데 이용되는 수학적인 방법이다.
  • 영국의 수학자 불(G. Boole)에 의해 개발되었다.
  • 디지털 컴퓨터는 참과 거짓을 나타내는 1(참)과 0(거짓)의 두 가지 상태로만 표현하여 처리하는 2진(Binary) 논리회로로 구성되었고, 이때 불 대수가 사용된다.
1) 기본적인 논리 함수

AND

OR 

NOT 

A       B

A AND B

A       B

A OR B 

A

NOT B 

0       0

 0

0       0

 0

 0

 1

0       1

 0

0       1

 1

 1

 0

1        0

 0

1        0

 1

 

 

1        1

 1

1        1 

 1

 

 


AND
  • 입력 정보 값이 모두 1일 때 1이 출력된다.
  • 표현식 : 
OR
  • 입력 정보 값이 하나라도 1이면 1이 출력된다.
  • 표현식 : 
NOT
  • 입력되는 정보의 반대값이 출력된다.
  • 입력되는 값이 항상 1개이다.
  • 표현식 : 

2) 불 대수의 기본 공식


 법칙명

 예제

 비고

 
교환법칙

 

 

 
결합법칙

 

 


분배법칙

 

  A+B*C=(A+B)*(A+C)는 일반 대수식에서는 성립하지 않으므로 그냥 외울 것


멱등법칙

 

 


보수법칙

 

 


항등법칙

 

 


콘센서스

 

 


드모르강

 

 


복원법칙

 

 


3) 논리식의 간소화


불 대수의 기본 공식을 이용하여 간소화하면 된다.

  1. 합의 곱 표현곱의 합 표현으로 변환한다.
  2. 공통 인수를 뽑아 묶는다.
  3. 멱등법칙, 보수법칙, 항등법칙 등의 기본 공식 형태로 유하여 줄여 나간다.

4) 카르노 맵 (카르노 도, Karnaugh Map) 이용하기

  • 카르노 맵은 설계된 논리식을 도표로 표현하여 최소화하는 방법이다.
  • 카르노 맵은 변수 (입력선)의 개수에 따라 표의 크기가 달라지며 칸의 위치에 따라서 각 칸의 불 함수가 정해진다.


참고

  • https://en.wikipedia.org/wiki/Boolean_algebra


'▲정보처리기사' 카테고리의 다른 글

44) 불 대수  (0) 2017.12.31




아파치 2.4.25 conf 파일 


# # This is the main Apache HTTP server configuration file. It contains the # configuration directives that give the server its instructions. # See for detailed information.

# In particular, see # # for a discussion of each configuration directive. # # Do NOT simply read the instructions in here without understanding # what they do. They're here only as hints or reminders. If you are unsure # consult the online docs. You have been warned. # # Configuration and logfile names: If the filenames you specify for many # of the server's control files begin with "/" (or "drive:/" for Win32), the # server will use that explicit path. If the filenames do *not* begin # with "/", the value of ServerRoot is prepended -- so "logs/access_log" # with ServerRoot set to "/usr/local/apache2" will be interpreted by the # server as "/usr/local/apache2/logs/access_log", whereas "/logs/access_log" # will be interpreted as '/logs/access_log'. # # ServerRoot: The top of the directory tree under which the server's # configuration, error, and log files are kept. # # Do not add a slash at the end of the directory path. If you point # ServerRoot at a non-local disk, be sure to specify a local disk on the # Mutex directive, if file-based mutexes are used. If you wish to share the # same ServerRoot for multiple httpd daemons, you will need to change at # least PidFile. # ServerRoot "/usr" # # Mutex: Allows you to set the mutex mechanism and mutex file directory # for individual mutexes, or change the global defaults # # Uncomment and change the directory if mutexes are file-based and the default # mutex file directory is not on a local disk or is not appropriate for some # other reason. # # Mutex default:/private/var/run # # Listen: Allows you to bind Apache to specific IP addresses and/or # ports, instead of the default. See also the # directive. # # Change this to Listen on specific IP addresses as shown below to # prevent Apache from glomming onto all bound IP addresses. # #Listen 12.34.56.78:80 Listen 80 # # Dynamic Shared Object (DSO) Support # # To be able to use the functionality of a module which was built as a DSO you # have to place corresponding `LoadModule' lines at this location so the # directives contained in it are actually available _before_ they are used. # Statically compiled modules (those listed by `httpd -l') do not need # to be loaded here. # # Example: # LoadModule foo_module modules/mod_foo.so # LoadModule authn_file_module libexec/apache2/mod_authn_file.so #LoadModule authn_dbm_module libexec/apache2/mod_authn_dbm.so #LoadModule authn_anon_module libexec/apache2/mod_authn_anon.so #LoadModule authn_dbd_module libexec/apache2/mod_authn_dbd.so #LoadModule authn_socache_module libexec/apache2/mod_authn_socache.so LoadModule authn_core_module libexec/apache2/mod_authn_core.so LoadModule authz_host_module libexec/apache2/mod_authz_host.so LoadModule authz_groupfile_module libexec/apache2/mod_authz_groupfile.so LoadModule authz_user_module libexec/apache2/mod_authz_user.so #LoadModule authz_dbm_module libexec/apache2/mod_authz_dbm.so #LoadModule authz_owner_module libexec/apache2/mod_authz_owner.so #LoadModule authz_dbd_module libexec/apache2/mod_authz_dbd.so LoadModule authz_core_module libexec/apache2/mod_authz_core.so #LoadModule authnz_ldap_module libexec/apache2/mod_authnz_ldap.so LoadModule access_compat_module libexec/apache2/mod_access_compat.so LoadModule auth_basic_module libexec/apache2/mod_auth_basic.so #LoadModule auth_form_module libexec/apache2/mod_auth_form.so #LoadModule auth_digest_module libexec/apache2/mod_auth_digest.so #LoadModule allowmethods_module libexec/apache2/mod_allowmethods.so #LoadModule file_cache_module libexec/apache2/mod_file_cache.so #LoadModule cache_module libexec/apache2/mod_cache.so #LoadModule cache_disk_module libexec/apache2/mod_cache_disk.so #LoadModule cache_socache_module libexec/apache2/mod_cache_socache.so #LoadModule socache_shmcb_module libexec/apache2/mod_socache_shmcb.so #LoadModule socache_dbm_module libexec/apache2/mod_socache_dbm.so #LoadModule socache_memcache_module libexec/apache2/mod_socache_memcache.so #LoadModule watchdog_module libexec/apache2/mod_watchdog.so #LoadModule macro_module libexec/apache2/mod_macro.so #LoadModule dbd_module libexec/apache2/mod_dbd.so #LoadModule dumpio_module libexec/apache2/mod_dumpio.so #LoadModule echo_module libexec/apache2/mod_echo.so #LoadModule buffer_module libexec/apache2/mod_buffer.so #LoadModule data_module libexec/apache2/mod_data.so #LoadModule ratelimit_module libexec/apache2/mod_ratelimit.so LoadModule reqtimeout_module libexec/apache2/mod_reqtimeout.so #LoadModule ext_filter_module libexec/apache2/mod_ext_filter.so #LoadModule request_module libexec/apache2/mod_request.so #LoadModule include_module libexec/apache2/mod_include.so LoadModule filter_module libexec/apache2/mod_filter.so #LoadModule reflector_module libexec/apache2/mod_reflector.so #LoadModule substitute_module libexec/apache2/mod_substitute.so #LoadModule sed_module libexec/apache2/mod_sed.so #LoadModule charset_lite_module libexec/apache2/mod_charset_lite.so #LoadModule deflate_module libexec/apache2/mod_deflate.so #LoadModule xml2enc_module libexec/apache2/mod_xml2enc.so #LoadModule proxy_html_module libexec/apache2/mod_proxy_html.so LoadModule mime_module libexec/apache2/mod_mime.so #LoadModule ldap_module libexec/apache2/mod_ldap.so LoadModule log_config_module libexec/apache2/mod_log_config.so #LoadModule log_debug_module libexec/apache2/mod_log_debug.so #LoadModule log_forensic_module libexec/apache2/mod_log_forensic.so #LoadModule logio_module libexec/apache2/mod_logio.so LoadModule env_module libexec/apache2/mod_env.so #LoadModule mime_magic_module libexec/apache2/mod_mime_magic.so #LoadModule expires_module libexec/apache2/mod_expires.so LoadModule headers_module libexec/apache2/mod_headers.so #LoadModule usertrack_module libexec/apache2/mod_usertrack.so ##LoadModule unique_id_module libexec/apache2/mod_unique_id.so LoadModule setenvif_module libexec/apache2/mod_setenvif.so LoadModule version_module libexec/apache2/mod_version.so #LoadModule remoteip_module libexec/apache2/mod_remoteip.so #LoadModule proxy_module libexec/apache2/mod_proxy.so #LoadModule proxy_connect_module libexec/apache2/mod_proxy_connect.so #LoadModule proxy_ftp_module libexec/apache2/mod_proxy_ftp.so #LoadModule proxy_http_module libexec/apache2/mod_proxy_http.so #LoadModule proxy_fcgi_module libexec/apache2/mod_proxy_fcgi.so #LoadModule proxy_scgi_module libexec/apache2/mod_proxy_scgi.so #LoadModule proxy_wstunnel_module libexec/apache2/mod_proxy_wstunnel.so #LoadModule proxy_ajp_module libexec/apache2/mod_proxy_ajp.so #LoadModule proxy_balancer_module libexec/apache2/mod_proxy_balancer.so #LoadModule proxy_express_module libexec/apache2/mod_proxy_express.so #LoadModule proxy_hcheck_module libexec/apache2/mod_proxy_hcheck.so #LoadModule session_module libexec/apache2/mod_session.so #LoadModule session_cookie_module libexec/apache2/mod_session_cookie.so #LoadModule session_dbd_module libexec/apache2/mod_session_dbd.so LoadModule slotmem_shm_module libexec/apache2/mod_slotmem_shm.so #LoadModule slotmem_plain_module libexec/apache2/mod_slotmem_plain.so #LoadModule ssl_module libexec/apache2/mod_ssl.so #LoadModule dialup_module libexec/apache2/mod_dialup.so #LoadModule lbmethod_byrequests_module libexec/apache2/mod_lbmethod_byrequests.so #LoadModule lbmethod_bytraffic_module libexec/apache2/mod_lbmethod_bytraffic.so #LoadModule lbmethod_bybusyness_module libexec/apache2/mod_lbmethod_bybusyness.so ##LoadModule lbmethod_heartbeat_module libexec/apache2/mod_lbmethod_heartbeat.so LoadModule unixd_module libexec/apache2/mod_unixd.so #LoadModule heartbeat_module libexec/apache2/mod_heartbeat.so #LoadModule heartmonitor_module libexec/apache2/mod_heartmonitor.so #LoadModule dav_module libexec/apache2/mod_dav.so LoadModule status_module libexec/apache2/mod_status.so LoadModule autoindex_module libexec/apache2/mod_autoindex.so #LoadModule asis_module libexec/apache2/mod_asis.so #LoadModule info_module libexec/apache2/mod_info.so #LoadModule cgi_module libexec/apache2/mod_cgi.so #LoadModule dav_fs_module libexec/apache2/mod_dav_fs.so #LoadModule dav_lock_module libexec/apache2/mod_dav_lock.so #LoadModule vhost_alias_module libexec/apache2/mod_vhost_alias.so LoadModule negotiation_module libexec/apache2/mod_negotiation.so LoadModule dir_module libexec/apache2/mod_dir.so #LoadModule imagemap_module libexec/apache2/mod_imagemap.so #LoadModule actions_module libexec/apache2/mod_actions.so #LoadModule speling_module libexec/apache2/mod_speling.so #LoadModule userdir_module libexec/apache2/mod_userdir.so LoadModule alias_module libexec/apache2/mod_alias.so #LoadModule rewrite_module libexec/apache2/mod_rewrite.so #LoadModule php5_module libexec/apache2/libphp5.so #LoadModule perl_module libexec/apache2/mod_perl.so LoadModule hfs_apple_module libexec/apache2/mod_hfs_apple.so # # If you wish httpd to run as a different user or group, you must run # httpd as root initially and it will switch. # # User/Group: The name (or #number) of the user/group to run httpd as. # It is usually good practice to create a dedicated user and group for # running httpd, as with most system services. # User _www Group _www # 'Main' server configuration # # The directives in this section set up the values used by the 'main' # server, which responds to any requests that aren't handled by a # definition. These values also provide defaults for # any containers you may define later in the file. # # All of these directives may appear inside containers, # in which case these default settings will be overridden for the # virtual host being defined. # # # ServerAdmin: Your address, where problems with the server should be # e-mailed. This address appears on some server-generated pages, such # as error documents. e.g. admin@your-domain.com # ServerAdmin you@example.com # # ServerName gives the name and port that the server uses to identify itself. # This can often be determined automatically, but we recommend you specify # it explicitly to prevent problems during startup. # # If your host doesn't have a registered DNS name, enter its IP address here. # #ServerName www.example.com:80 # # Deny access to the entirety of your server's filesystem. You must # explicitly permit access to web content directories in other # blocks below. # AllowOverride none Require all denied # # Note that from this point forward you must specifically allow # particular features to be enabled - so if something's not working as # you might expect, make sure that you have specifically enabled it # below. # # # DocumentRoot: The directory out of which you will serve your # documents. By default, all requests are taken from this directory, but # symbolic links and aliases may be used to point to other locations. # DocumentRoot "/Library/WebServer/Documents" # # Possible values for the Options directive are "None", "All", # or any combination of: # Indexes Includes FollowSymLinks SymLinksifOwnerMatch ExecCGI MultiViews # # Note that "MultiViews" must be named *explicitly* --- "Options All" # doesn't give it to you. # # The Options directive is both complicated and important. Please see # http://httpd.apache.org/docs/2.4/mod/core.html#options # for more information. # Options FollowSymLinks Multiviews MultiviewsMatch Any # # AllowOverride controls what directives may be placed in .htaccess files. # It can be "All", "None", or any combination of the keywords: # AllowOverride FileInfo AuthConfig Limit # AllowOverride None # # Controls who can get stuff from this server. # Require all granted # # DirectoryIndex: sets the file that Apache will serve if a directory # is requested. # DirectoryIndex index.html # # The following lines prevent .htaccess and .htpasswd files from being # viewed by Web clients. # Require all denied # # Apple specific filesystem protection. # Require all denied Require all denied # # ErrorLog: The location of the error log file. # If you do not specify an ErrorLog directive within a # container, error messages relating to that virtual host will be # logged here. If you *do* define an error logfile for a # container, that host's errors will be logged there and not here. # ErrorLog "/private/var/log/apache2/error_log" # # LogLevel: Control the number of messages logged to the error_log. # Possible values include: debug, info, notice, warn, error, crit, # alert, emerg. # LogLevel warn # # The following directives define some format nicknames for use with # a CustomLog directive (see below). # LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\"" combined LogFormat "%h %l %u %t \"%r\" %>s %b" common # You need to enable mod_logio.c to use %I and %O LogFormat "%h %l %u %t \"%r\" %>s %b \"%{Referer}i\" \"%{User-Agent}i\" %I %O" combinedio # # The location and format of the access logfile (Common Logfile Format). # If you do not define any access logfiles within a # container, they will be logged here. Contrariwise, if you *do* # define per- access logfiles, transactions will be # logged therein and *not* in this file. # CustomLog "/private/var/log/apache2/access_log" common # # If you prefer a logfile with access, agent, and referer information # (Combined Logfile Format) you can use the following directive. # #CustomLog "/private/var/log/apache2/access_log" combined # # Redirect: Allows you to tell clients about documents that used to # exist in your server's namespace, but do not anymore. The client # will make a new request for the document at its new location. # Example: # Redirect permanent /foo http://www.example.com/bar # # Alias: Maps web paths into filesystem paths and is used to # access content that does not live under the DocumentRoot. # Example: # Alias /webpath /full/filesystem/path # # If you include a trailing / on /webpath then the server will # require it to be present in the URL. You will also likely # need to provide a section to allow access to # the filesystem path. # # ScriptAlias: This controls which directories contain server scripts. # ScriptAliases are essentially the same as Aliases, except that # documents in the target directory are treated as applications and # run by the server when requested rather than as documents sent to the # client. The same rules about trailing "/" apply to ScriptAlias # directives as to Alias. # ScriptAliasMatch ^/cgi-bin/((?!(?i:webobjects)).*$) "/Library/WebServer/CGI-Executables/$1" # # ScriptSock: On threaded servers, designate the path to the UNIX # socket used to communicate with the CGI daemon of mod_cgid. # #Scriptsock cgisock # # "/Library/WebServer/CGI-Executables" should be changed to whatever your ScriptAliased # CGI directory exists, if you have that configured. # AllowOverride None Options None Require all granted # # Avoid passing HTTP_PROXY environment to CGI's on this or any proxied # backend servers which have lingering "httpoxy" defects. # 'Proxy' request header is undefined by the IETF, not listed by IANA # RequestHeader unset Proxy early # # TypesConfig points to the file containing the list of mappings from # filename extension to MIME-type. # TypesConfig /private/etc/apache2/mime.types # # AddType allows you to add to or override the MIME configuration # file specified in TypesConfig for specific file types. # #AddType application/x-gzip .tgz # # AddEncoding allows you to have certain browsers uncompress # information on the fly. Note: Not all browsers support this. # #AddEncoding x-compress .Z #AddEncoding x-gzip .gz .tgz # # If the AddEncoding directives above are commented-out, then you # probably should define those extensions to indicate media types: # AddType application/x-compress .Z AddType application/x-gzip .gz .tgz # # AddHandler allows you to map certain file extensions to "handlers": # actions unrelated to filetype. These can be either built into the server # or added with the Action directive (see below) # # To use CGI scripts outside of ScriptAliased directories: # (You will also need to add "ExecCGI" to the "Options" directive.) # #AddHandler cgi-script .cgi # For type maps (negotiated resources): #AddHandler type-map var # # Filters allow you to process content before it is sent to the client. # # To parse .shtml files for server-side includes (SSI): # (You will also need to add "Includes" to the "Options" directive.) # #AddType text/html .shtml #AddOutputFilter INCLUDES .shtml # # The mod_mime_magic module allows the server to use various hints from the # contents of the file itself to determine its type. The MIMEMagicFile # directive tells the module where the hint definitions are located. # #MIMEMagicFile /private/etc/apache2/magic # # Customizable error responses come in three flavors: # 1) plain text 2) local redirects 3) external redirects # # Some examples: #ErrorDocument 500 "The server made a boo boo." #ErrorDocument 404 /missing.html #ErrorDocument 404 "/cgi-bin/missing_handler.pl" #ErrorDocument 402 http://www.example.com/subscription_info.html # # # MaxRanges: Maximum number of Ranges in a request before # returning the entire resource, or one of the special # values 'default', 'none' or 'unlimited'. # Default setting is to accept 200 Ranges. #MaxRanges unlimited # # EnableMMAP and EnableSendfile: On systems that support it, # memory-mapping or the sendfile syscall may be used to deliver # files. This usually improves server performance, but must # be turned off when serving from networked-mounted # filesystems or if support for these functions is otherwise # broken on your system. # Defaults: EnableMMAP On, EnableSendfile Off # #EnableMMAP off #EnableSendfile on TraceEnable off # Supplemental configuration # # The configuration files in the /private/etc/apache2/extra/ directory can be # included to add extra features or to modify the default configuration of # the server, or you may simply copy their contents here and change as # necessary. # Server-pool management (MPM specific) Include /private/etc/apache2/extra/httpd-mpm.conf # Multi-language error messages #Include /private/etc/apache2/extra/httpd-multilang-errordoc.conf # Fancy directory listings Include /private/etc/apache2/extra/httpd-autoindex.conf # Language settings #Include /private/etc/apache2/extra/httpd-languages.conf # User home directories #Include /private/etc/apache2/extra/httpd-userdir.conf # Real-time info on requests and configuration #Include /private/etc/apache2/extra/httpd-info.conf # Virtual hosts #Include /private/etc/apache2/extra/httpd-vhosts.conf # Local access to the Apache HTTP Server Manual #Include /private/etc/apache2/extra/httpd-manual.conf # Distributed authoring and versioning (WebDAV) #Include /private/etc/apache2/extra/httpd-dav.conf # Various default settings #Include /private/etc/apache2/extra/httpd-default.conf # Configure mod_proxy_html to understand HTML4/XHTML1 Include /private/etc/apache2/extra/proxy-html.conf # Secure (SSL/TLS) connections #Include /private/etc/apache2/extra/httpd-ssl.conf # # Note: The following must must be present to support # starting without SSL on platforms with no /dev/random equivalent # but a statically compiled-in mod_ssl. # SSLRandomSeed startup builtin SSLRandomSeed connect builtin Include /private/etc/apache2/other/*.conf


maven, gradle, Ant 등 자바 빌드 프로그램 정리




doc2vec이란?


paragraph2vec으로 뉴스 기사 본문과 같은 큰 텍스트 블록에 대하여 vector값으로 변환시키는 것을 말한다.

word2vec에서 확장된 버전이라고 생각하면 쉽다. 


시작하기


코퍼스(Corpus)의 크기, 문서의 개수가 많을수록 좋다.


실습


word2vec 모델에서는 두 개의 중요한 알고리즘이 있었다. (CBOW와 Skip-gram)

마찬가지로 doc2vec 모델에서도 Distribted memory(DM)과 Distributed bag of words(DBOW)가 있다.


doc2vec의 입력은 Labeled Sentence 객체의 iterator(연속)이다.

각 객체는 하나의 문장을 나타내며 단어 목록과 레이블 목록으로 구성된다.



참고문서





2단계) 데이터 전처리(Preprocessing 및 파이썬 자연어처리 라이브러리 정리)


전체 순서


  1. 데이터 수집
    • 기존에 수집되어 있는 데이타가 없다면 수집을 하는 단계
    • Python을 이용한 크롤러 만들기
  2. 데이터 전처리 (Data preprocessing)
    • 특수문자, 단어 형태소 분석 등의 처리 등을 하는 단계 
    • 스페이스로 자르기 (어절 단위)
    • 불용어 제거하기 (ex. stop > stopped > stopping)
    • 어간 추출하기 (어간, 어미, 어근, 어절...)
    • 문서 표현
  3. 모델 학습 수행 (Training )
    • 데이타에 알고리즘 적용 
  4. 학습결과 확인 및 평가 
    • 완료된 학습에 대한 결과를 평가하고 성능을 더 높이고 싶다면 전저리나 알고리즘을 변경하며 작업한다. 
  5. 2~3단계를 수정하며 반복 


데이터 전처리 순서 (Preprocessing Step)


  1. 토큰화 (Tokenization)
    • 문자열에서 단어로 분리시키는 단계
  2. 불용어 제거 (Stop word elimination)
    • 전치사, 관사 등 너무 많이 등장하는 단어 등 문장이나 문서의 특징을 표현하는데 불필요한 단어를 삭제하는 단계
  3. 어간 추출 (Stemming)
    • 단어의 기본 형태를 추출하는 단계
  4. 문서 표현 (Representation)
    • 주어진 문서나 문장을 하나의 벡터로 표현하는 단계
    • 단어들을 모두 인덱싱(indexing)하고 주어진 문서에 존재하는 단어의 빈도수를 사용하여 문서를 표현


자연어처리를 위한 Python 라이브러리 종류



1. KoNLPy (코엔엘파이)http://konlpy-ko.readthedocs.io/ko/v0.4.3/#

  • 한국어 자연어처리를 위한 대표적인 파이썬 라이브러리 
  • NLP (Natural Language Processing, 자연어처리)란? 텍스트(Text)에서 의미있는 정보를 분석, 추출하고 이해하는 일련의 기술 집합
  • Twitter, Komoran, Mecab 등 다양한 형태소 분석기를 내장하고 있음

< 관련된 글 >


2. NLTK (Natural Language Toolkit) http://www.nltk.org/

  • 영어로된 텍스트의 자연어처리를 위한 대표적인 파이썬 라이브러리
  • NLTK is a leading platform for building Python programs to work with human language data.
  • It provides easy-to-use interfaces to over 50 corpora and lexical resources such as WordNet, along with a suite of text processing libraries for classification, tokenization, stemming, tagging, parsing, and semantic reasoning, wrappers for industrial-strength NLP libraries, and an active discussion forum.


3. Gensim https://radimrehurek.com/gensim/

  • 주로 Topic modeling, Corpus(말뭉치) 및 Word Embedding 모델을 지원해줌
  • 한국어 및 다양한 언어를 지원해줌
< 관련된 글 >


1. 토큰화 (Tokenization)


ex) I loved you. data-mining

= I / love / you 로 띄어쓰기나 개행을 기준으로 단어를 떼어내는 것을 말한다. 

  • 1-1) 단어를 띄어쓰기와 개행을 기준으로 단어를 떼어낸다.     ex) I / loved / you. / data-mining
  • 1-2) 문장 부호를 기준으로 한번 더 떼어낸다.                      ex) I / loved / you / . / data / - / mining
  • 1-3) 문장 부호를 떼어 내는데 예외를 둔다.                         ex) I / loved / you / . / data-mining


파이썬 3.6 Tokenizer 가이드 : https://docs.python.org/3/library/tokenize.html

파이썬 2.7 Tokenizer 가이드 : https://docs.python.org/2.7/library/tokenize.html


2. 불용어 제거 (Stop word elimination)


불필요한 단어들을 제거하는 단계이다.
  • 2-1) 모든 단어를 소문자화한다.
  • 2-2) 불용어 사전을 검색하여 불용어를 삭제한다. 
  • 2-3) 전제 말뭉치(corpus)에서 n번 이상 등장하지 않는 단어를 삭제한다.
    • why? 별로 중요한 단어라고 생각하지 않기 때문에

3. 어간 추출 (Stemming)

  • 단어를 기본형으로 표현하여 같은 단어가 표현형 때문에 다른 단어로 인덱싱(indexing)되는 일 없도록 한다.
  • 이때, 다양한 알고리즘을 사용하는데, 기본형으로부터 단어들을 자동으로 파생시켜서 리스트를 만들고 매칭을 시키기도 한다.
< 관련된 글 >
    • https://datascienceschool.net/view-notebook/118731eec74b4ad3bdd2f89bab077e1b/

4. 문서 표현 (Representation)


다양한 알고리즘을 사용하여서 문서(Text)를 벡터(Vector)값으로 변환하는 단계이다. (=임베딩, Embedding)
이렇게 바뀐 벡터(Vector)값을 통해서 우리는 유클리디안 거리, 코사인 유사도 등을 통해 단어간의 유사성 등을 구할 수 있다.
  • word2vec
  • doc2vec

Dictionary (사전)

  • 단어와 단어에 대한 인덱스가 표시된 사전
  • 단어 자체를 사용하여 문서를 표현하면 비효율적이다.
  • 문서 집합에 있는 문서 전체를 읽어가면서 토큰화, 불용어 제거 등의 순서를 진행하여 사전을 구축한다.
  • 불용어, 어간추출 등의 비적용/부분적용이 가능하다. (선택적)
  • ex) 사전 파일 (line 번호를 단어 index로 간주)



예제

뉴스 제목 = 한글 + 영어 + 한자 + 특수문자 


1차 가정 : 한글만 허용하고 나머지는 삭제해서 학습시켜보기 (추후에 regex 라이브러리 찾아보기, + 영어 라이브러리 적용)

Read Document 
from konlpy.corpus import kobill    # Docs from pokr.kr/bill
files_ko = kobill.fileids()         # Get file ids
doc_ko = kobill.open('1809890.txt').read()


Tokenize 

from konlpy.tag import Twitter; t = Twitter()
tokens_ko = t.morphs(doc_ko)

Load tokens
import nltk
ko = nltk.Text(tokens_ko, name='대한민국 국회 의안 제 1809890호')   # For Python 2, input `name` as u'유니코드'

기능1) tokens 
print(len(ko.tokens))       # returns number of tokens (document length)
print(len(set(ko.tokens)))  # returns number of unique tokens
ko.vocab()        
기능2) count 
ko.count('초등학교')   # Counts occurrences
기능3) Concordance 
ko.concordance('초등학교')
기능4) Similar word 
ko.similar('자녀')
ko.similar('육아휴직')
기능5) Collocations
en.collocations()
POS Tagging
from konlpy.tag import Twitter; t = Twitter()
tags_ko = t.pos("작고 노란 강아지가 페르시안 고양이에게 짖었다")

# 수집된 txt 파일을 한 줄씩 \n (줄바꿈)을 기준으로 읽어들인다.
def read_data(filename):
with open(filename, 'r') as f:
data = [line.split('\t') for line in f.read().splitlines()]
data = data[1:] # header 제외
return data
train_data = read_data('ratings_train.txt')

test_data = read_data('ratings_test.txt')

# row, column의 수가 제대로 읽혔는지 확인
print(len(train_data)) # nrows: 150000
print(len(train_data[0])) # ncols: 3
print(len(test_data)) # nrows: 50000

print(len(test_data[0])) # ncols: 3


# 형태소(POS) 분석을 하고, Tokenizing 한다.

    • Q. 꼭 형태소/품사를 나눠야하는가? 
      데이터가 정말 충분하다면, 어절 단위로도 분석이 가능하지만 데이터가 적으므로 형태소로 나누는 것이 필요하다.
      품사를 태깅해둔다면 동음이의어를 구분할 수 있다. 
from konlpy.tag import Twitter
pos_tagger = Twitter()
def tokenize(doc):
# norm, stem은 optional
return ['/'.join(t) for t in pos_tagger.pos(doc, norm=True, stem=True)]
train_docs = [(tokenize(row[1]), row[2]) for row in train_data] # Training Data ( 학습용 데이터 )
test_docs = [(tokenize(row[1]), row[2]) for row in test_data] # Test Data ( 검증용 데이터 )
# 잘 들어갔는지 확인
from pprint import pprint
pprint(train_docs[0])
# => [(['아/Exclamation',
# '더빙/Noun',
# '../Punctuation',
# '진짜/Noun',
# '짜증/Noun',
# '나다/Verb',
# '목소리/Noun'],

# '0')]


# 말뭉치(Corpus)가 어떤 특징을 가지고 있는지 Training Data의 Token 모으기

tokens = [t for d in train_docs for t in d[0]]
print(len(tokens))
# => 2194536

# NLTK를 통한 tokenize
import nltk
text = nltk.Text(tokens, name='NMSC')
print(text)
# => <Text: NMSC>

print(len(text.tokens)) # returns number of tokens
# => 2194536
print(len(set(text.tokens))) # returns number of unique tokens
# => 48765
pprint(text.vocab().most_common(10)) # returns frequency distribution
# => [('./Punctuation', 68630),
# ('영화/Noun', 51365),
# ('하다/Verb', 50281),
# ('이/Josa', 39123),
# ('보다/Verb', 34764),
# ('의/Josa', 30480),
# ('../Punctuation', 29055),
# ('에/Josa', 27108),
# ('가/Josa', 26696),


Doc2vec 예제 

from collections import namedtuple
TaggedDocument = namedtuple('TaggedDocument', 'words tags')
# 여기서는 15만개 training documents 전부 사용함
tagged_train_docs = [TaggedDocument(d, [c]) for d, c in train_docs]

tagged_test_docs = [TaggedDocument(d, [c]) for d, c in test_docs]


from gensim.models import doc2vec
# 사전 구축
doc_vectorizer = doc2vec.Doc2Vec(size=300, alpha=0.025, min_alpha=0.025, seed=1234)
doc_vectorizer.build_vocab(tagged_train_docs)
# Train document vectors!
for epoch in range(10):
doc_vectorizer.train(tagged_train_docs)
doc_vectorizer.alpha -= 0.002 # decrease the learning rate
doc_vectorizer.min_alpha = doc_vectorizer.alpha # fix the learning rate, no decay
# To save

# doc_vectorizer.save('doc2vec.model')


pprint(doc_vectorizer.most_similar('공포/Noun'))
# => [('서스펜스/Noun', 0.5669919848442078),
# ('미스터리/Noun', 0.5522832274436951),
# ('스릴러/Noun', 0.5021427869796753),
# ('장르/Noun', 0.5000861287117004),
# ('판타지/Noun', 0.4368450343608856),
# ('무게/Noun', 0.42848479747772217),
# ('호러/Noun', 0.42714330554008484),
# ('환타지/Noun', 0.41590073704719543),
# ('멜로/Noun', 0.41056352853775024),
# ('공포영화/Noun', 0.4052993059158325)]


해당 예제는 https://www.lucypark.kr/courses/2015-dm/text-mining.html 를 참고하여 만들어졌습니다. 



참고 문서


★ 세종 말뭉치 : http://konlpy-ko.readthedocs.io/ko/v0.4.3/data/#kkma-system-dictionary


★ https://www.slideshare.net/healess/python-tensorflow-ai-chatbot

★ RNN : http://aikorea.org/blog/rnn-tutorial-2/

★ TEXT Classification : http://arkainoh.blogspot.kr/2017/09/python.text.classification.html

★ https://ratsgo.github.io/natural%20language%20processing/2017/03/08/word2vec/

★ http://newsight.tistory.com/212

★ http://www.engear.net/wp/doc2vec-%EC%8B%9C%EC%9E%91%ED%95%98%EA%B8%B0/

#세번째  튜터링 영어회화 어플 학습후기 남깁니다. ! :)



지난 주에 레벨테스틀 드.디.어 다시 받았습니다!!!! 

레벨테스트를 받고나면 맨 밑 하단에 3가지 버튼이 나옵니다.

  • 나의 코스 둘러보기
  • 수강권 둘러보기
  • *튜터링 학습 상담 신청


그리고 오늘은 미뤄왔던 "튜터링 학습 상담"을 신청하고 싶었어요! 

왜냐하면, 레벨테스트를 받고 난 뒤 어떻게 공부하면 효율적일지 궁금했거든요!






(왼쪽) 학습 상담 신청 첫화면

(오른쪽) 학습 상담 신청 하단 화면

----------------------------------------------------------


여기서 좀 헷갈렸어요!


튜터링 학습 상담 신청을 누르고나면 010-****-**** 이렇게 써 있는데요.

아무리 해도 상담 받고 싶은 내역 선택하고, 14세 이상을 눌러도 '학습상담신청' 버튼이 눌리지 않는거에요.

ㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋㅋ


010-****-**** 는 제가 회원가입하면서 넣은 제 번호라고 생각했는데,

 그냥 임의로 저렇게 화면에 표시해줬나봐요..


인터페이스 낚임..ㅎ 

이건 좀  헷갈리지 않게 개선 하면 좋을 것 같아요. 




여튼 이렇게 모든 정보를 입력하고 나면, 위의 캡쳐화면 처럼 버튼이 활성화되고 접수됩니다!


평일에 연락을 준다고하니 이제 기다리면 되겠네요!




그리고 오늘 수업 내용!


오늘은 지난번에 다 못 끝낸 '발음공부'를 이어서 정리했어요!

Marisol 선생님께서 오늘 안계셔서 새로운 선생님에게 발음 수업 마무리 수업을 받았습니다. 


그래서 선택한 'Andrea' 튜터

좋았어요! Marisol 선생님과 다른 매력으로 수업캐리 받음!! 


Andrea 선생님이 말이 약간 빠르긴 했어도 제가 못 알아들을 정돈 아니였거든요!

그리고 Marisol 선생님과 비교하면 수업은 확실하게 Marisol 선생님이 차분하게 잘 맞춰주세요!

대신에 Andrea 선생님은 평가 피드백이 훨씬 꼼꼼합니다.


발음 수업이었는데, 문법도 틀린걸 발견하면 코멘트도 남겨주시고, 수업이 끝나갈 무렵에는 더 연습해야 할 발음들을 체크해주셨어요!


여튼, 항상 제가 수업받고 싶은 튜터님이 수업 중이신건 아니라 다양한 튜터!! 나에게 맞는 선생님을 모아두는게 중요하다는 팁도 좀 얻었어요.

나중엔 저랑 잘 맞을 것 같은 튜터를 추천도 해줬으면 좋겠습니다.




또 아쉬운 점


제가 정말 열심히 쓰다보니까 자꾸 아쉬운 점들이 나와서 또 남깁니다 ㅋㅋㅋㅋㅋㅋㅋㅋㅋ


수업 질적으로나 뭔가 그런게 아니라요..!

인터페이스가 어려워요!!!!!!! 헷갈리고!!!!!!!!! 불편하다고 느껴서......ㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎㅎ


문제는 수업을 다 듣고나서 생겼습니다...

 









수업이 다 끝난 후의 화면에요!


저는 이제 수업이 다 끝났으니까, 

정말 메인화면으로 가고 싶어서 '홈'버튼을 눌렀거든요.




그런데 '홈'버튼을 누르면 발음교정 토픽 메인화면이나오고 (왼쪽사진)

(왼쪽사진)에서 X표를 누르면 다시 (오른쪽 사진) 화면으로 돌아옵니다... 


네 저는 이렇게 정말 메인 화면에 가기 위한 무한반복을 하였어요..


그러다가 찾았어요!




아래 X가아니라 위의 통화 종료버튼을 눌러야 '진짜 홈'으로 돌아간다는 것을요..


홈이 무엇인지 확실히 해주셨으면 좋겠습니다.

보통 유저라면 튜터링을 켰을때의 첫 화면을 '홈'이라고 생각하는데,

갑자기 예상하지 못한 화면이 나오니 좀 당혹스러웠어요.



더 이상했던건




수업이 다 끝나고 다시 토픽에 들어왔을 땐, 이제 '발음교정' (주황색) 버튼을 눌러야해요.


흠.. 전체적으로 굉장히 헷갈리는 구조.........

쓰다보면 익숙해지겠죠 뭐...



오늘은 끝!........





아래 url을 통해서 '튜터링'어플 다운로드 받고, 가입하면
레벨 테스트 1와 원어민과 영어회화 1회를 무료로 제공합니다.  >_<




11월엔 Native 수강권을 200명 한정에 파격 할인 해주는 중이라는 점!

K-means Clustering 테스트 자료 


import tensorflow as tf
from tensorflow.contrib.factorization import KMeans
from tensorflow.python.framework import ops


k = 3 #3개의 Cluster로 설정
num_features = 3 #데이터 Feature 2 (카테고리 분류 코드, 제목)

# 데이터 읽어오기
Data_X = []
with open("C:/Users/N3815/Desktop/sample_kmeans_data.txt", 'r') as f:
for line in f.readlines():
dump = []
dump.append(float(line.split()[1].split(":")[1]) )
dump.append(float(line.split()[2].split(":")[1]))
dump.append(float(line.split()[3].split(":")[1]))
Data_X.append(dump)

print(Data_X)

X = tf.placeholder(tf.float32, shape = [None, num_features])

kmeans = KMeans(inputs=X, num_clusters=k, distance_metric='squared_euclidean', use_mini_batch=True)

(all_scores, cluster_idx, scores, cluster_centers_initialized, init_op, train_op) = kmeans.training_graph()
cluster_idx = cluster_idx[0]
avg_distance = tf.reduce_mean(scores)

init = tf.global_variables_initializer()
sess = tf.Session()
sess.run(init)
sess.run(init_op, feed_dict={X: Data_X})

#학습
for i in range(1, 100) :
_, d, idx = sess.run([train_op, avg_distance, cluster_idx], feed_dict={X: Data_X})

#확인
print(idx, d)
for i in range(0,k) :
result = []
for j in range(0, idx.size,1) :
if(idx[j] == i):
result.append(Data_X[j])
print(i, '에 속한 데이터 :', result)

0 1:0.0 2:0.0 3:0.0
1 1:0.1 2:0.1 3:0.1
2 1:0.2 2:0.2 3:0.2
3 1:9.0 2:9.0 3:9.0
4 1:9.1 2:9.1 3:9.1
5 1:9.2 2:9.2 3:9.2
6 1:5.5 2:2.5 3:5.7
7 1:5.2 2:2.5 3:5.3
8 1:5.4 2:5.9 3:5.9
9 1:0.1 2:9.0 3:9.1
10 1:9.1 2:9.2 3:9.3

참고 : http://iamksu.tistory.com/84



오늘은 전화영어회화 튜터링 #두번째 사용 학습후기를 가지고 왔습니다.  :)


지난 시간 영어단어를 주고 문장을 만드는 수업을 들었었는데요!

수요일엔 잠을 자려고 눈을 감았는데, 갑자기 수업을 들어야할 것 같아서.. (왜냐하면 지금 안들으면 밀릴 것 같았음ㅋㅋㅋ)


간단하게 '발음 수업'을 들어봤습니다! 

그리고 제가 오늘 인생 튜터를 만났어요!!!!!!!!!!! 






Marisol 이라는 선생님인데요! 현직 국제학교의 선생님으로 일하고 계신분이였어요!

 




이렇게 학습후기가 1,843개나 등록된 선생님이셨어요!


제가 Marisol 선생님을 선택하게 된 이유는

선생님의 수업을 들을려고 일부러 기다렸다가 들었다는 사람의 후기를 보고 선택하게 되었습니다!!





 (이렇게 선생님과의 수업을 미리 예약을 걸 수도 있어요! )


----------------------------------------------------------------------


오늘 발음 공부 시간에 배운 내용들이에요. 


- R/L

- F/P

- th

- V/B


이렇게 4가지를 학습해봤는데요.

너무 어려웠어요....!!


근데, 선생님께서 어떻게 소리를 내는지 앞에서 여러번 무한 반복을 해주셨어요!!


제일 좋았던건 제가 틀리면 'Nope!' 해주시곤 바로바로 잡아주셔서 

' 아 잘못 발음했구나! ' 를 확실히 알아서 너무 좋았어요!!! 






수업을 다 듣고선 선생님께서 본인의 피드백을 이렇게 남겨주셨답니다.


ㅎㅎㅎㅎㅎ... 

th, p, f, v 오늘 배운거 거의 다 연습 많이 하라고 코멘트주셨네요! ㅋㅋㅋ


발음 너무 어려워요.. 그치만 재미있게 수업들었어요! 




----------------------------------------------------------------------



이건 오늘 수업을 듣다가 아쉬운 부분이 있어서 가져온 사진에요.


토픽을 먼저 고르고나서 선생님을 고르게 되는데요. 

이렇게 선생님 사진과 이름만 나오더라구요.. 


튜터의 이름 옆엔 별점을 보여주고 

해당 리스트 1개를 왼쪽이나 오른쪽으로 밀면 상세 정보를 보여주면 더 좋을 것 같아요!


튜터의 상세정보가 궁금하면 다시 닫았다가 튜터 홈으로가서 봐야하는 불편함이 있었거든요.

개선되었으면 좋겠습니다!! 




오늘 영어수업후기 끝!!!!! 





아래 url을 통해서 '튜터링'어플 다운로드 받고, 가입하면
레벨 테스트 1와 원어민과 영어회화 1회를 무료로 제공합니다.  >_<



  1. 방실이 2017.11.12 00:35 신고

    항상 노력하는 모습에 왼쪽 무릎을 탁 치고 갑니다

  2. 이운경 2017.11.12 00:43 신고

    회화 향상에 도움되나요..?

    • BlogIcon _Aileen_ _Aileen_ 2017.11.12 00:51 신고

      문법이 부족하면 문법에 대해서 들을 수 있고, 프리토킹을 원하면 또 그렇게 수업하면 되어서요! 자유도가 높은 만큼 재미있게 수업들으니까 자신감이 상승중이에여! 수업을 시작한지 얼마 안됐지만 확실한건 자꾸 쓰려고 노력하니까 빨리 늘 것 같아요☺️

      어플 다운로드 받으면 레벨테스트랑 수업 1회 들을 수 있으니까 한번 해보는게 더 좋을 것같아요!

  3. BlogIcon 란제리 2017.11.14 20:57 신고

    좋은정보 감사합니다 ~~~

+ Recent posts

티스토리 툴바