Louie NRT Story

[인공지능] 머신러닝을 이용한 알고리즘 트레이딩 시스템 개발 본문

책읽기

[인공지능] 머신러닝을 이용한 알고리즘 트레이딩 시스템 개발

hyeok0724.kim@gmail.com 2017. 11. 17. 00:44
반응형

(안명호, 류미현 지음)

1장 머신러닝

 1) 머신러닝은 회귀, 분류, 군집화 3가지 종류의 문제를 해결함

  - 회귀(선형회귀, SGD(Stochastic Gradient Descent Regression)회귀, SVR(Support Vector Regression)회귀, Random Forest Regression, Bayesian Regression, Isotonic Regression, Bayesian Automatic Relevance Determination Regression).

 - 분류(Logistic Regression, Support Vector Machine, Random Forest, Decision Tree, Gradient Boosting Tree, SGD(Stochastic Gradient Descent Regression) Classifier, AdaBoost)

 - 군집화(K-means, Spectral Clustering, Gaussian Mixtures, Agglomerative Clustering, Affinity Propagation, Mean Shift)

 

 2) 머신러닝 프로세스


2장 통계

 1) 종속변수와 독립변수: 두 변수 간의 Coefficient 가 존재 한다면 하나는 독립 변수가 되고 다른 하나는 그에 따른 종속변수가 됨

 2) 모델: 대상을 설명하기 위한 표현 방법

 3) 사분위수: 데이터의 분포를 균등하게 4등분 하였을 때 데이터들이 어디에 분포 되어 있는지 알 수 있음

 4) 기댓값: 이득과 그 사건이 벌어질 확률을 곱한 것을 전체 사건에 대해 합한 값

  ex- 주사위 -> 1*1/6 + 2*1/6 + 3*1/6 ...... 6*1/6 = 3.5

 


3장 시계열 데이터

 1) 주요 시계열 데이터의 특성

  - Trend 측정값이 시간의 흐름에 따라 증가나 감소 또는 반복 등의 일정한 패턴이나 경향 파악

  - Seasonality: 일, 년, 계절 등 일정 시간에 따라 지속해서 반복되는 패턴 파악

  - Outliers: 다른 값들과 동떨어진 이상치 관측 확인

  - Long-run Cycle: 계절성과 별도로 오랜 기간 반복되는 패턴 파악

  - Constant Variance: 측정값이 일정한 수준 이내 변동이 무작위 발생

  - Abrupt Change: 급격한 변동 보이는지 확인

 2) 랜덤과정: 일정한 패턴 등을 보이지 않음

 3) 결정적 과정: 모든 것이 시간에 흐름에 일정한 값을 가짐

 4) 정상과정 시계열 데이터: 평균값 0을 기준으로 움직이는 패턴

 5) 비정상과정 시계열 데이터: 평균값과는 관계 없이 변동 폭이 일정하지 않게 움직임

 6) 공분산(Covariance): 2 변수의 상관정도 나타냄 0일 수록 두 변수는 독립적인 관계

 7) 상관계수(Correlation Coefficient): 2개의 변수의 공분산을 정규화 한것임. 그래서 공분산을 먼저 구해야함

 8) 자기공분산(Autocovariance): 하나의 변수의 t, t+k 의 값을 공분산 하여 상향추세 인지 하향추세 인지 확인

 9) 자기상관(Autocorrelation): 하나의 변수의 t, t+k 의 값의 상관관계를 확인함

 10) 상관도표(Correlogram): 자기상관을 그래프로 그린 것으로 추세를 파악하는데 도움이 됨

 11) 표류 없는 랜덤워크(Random-Walk-without-drift): 분산이 일정함

 12) 표류 있는 랜덤워크(Random-Walk-with-drift): 분산이 일정하지 않음

 13) 기하적 브라운 운동(Geometic Brownian Motion): 표류있는 랜덤워크로 평균 등을 이용하여 구하는 것으로 표류 없는 랜덤워크는 긴추세를 보여줄 수 없지만 GBM은 긴 추세를 보여 줄 수 있음



일반적인 알고리즘 트레이딩 시스템의 블록 다이어그램

알파모델: 예측을 하기 위한 모델

리스크모델: 예측이 틀렸을 때 손실정도 측정 모델

거래 비용 모델: 실제 실행했을 떄 발생하는 비용 측정

포트폴리오 모델: 사용자에게 추천을 함과 동시에 그에 따른 근거를 보여줌

실행: 사용자의 판단



구현 알고리즘 트레이딩 시스템 블록 다이어그램

평균 회귀 모델: 데이터를 예측함

머신러닝 모델: Classification을 함

알파 모델: 평균 회귀 모델과 머신러닝 모델 결과를 활용한 추상 모델

포트폴리오 모델: 사용자에게 추천하며 판단 할 수 있도록 근거 보여줌

실행: 사용자가 판단

백테스터: 과거 데이터를 활용하여 적중률 확인


반응형
Comments