Data Mining

Markov Chain (마르코프 체인)

얌몽 2016. 10. 6. 17:01

마르코프 체인(Markov chain) 마르코프 속성(Markov property)’ 따르는 통계적 과정이다. ‘마르코크 속성 움직임 과정 같은 일련의 임의 변수들에 대해서 일련의 종속성은 바로 직전에만 영향을 받는(사슬과 같이) 속성이다. 이러한 속성은 다음에 일어날 일이 현재 상태만 영향을 받는 시스템을 설명할 주로 사용된다.

마르코프 체인에는 시간적 요소와 상태적 요소가 필요하다. 요소에 따른 마르코프 속성은 아래의 표와 같다.

Countable state space

Continuous or general state space

Discrete-time

(discrete-time) Markov chain on a countable or finite state space

Harris chain (Markov chain on a general state space)

Continuous-time

Continuous-time Markov process

Any continuous stochastic process with the Markov property, e.g. the Wiener process

시스템 내에서 상태의 변화를 전이(transition)이라고 부른고, 여러 상태 변화에 관련된 확률을 전이 확률(transistion probabilities)라고 한다. 수행 과정은 상태공간, 특정 전이의 확률을 나타내는 전이 행렬(transition matrix), 상태 공간의 초기 상태에 따라 진행 과정에 따른 속성이 달라진다. 규칙에 따라, 모든 변경 가능한 상태와 전이는 수행 과정 초기에 정의되어 있어서 다음 상태가 항상 존재하고, 수행 과정은 종료되지 않는다고 가정한다.


이산 시간(discrete-time)에서의 임의 수행 과정은 단계마다 특정 상태에 있고, 단계마다 임의의 상태로 전이가 일어나는 시스템을 포함한다. 단계는 시간의 어떤 순간이 수도 있고, 물리적 거리나 다른 개별 측정 거리가 수도 있다. 일반적으로 단계는 정수나 실수로 나타내어 지고, 임의 수행 과정은 단계를 상태와 맵핑한다. 마르코프 속성은 다음 단계를 위한 조건부 확률 분포가 시스템 내의 현재 상태만 영향을 미치고 다른 이전의 상태는 아무 영향을 미치지 않는 상태이다.


 (임의 수행 과정에서) 시스템이 임의로 변경되기 때문에 일반적으로 마르코프 체인에서 다음 상태를 정확히 예측하는 것은 불가능하다. 하지만 시스템의 시스템의 미래의 통계적 확률을 예측하는 것은 가능하다. 많은 응용 분야에서 이러한 통계적 속성은 굉장히 중요하게 사용되고 있다.


drunkard's walk라는 유명한 마르코프 체인이 있다. 숫자 일직선 상에서 임의로 걷는다고 생각해보자. 단계마다 위치는 +1 이나 -1만큼 같은 확률로 변경된다고 가정하자. 어느 위치에서든지 다음 정수나 이전 정수의 가지 전이가 가능하다. 전이 확률은 현재의 위치만 통해 결정된다. 현재의 위치에 어떻게 도달했는지는 영향을 주지 않는다. 예를 들어 5에서 4 이동할 전이 확률과 5에서 6으로 이동할 전이 확률은 0.5이고, 다른 곳으로 이동할 모든 전이 확률은 0이다. 이러한 확률은 5 도착하기 전에 4 있었는지 6 있었는지는 영향을 주지 않는다.


다른 예시를 들어보자. 독특한 식습관을 가진 생물체가 있고, 생물체는 포도, 치즈, 상추만 먹는다. 생명체를 연구한 결과 다음과 같은 규칙을 따른다고 한다.

- 생명체는 하루에 하나를 먹는다.

- 생명체가 오늘 치즈를 먹었다면 내일은 상추와 포도를 동일한 확률로 먹는다.

생명체가 오늘 포도를 먹었다면 내일 포도를 1/10, 치즈를 4/10, 상추를 5/10 확률로 먹는다.

- 생명체가 오늘 상추를 먹었다면 포도를 4/10, 치즈를 6/10 확률로 먹는다.

생명체의 식습관은 내일 먹을 음식이 과거에 먹은 음식에는 영향을 받지 않고 오늘 먹은 음식에만 영향을 받기 때문에 마르코프 체인으로 모델링이 가능하다.


동전 던지기 같은 일련의 독립적인 사건들은 마르코프 체인의 정의를 만족한다. 이론은 오직 현재 상태에만 의존하여 다음 상태의 확률 모델을 구성할 때만 적용한다.


출처 : 1. 마르코프 체인 wiki https://en.wikipedia.org/wiki/Markov_chain