original source : 

https://m.blog.naver.com/PostView.nhn?blogId=leerider&logNo=100189036419&proxyReferer=https%3A%2F%2Fwww.google.com%2F

첫번째 성공이 있기까지 실패의 횟수를 x라고 할 때, 또는 첫번째 실패가 있기까지의 성공의 횟수를 x라고할 때 확률변수 x는 기하분포(Geometric distribution)를 따르게 됩니다.

예를들어, 성공확률이 40%인 베르누이시행에서 첫번째 성공이 있기 까지 2번 실패할 확률을 Ms-Excel로 구해보면 다음과 같습니다. Ms-Excel에서는 =negbinomdist function을 사용합니다. 참고로, 베르누이 시행(Bernoulli’s trial)은 결과가 yes, no와 같이 2개의 결과만 있는 서로 독립인 시행을 의미합니다.

=negbinomdist(2,1,40%) = 14.4%

이해를 위해 직접 계산해 볼텐데, 첫번째 성공이 있기까지 두 번 실패한다는 것은, 성공을 1로 표현하고 실패를 0으로 표현하면 다음과 같은 경우입니다.

(0,0,1)

각각의 시행은 독립이므로 결합확률을 구하기 위해서는 각각의 확률을 곱하면 됩니다. 즉, 다음과 같습니다.

60%*60%*40% = 14.4%

성공확률을 p라고 표현하고 실패할 확률을 q(=1-p)라고 표현해 보면 다음과 같습니다..

q*q*p = q^2*p

이를 일반화시켜 볼텐데 실패의 횟수를 x라고 표현해 보면 다음과 같습니다.

q^x * p

이는 기하분포의 공식인데 여기서 보듯이 기하분포의 공식에 시행의 횟수, n은 없습니다. 즉, 기하분포는 시행의 횟수와 관계가 없으며 이를 기하분포의 memoryless property라고 부릅니다. 즉, 기하분포의 확률은 이전에 몇 번 성공했든 또는 이전에 몇 번 실패했든 관계가 없습니다.

어쨌든, 기하분포도 이항분포와 같이 일반적인 확률계산 방식을 공식화해 놓은 것입니다.

기하분포의 모양을 그려볼텐데 파라미터를 변경하면서 Geometric분포의 PMF(Probability Mass Function)와 CDF(Cumulative Distribution Function)를 그려보면 다음과 같습니다.