Central Limit Theorem(중심극한정리) 이란 무엇인가?
- 표본의 크기가 충분히 크다면, 독립적이고 동일하게 분포된 무작위 변수들의 합(또는 평균)은 정규 분포에 근사한다는 이론입니다.
Central Limit Theorem은 어디에 쓸 수 있는가?
- 실제 데이터 분석, 가설 검정, 신뢰구간 계산 등에 유용합니다. 이를 통해 비정규분포 데이터도 정규분포로 근사시켜 분석할 수 있습니다.
큰수의 법칙이란(Law of Large Number, LLN)?
- 표본의 크기가 증가함에 따라 표본평균이 모평균에 접근한다는 이론입니다.
확률이랑 통계랑 다른 점은?
- 확률은 미래의 불확실한 사건의 가능성을 수학적으로 예측, 모델링하는 데 사용되며, 통계는 과거 데이터를 분석하여 모델을 만드는 데 사용됩니다.
Marginal Distribution(주변 확률 분포)이란 무엇인가?
- 주변확률분포는 다변수 확률분포에서 특정한 하나 또는 일부 변수만을 고려한 확률분포를 의미합니다.
- 다변수 확률 분포에서 한 변수의 분포를 나타내는데 사용됩니다.
Conditional Distribution(조건부 확률 분포)이란 무엇인가?
- 한 변수의 값이 주어졌을 때 다른 변수의 분포를 나타냅니다.
- 어떤 변수의 분포가 다른 변수에 따라 어떻게 변하는지를 나타냅니다,
Bias란 무엇인가?
- 편향은 추정량의 기댓값과 실제 모수값과의 차이를 의미합니다.
- 추정치와 실제 값 사이의 차이를 나타냅니다.
Biased estimation(편향 추정량/Unbiased estimation(무편향 추정량)의 차이는?
- 편향된 추정량은 모수의 실제 값과의 차이가 존재하며, 무편향 추정량은 모수의 실제 값과 기댓값이 일치한다.
Bias, Variance, MSE란? 그리고 그들의 관계는 무엇인가?
- 편향은 추정량의 기대값과 실제 모수값의 차이, 분산은 추정량의 변동성을 나타내며, MSE는 편향과 분산의 제곱합으로 계산된다.
Sample Variance란 무엇인가?
- 표본 분산은 표본 데이터가 표본 평균을 중심으로 얼마나 퍼져 있는지를 측정하는 값이다.
Variance를 구할 때, N대신에 N-1로 나눠주는 이유는 무엇인가?
- N-1로 나누는 이유는 Unbiased estimation(무편향 추정량)을 얻기 위함이다.
Gaussian Distribution에서 MLE와 Sample Variance 중에 어떤 걸 사용해야 하는가?
- MLE와 표본분산 모두 가능하나, 표본분산은 무편향 추정량을 제공하므로 일반적으로는 이를 선호한다.
Unbiased Estimation은 무조건 좋은가?
- 무편향성만을 고려한다면 분산이 커질 수 있으므로, 항상 좋은 것은 아니다.
Unbiaed Estimation의 장점은 무엇인가?
- 무편향 추정량은 기대값이 실제 모수값과 일치하므로, 장기적으로 더 정확한 추정이 가능하다.
Binomial, Bernoulli, Multinomial, Multinoulli 란 무엇인가?
- 이들은 이산 확률 분포로, 이항, 베르누이는 두 가지 결과를, 다항, 다중 베르누이는 둘 이상의 결과를 가진다.
Beta Distribution과 Dirichlet Distribution이란 무엇인가?
- 베타 분포는 이항 분포의 켤레 사전 확률이며, 디리클레 분포는 다항 분포의 켤레 사전 확률이다.
Gamma Distribution은 어디에 쓰이는가?
- 감마 분포는 지수 분포의 일반화 형태로, 대기 시간 모델링 등에 사용된다.
Possion distribution은 어디에 쓰이는가?
- 단위 시간 또는 단위 공간에서 발생하는 사건의 수를 모델링하는데 사용됩니다.
Bias and Varaince Trade-Off 란 무엇인가?
- 편향과 분산의 상충 관계는 모델의 복잡성과 일반화 능력 사이의 균형을 의미한다.
Conjugate Prior란 무엇인가?
- 켤레 사전 확률은 사후 확률이 사전 확률과 동일한 형태를 가지도록 하는 확률분포이다.
Confidence Interval이란 무엇인가?
- 신뢰구간은 모수가 어느 범위 내에 존재할 것으로 예상되는 구간을 나타낸다.
covariance/correlation 이란 무엇인가?
- 공분산은 두 변수의 선형 관계를, 상관계수는 그 관계의 강도와 방향을 나타낸다.
Total variation 이란 무엇인가?
- 전체 변동은 데이터셋의 분산을 나타내며, 설명된 변동과 설명되지 않은 변동의 합이다.
Explained variation 이란 무엇인가?
- 설명된 변동은 모델에 의해 설명될 수 있는 데이터의 변동을 의미한다.
Uexplained variation 이란 무엇인가
- 설명되지 않은 변동은 모델로 설명할 수 없는 데이터의 변동을 의미한다.
Coefficient of determination 이란? (결정계수)
- 결정계수는 모델이 데이터의 변동을 얼마나 잘 설명하는지를 나타내는 지표이다.
Total variation distance이란 무엇인가?
- 전체 변동 거리는 두 확률 분포 간의 차이를 측정하는 지표이다.
P-value란 무엇인가?
- 귀무가설 하에서 통계적 검정의 결과가 관찰된 결과보다 더 극단적일 확률을 나타낸다.
likelihood-ratio test 이란 무엇인가?
- 우도비 검정은 두 개의 모델 간의 적합도를 비교하는 통계적 검정이다.
Share article