확률이란?
- 확률이란, 특정한 사건이 일어날 가능성을 수로 표현한 것
- 확률은 0 ~ 1(100%) 사이의 실수로 표현된다.
확률이 사용되는 예시
- 스팸 메일 분류 모델을 만들고 싶다고 가정
- 지금까지 도착 메일 총 1000개
- 이 중 700개는 스팸 메일
- 새롭게 메일이 도착했을 때, 스팸 메일일 확률은 얼마일까?
→ 7 / 10
- 일반적으로 대부분의 모델 출력은 ‘확률’ 형태를 갖는다.
- 스터디에서 진행하는 Computer Vision 분야에서도 출력을 위해 확률로 계산을 하게 됨.
- ex) Object Detection 모델도 출력층의 Activation Function을 SoftMax로 두어 가장 높은 확률을 갖는 클래스를 출력함으로 Inference를 진행.
경우의 수
- 다양한 문제 상황에서의 확률을 계산을 위해 기본적으로 경우의 수를 계산하는 방법을 알아야 한다.
- 경우의 수를 계산하는 방법으로는 순열(permutation)과 조합(combination)이 있다.
순열
- 서로 다른 n개에서 r개를 중복없이 뽑아 특정한 순서로 나열하는 것을 의미함.
- ex) 5개에서 3개를 뽑아서 특정한 순서로 나열할 때
- ex2)
순열이 어디서 쓰이냐?
- 데이터 정렬, 나열에서 쓰인다.(Shuffling / Split)
- 지도학습 기반 머신러닝 모델 학습을 위해서는 대부분 Training Data / Test Data 또는 Traning / Validation / Test로 나누어서 진행한다. 이와 같이 Split 할 때 사용됨.
- 학습을 돌릴 때 Epoch과 Batch Size를 직접 지정해서 돌리게 되는데 이때 매 Epoch마다 동일한 순서의 데이터로 학습하지 않도록 매번 나뉜 분할된 데이터를 Shuffling하여 학습을 진행.
- 여기서는 임
조합
- 서로 다른 n개에서 r개를 순서를 고려하지 않고 중복없이 뽑는 것을 의미함.
- ex) 순서를 고려하지 않고 중복없이 5개에서 3개를 뽑는 경우의 수
중복순열
- 서로 다른 n개에서 중복을 포함해 r개를 뽑아 순서로 나열하는 것을 의미함.
- ex) 세 개의 숫자 1,2,3을 이용해 만들 수 있는 두 자리 숫자는?
중복조합
- 서로 다른 n개에서 중복을 포함해 순서를 고려하지 않고 r개를 뽑는 것을 의미함
- 딥러닝에서는 학습된 여러 모델의 결과를 활용하여 최종적인 결과를 생성하는 앙상블(ensemble) 모델에서 중복조합이 활용 됨
- 예를 들어 3개의 모델(1,2,3)을 활용하여 중복조합을 활용하여 4개를 선택하여 학습할 때 (앙상블 모델)
통계적 확률
- 주사위를 던졌을 때 1이 나올 확률은 1/6이다.
- 하지만 실제로 6번던졌을 때 1이 꼭 나올까?
- 시행횟수가 적어서 아닐수도 있다.
- 하지만 시행횟수가 크면 클 수록 1/6에 가까운 횟수로 사건이 발생할 것이다.
- 이게 통계적 확률이다.
→ 즉 데이터가 많다면 실제 확률에 근접할 수 있다.
- 예측 / 분류 / 생성 모델 등 통계적 확률을 근거로 가능한 것
확률 변수와 확률분포
시행과 사건
- 시행: 반복 가능하며, 매번 결과가 달라질 수 있는 실험
- ex1) 주사위 던지기
- ex2) 동전 던지기
- 사건: 시행에 따른 결과를 의미
- ex1) 주사위가 1이 나올 사건
- ex2) 동전이 앞면이 나올 사건
확률
- 확률: 어떠한 사건이 일어날 가능성을 수치로 표현한 것
- ex) 동전을 두번 던졌을 때 두번 다 앞면이 나올 확률
- 확률변수: 사건으로 인해 그 값이 확률적으로 정해지는 변수를 의미
- 동전은 던지는 시행을 할 때마다 앞, 뒤가 변할 수 있다.
- 즉, “확률 변수 = 동전의 결과(H,T)”로 표현 가능
- 확률 변수()로 표기, 확률 변수가 취할 수 있는 값()로 표기
- 2개의 동전을 동시에 던지는 시행, 각 동전의 앞뒤는 0과 1로 부여 두 동전의 결과의 합이 1이 나올 확률
→ 시행: 동전 2개를 동시에 던지기
→ 확률 변수 X: 두 동전 결과의 합
딥러닝에서의 사건
- 데이터 == 사건(event)로 이해할 수 있다.
- Image Classification 모델을 학습할 때 다양한 이미지를 사용한다.
- 이 때 내가 가지고 있는 이미지를 사건(event) == 데이터로 이해할 수 있다.
- 즉, 이미지 에 대해서 를 구할 수 있고, 이것이 지정한 threshold 이상이면 해당 클래스로 분류할 수 있다.
확률분포란?
- 각 사건에 어느 정도의 확률이 할당되었는지 표현한 정보
- 확률 변수 가 가지는 값 에 확률 을 대응시키는 함수를 의미
- 확률질량함수(Probability Mass Function, PMF)
- 이산확률변수가 특정한 값을 가질 확률을 출력하는 함수
- 분류 모델의 출력은 조건부확률로(Conditional PDF)로 표현 가능,
- 확률밀도함수(Probability Density Function, PDF)
- 연속확률분포가 특정한 구간에서 해당 값을 가질 확률을 출력하는 함수
- 정규분포(가우시안분포)
→ ex) 이미지 x가 input 되었을 때 클래스 y의 확률로 표현 가능 즉, 임의의 추론 모델을 거쳐 나오는 해당 이미지x가 y일 확률을 구함.
P(Y = 강아지 | X = x) = 0.05
P(Y = 고양이 | X = x) = 0.8
P(Y = 호랑이 | X = x) = 0.15
→ 확률 변수와 확률 분포함수를 모두 함수로 이해할 수 있다.
사건 → 확률변수X(함수) → 실수 → 확률분포함수(함수) → 확률값
이산확률분포란?
- 확률변수 가 취할 수 있는 모든 값을 셀 수 있는 경우 이산 확률 변수라고 함
- 이산확률변수의 확률 분포를 의미
- 주사위를 던졌을 때 나올 수 있는 나올 수 있는 사건, 즉 확률변수 X 중 {1,2,3,4,5,6} 하나이다.
- 즉, 6개이므로 셀 수 있으므로 이산확률변수이다.
- 주사위의 경우 모든 확률변수가 나올 확률이 동일.
- P(X = x) =
- 이산 균등 분포
이산확률분포(1) - 베르누이 시행(Bernoulli Trial)
- 결과가 두가지 중 하나로만 나오는 시행을 베르누이 시행이라고 함
- ex1) 패논패 시험 → 합격 or 불합격
- ex2) 동전 던지기 → 앞면 or 뒷면
- ex3) 꽝 혹은 당첨만 있는 복권
- 베르누이 시행의 결과를 실수 0 or 1로 나타낸다.
- 즉, 확률 변수 X는 0 또는 1의 값만 갖을 수 있으므로(=셀 수 있으므로), 이산확률 변수이다.
- 확률 변수 X가 베르누이 분포를 따를 때의 수식
- 베르누이 확률 분포는 모수를 로 가지는데, 1이 나올 확률을 의미.
- 만약 가 0.8인 베르누이 확률 분포는, 일 때 0.8, 일 때 0.2



이산확률분포(2) - 이항 분포
- 성공확률이 인 베르누이 시행을 N번 반복하는 경우 번 중에서 성공한 횟수를 확률 변수 라고 할때 는 0부터 까지의 정수 중 하나이다.
- 이러한 확률 변수를 이항 분포라고 한다.
~
- 이항 분포는 모수(parameter)로 과 를 가진다.
- 파라미터 : 시행횟수
- 파라미터 : 한번의 횟수에서 1이 나올 확률
[문제1]
- 임의의 강아지 분류 모델이 5개 강아지 사진 중 4개를 예측한다.
- 해당 모델에 10개의 강아지 사진을 주었을 때 7개를 정확히 예측할 확률은?
[문제1-답]
- 임의의 강아지 분류 모델이 5개 강아지 사진 중 4개를 예측한다.
→ (예측 성공확률) / /
즉, ~
[문제2]
- 공장에서 가구를 만들 때, 불량률이 10%이다.
- 공장에서 가구 10개를 확인했을 때, 불량품이 2개 이하로 나올 확률은?
[문제2-답]
- 공장에서 가구를 만들 때, 불량률이 10%이다.
- 공장에서 가구 10개를 확인했을 때, 불량품이 2개 이하로 나올 확률은?
→ (불량품일 확률) / /
즉, ~
이산확률분포(3) - 포아송 분포
- 일정한 시간 내 발생하는 사건의 발생 횟수에 대한 확률을 계산할 때 사용
- 단위 시간에 어떤 사건이 발생할 기대값: , 그 사건이 회 일어날 확률
- 하루에 평균적으로 5개의 스팸 메일이 도착한다.
[문제1: 오늘 하루 동안 스팸 메일이 1개 도착할 확률은?]
[문제2: 오늘 하루 동안 스팸 메일이 5개 도착할 확률은?]
[문제3: 오늘 하루 동안 스팸 메일이 8개 도착할 확률은?]
연속확률분포(Continuous PDF)란?
- 확률변수 가 취할 수 있는 값이 무한한 경우 연속확률 변수라고 함
- ex) 키, 몸무게
- 대표적인 연속확률 분포인 정규분포가 있다.
정규분포란?
- 특정한 구간 에 대한 확률로 표현
연속확률분포의 성질
- 확률 변수 가 어떠한 구간에 속할 확률은 0 ~ 1이다.
- 확률 변수 가 값을 가질 수 있는 모든 구간의 확률을 합치면 1이다.(전체 면적 = 1)
→ 단, 각 구간은 배반(서로 겹치는 게 없을 때) 관계일 때 성립

- 연속 확률 변수는 면적으로 계산(구간으로 계산), 한 점에 대한 확률은 0으로 간주
→
연속확률분포(1) - 균등분포(Uniform Distribution)
- 가장 단순한 연속확률분포, 특정 구간 내 값들이 나타날 가능성이 균등하다.
- 즉, 모든 확률 변수에 대해 일정한 확률을 갖는 분포다.
- 는 까지의 일정한 값을 취하고 이다.
~

연속확률분포(2-1) - 정규분포(Normal Distribution)
- 가우시안 분포라고도 불림(공학 분야)
- 정규분포는 기계학습 분야에서 매우 자주 등장
- 대부분의 사회, 자연 현상이 정규분포를 따름
- 정규 분포는 평균을 중심으로 좌우 대칭인 종 모양의 모양을 띄며 평균과 표준편차로 결정 됨.
- 관측되는 값()의 약 98%가 범위 안에 속함.
- 평균에 따라서 정규 분포가 좌우로 평행이동함
- 분산이 클수록 완만한 모양을 갖는다.
- 분산이 작을수록 가파른 모양을 갖는다.
연속확률분포(2-2) - 표준정규분포(Standard Normal Distribution)
- 표준 정규 분포는 평균이 0, 표준편차가 1인 정규분표를 의미.
- 확률을 계산하기 위해 정규 분포 함수를 직접 적분하는 것은 매우 어려움
→ 표준 정규 분포로 변환 뒤에 확률을 계산
연속확률분포(3) - 지수분포(Exponential Distribution)
- 특정 시점에서 어떤 사건이 일어날 때까지 걸리는 시간을 측정할 때 사용
- 대기 시간에 대한 확률을 구할 때 사용
- : 단위 시간 동안 평균 사건 발생 횟수
- : 단위 시간
- 지수 분포의 특성 - 무기억성
- 특정 시점에서부터는 소요되는 시간은 과거로부터 영향을 받지 X
- 한계점: 현실 세계에서의 다양한 사례를 모델링하기에는 지나치게 단순한 경향이 있다.
포아송 분포 vs 지수 분포
ㅤ | 분류 | 설명 |
포아송 분포 | 이산확률분포 | 발생 횟수에 대한 확률 |
지수 분포 | 연속확률분포 | 대기 시간에 대한 확률 |
표준정규분포(Standard Normal Distribution)
- 평균이 0이고 분산이 1인 표준화된 정규분포
- 확률변수 가 ~ 을 따를 때, 아래 공식으로 표준화 가능
- 확률변수 Z가 평균이 0이고, 분산이 1인 정규분포를 따르는 상황이면 이때 는 표준정규분포를 따른다고 말하며, ~로 표현
- 확률 변수 의 확률 밀도함수는 아래와 같음
- 표준정규분포의 사용 이유
- 평균과 표준편차가 각가 0과 1로 정해져있으므로 확률값을 구하기가 매우 편리함(표준정규분포표를 활용할 수 있음)
- 즉, 적분없이 빠르게 정규분포표를 활용하여 값을 확률값을 구할 수 있음
표준정규분포표

표준 정규분포 예시 [IQ]
- IQ를 판단할 때 평균 IQ를 100으로 설정
- 한국에서는 기본적으로 표준편차를 24로 설정
→ ,
- 당신의 IQ는 상위 몇 %에 해당하십니까?
- 확률변수 가 ~
독립변수(와 종속변수(
변수와 가설
- 현실 세계에서는 어떠한 일(변수)가 다른 일(변수)에 영향을 미치는 경우가 많다.
- ex1) 부모의 수입이 높으면 —> 자녀의 학업 성적이 우수하다?
- ex2) 가족 구성원이 많으면 —> 가정 내 한 달 평균 식비가 높다?
독립변수(영향을 주는 변수) → 종속 변수(독립변수로부터 영향을 받는 변수)
- 독립: 다른 변수에 의해 영향을 받지 않는 변수
- 마음대로 조정 가능
ex1) 로 생각해보면 부모의 수입을 “독립 변수”로 생각하고 소득을 조정 가능
- 종속: 독립 변수에 영향을 받아 변화하는 변수
원인 | 결과 |
독립변수 | 종속변수 |
설명변수 | 반응변수 |
예측변수 | 결과변수 |
ㅤ | 표적변수 |
- 이미지 분류에서 생각해보면 이미지 = 독립변수, 추론결과 = 종속변수
변수(variable) vs 변량(variate)
- 변수(variable)은 독립변수 를 의미함
단변수(Univariable) | 다변수(Multivariable) |
독립변수가 1개일 때 | 독립변수가 여러 개일 때 |
- 변량(variate)은 종속변수 를 의미함
단변량(Univariate) | 다변수(Multivariate) |
종속변수가 1개일 때 | 종속변수가 여러 개일 때 |
결합확률과 주변확률
독립(Independent)
- 일 때, 두 사건 와 는 서로 독립이라고 함
- 두 변수가 서로 영향을 주지 않는다는 것
- ex1) 자동 로또로 두개의 로또를 뽑았을 때 두개는 서로 독립.
- ex2) 내가 AI공부를 하는 사건 / EPL 토트넘의 손흥민이 골을 넣는 사건
종속(Dependent)
- 두 사건 와 가 서로 영향을 줄 때 종속 사건이라고 함
- ex1) Upstage AI를 수료한 사건 / 대기업에 취업하는 사건
- ex2) AI 스터디를 진행하는 사건 / AI 실력이 오르는 사건
배반 사건
- 배반 사건은 “교집합이 없는 사건”을 뜻 함
- ex1) 내가 대기업에 취업할 사건 / 내가 대기업에 취업하지 못할 사건
배반 vs 독립
→ 사건 의 발생여부와 상관없이 , 사건 가 발생할 확률은 동일하다
[문제] 배반사건과 독립사건을 동시에 만족하는 ex가 있을까요?
- 동전던지기
- 동전던지기의 결과는 앞면이 나오는 사건() / 뒷면이 나오는 사건()
- 이 두 사건은 배반사건도 만족 / 독립사건도 만족
ㅤ | 배반 사건 | 독립 사건 |
정의 | ||
의미 | 두 사건이 동시에 일어나지 않는다. | 두 사건이 동시에 일어날 때 서로 영향을 주지 않는다. |
판단 방법 | 라면, 두 사건은 서로 배반 사건 | 라면, 두 사건은 서로 독립 사건 |
다변수 확률 변수(Multivariate Random Variable)
- 확률 변수가 두개 이상 있는 경우를 뜻함
- 개별적인 확률변수에 대한 확률 분포
- 두 확률 변수를 모두 고려한 “복합적인” 확률분포를 계산할 수 있다.
- 딥러닝 분야는 일반적으로 다변수 확률 분포(변수가 여러 개)에 해당함
- 얼굴 특징에 대한 확률 분포

결합 확률함수(Joint Probability Function)
- 두 개의 사건이 동시에 일어날 확률로, 두 확률 변수의 교집합이 발생할 확률이다.
or 로 표현
주변확률질량함수(Joint Probability Function)
- 두 확률 변수 중에서 하나의 확률변수에 대해서만 확률 분포를 나타낸 함수

조건부 확률
- 어떠한 사건이 일어나는 경우 → 다른 사건이 일어날 확률을 의미
- 딥러닝 분야에서는 “사건이 단서로 주어졌을 때, 사건이 발생할 확률”
- 분류 모델의 출력은 조건부확률로(Conditional PDF)로 표현 가능,
- P(Y = 강아지 | X = x) = 0.05
- P(Y = 고양이 | X = x) = 0.8
- P(Y = 호랑이 | X = x) = 0.15
→ ex) 이미지 x가 input 되었을 때 클래스 y의 확률로 표현 가능 즉, 임의의 추론 모델을 거쳐 나오는 해당 이미지x가 y일 확률을 구함.
- 특정한 사건이 발생하는 경우에 다른 사건이 발생할 확률
ㅤ | 스팸 메일 | 일반 메일 | 합계 |
학교 계정 | 40 | 30 | 70 |
회사 계정 | 50 | 60 | 110 |
합계 | 90 | 90 | 180 |
- 하나의 메일을 뽑았을 때, 학교 계정으로 온 메일일 확률
→
- 하나의 메일을 뽑았을 때, 학교 계정으로 온 메일이면서 스팸일 확률(결합확률)
→
- 스팸 매일 중 하나를 뽑았을 때, 학교 계정으로 온 메일일 확률(조건부확률)
→
베이즈 정리
- 조건부확률을 구하는 공식
[문제] 스팸 분류 모델
- 입력: 텍스트
- 출력: 텍스트가 특정 클래스(스팸 혹은 햄)에 속할 확률
- 목표: 하나의 텍스트 가 스팸 일 확률 계산
- 정리: 텍스트 가 있을 때, 해당 텍스트가 스팸일 확률(조건부확률)
- 는 두개의 클래스라고 설정 ()
- 햄일 확률
- 스팸일 확률
- 지금까지 받은 메일을 확인 → 스팸메일 70% 정상메일 30%
- 스팸 메일의 90%는 “대출”이라는 단어 존재
- 정상 메일의 3%는 “대출”이라는 단어 존재
“대출”이라는 단어가 들어 있는 메일이 스팸 메일일 확률은?
- 구하고자하는것? →
→ 베이즈 정리에 따라서,
→
→
→ 답:
평균과 기댓값
평균(Mean)
- 평균에는 다양한 종류가 있다.
- 산술평균: 모든 값을 더해 값의 개수로 나눈 것
- 가중평균
- 조화평균
- 기하평균
- 가장 일반적인 평균은 산술 평균이다.
대표값
- 평균(Mean)은 특정 데이터 집단을 대표하기에 적절한가?
→ No, 특정 이상치가 있을 시 대표하기 어렵다
ex) 우리 아파트에 일런머스크가 산다고 가정할 때, 우리 아파트 거주자 연봉의 평균이 10억이고 해당 수치는 우리 아파트 거주자의 연봉 데이터를 대표할 수 없다.
- 그렇다면 어떤 대표값들이 있을까?
- 중앙값(Median): 값들을 순서대로 정렬하였을 때, 가장 중앙에 위치하는 값
ex) 1 , 2, 3, 4, 100 이 있을 때 평균: 55 / 중앙값: 3
평균(Mean) vs 중앙값(Median)
- 평균과 중앙값은 각각 어떨 때 대표값으로 사용하기 좋을까?
- 평균: 데이터의 분포가 정규분포처럼 대칭적인 경우
- 중앙값: 데이터의 분포가 한쪽으로 치우쳐졌거나 이상치가 존재하는 경우
기댓값(Expectation)
- 각 사건에 대해 확률변수(와 확률 값을 곱하여, 전체 사건에 대해 모두 더한 것
- 사실상 기댓값은 산술평균과 유사함(이산확률의 경우 동일)
- 이산확률변수
- 연속확률변수
평균(Mean) vs 기댓값(Expectation)
- 평균과 기댓값은 그 의미가 유사하다. 하지만 사용되는 문맥이 다름
- 기댒값: 새로운 데이터가 관축되었을 때, 그 데이터가 확률적으로 어떤 값을 가질지 예측할 때
- 평균: 이미 구해진 값에 대하여 통계적인 특성을 분석할 때
분산과 표준편차
- 데이터의 분포가 퍼져있는지 오밀조밀 모여있는지 확인할 수 있는 지표
분산(Variance)
- 평균과 각 값의 편차(빼기)의 제곱의 평균을 의미
- 즉, 개의 데이터의 각 값을 , 평균을 라고 할 때 공식은
분산을 사용하는 이유?
- 각 값에서 평균과의 차이이므로, 그냥 편차를 모두 더하면 0이 되어버린다.
→ 편차를 단순히 더하지 않고 제곱해서 더한다
- 분산이 작을 때: 각 데이터가 평균에 가까울수록(평균에 근접)
- 분산이 클때: 각 데이터가 평균에서 멀수록(평균에서 멀어짐)
표준편차를 사용하는 이유?
- 표준편차는 분산의 양의 제곱근이다.
- 분산은 편차의 제곱을 사용하기 때문에 값이 커지는 경향이 있으며, 측정 단위가 바뀌는 문제점이 있다.
ex) 10cm → 100
공분산(Covariance)과 상관계수(Correlation Coefficient)
공분산(Covariance)
- 변수가 여러 개일 때(다변수확률분포)의 분산
- 분산과 동일하게 데이터가 평균으로부터 얼마나 떨어져 있는지를 나타냄
- 평균 값(0,0)의 위치와 표본 위치 사이의 사각형 면적을 사용

- 공분산의 특징
- 데이터의 위치에 따라 부호가 다르게 반영됨
- 양수부호: 1, 3 사분면
- 움수부호: 2, 4 사분면
- 크기: 원점에서 얼마나 떨어져 있는지 알 수 있다.
- 방향: 양수/음수에 따라 어느 방향을 가지는지 알 수 있다.
→ 즉, 공분산은 데이터가 어떻게 분포되어 있는지에 대한 크기와 방향성을 같이 보여줌
- 양의 상관관계: 공분산이 양수의 값을 가지는 경우
- 음의 상관관계: 공분산이 음수의 값을 가지는 경우
상관계수(Correlation Coefficient)
- 공분산은 크기와 방향성 정보를 같이 가지고 있다.
- 일반적으로 공분산에서 크기 자체보다는 방향성(상관성)을 보고자 함
- 즉, 방향성을 더 중요하게 보므로, 정규화 진행해서 사용
- : 의 분산, : 의 분산, : 와 의 공분산
- 항상 -1 ~ 1 사이의 값을 갖게 됨
→ 피어슨 상관계수

피어슨 상관계수를 그림으로 이해하자면


공분산 행렬(Covariance Matrix)
- 머신러닝에서는 대부분 다변수 확률변수(백터값)을 갖는다.
- 이러한 데이터 개가 있을 때
- 대각성분(diagonal)은 각 확률변수의 분산
- 비대각성분은 두 확률변수의 공분산
ex) 얼굴을 3개의 특징으로 표현한다고 가정
→ 이때 하나의 데이터는 3개 (d = 3)의 원소를 가지는 즉, 3개의 차원을 갖는 벡터이다
→ 얼굴 데이터 = [얼굴 길이, 코 높이, 눈 크기]
개의 얼굴 데이터를 하나의 행렬로 표현하면 행렬이다

공분산 행렬

공분산 vs 독립
- 독립
- 즉, 독립이면 도 만족
- 공분산 로 유도할 수 있는데,
- 즉, 만약 , 가 독립이라면 공분산은 0 이다
Share article