대학원 면접 정리
Machine Learning
Frequentist 와 Bayesian의 차이는 무엇인가?
- Frequentist는 모수가 고정된 상수라고 가정하며, 데이터를 통해 그 값을 추정합니다.
- Bayesian은 모수도 확률변수로 보고, 사전확률을 업데이트하여 사후확률을 얻습니다.
- Frequentist: 빈도주의자는 모수가 고정되어 있고, 데이터가 랜덤하다고 가정한다.
- Bayesian: 베이지안은 모수도 랜덤 변수로 보고, 데이터에 대한 불확실성을 확률로 표현한다.
Frequentist 와 Bayesian의 장점은 무엇인가?
- Frequentist: 계산적으로 더 간단하며, 대량의 데이터에 잘 작동합니다.
- Bayesian: 사전 지식을 포함할 수 있으며, 모수의 불확실성을 직접적으로 모델링할 수있습니다.
차원의 저주란?
- 차원이 증가할수록 데이터의 밀도가 급격하게 감소하여 학습이 어려워지는 현상이다. 이로 인해 분류기의 성능이 저하될 수 있습니다.
Train, Valid, Test를 나누는 이유는 무엇인가?
- 오버피팅을 방지하고, 모델의 일반화 성능을 평가하기 위함입니다.
Cross Validation이란?
- 데이터를 여러 부분으로 나누어 하나의 부분을 테스트셋, 나머지를 트레이닝셋으로사용하는 검증 방법입니다.
- 교차 검증은 모델의 성능을 보다 안정적으로 평가하기 위해 데이터를 여러 부분으로 나누고, 각 부분에 대해 모델을 학습 및 검증하는 방법이다.
(Super-, Unsuper-, Semi-Super) vised learning이란 무엇인가?
- Supervised Learning: 지도학습은 라벨이 제공되며 모델은 라벨을 예측하도록 학습
- Unsupervised Learning: 비지도학습은 라벨이 제공되지 않으며 모델은 데이터의 구조나 패턴을 학습한다.
- Semi-Supervised Learning: 준지도학습은 일부 라벨만 제공되며 모델은 라벨이 제공된 데이터와 라벨이 제공되지 않은 데이터를 모두 사용하여 학습한다.
Decision Theory란?
- 결정을 내리기 위한 기준과 알고리즘을 연구하는 이론입니다.
- 결정 이론은 불확실한 상황에서의 최적의 결정을 찾는 이론이다.
Receiver Operating Characteristic Curve란 무엇인가?
- ROC Curve는 이진 분류 모델의 성능을 평가하기 위한 그래프입니다. FPR과 TPR사이의 관계를 나타냅니다.
Precision Recall에 대해서 설명해보라
- Precision은 True Positive/(True Positive + False Positive)로 → 양성으로 예측한 것 중 실제 양성의 비율입니다.
- Recall은 True Positive/(True Positive + False Negative)로 → 실제 양성 중 양성으로 예측한 비율입니다.
Precision Recall Curve란 무엇인가?
- 다양한 임계값에서의 Precision과 Recall 값을 그래프로 나타낸 것입니다.
Type 1 Error 와 Type 2 Error는?
- Type 1 Error: 실제로는 False인데 True로 잘못 판단한 경우입니다.
- Type 2 Error: 실제로는 True인데 False로 잘못 판단한 경우입니다.
- Type 1 Error: 귀무 가설이 참일 때, 귀무 가설을 기각하는 오류다.
- Type 2 Error: 대립 가설이 참일 때, 귀무 가설을 채택하는 오류다.
Entropy란 무엇인가?
- 정보의 불확실성을 측정하는 지표입니다.
KL-Divergence란 무엇인가?
- 두 확률 분포의 차이를 측정하는 지표입니다.
- KL 발산은 두 확률 분포의 차이를 측정하는 데 사용되며, 한 분포를 다른 분포로 근사하는 데 얼마나 많은 정보가 손실되는지를 측정한다.
Mutual Information(상호정보)이란 무엇인가?
- 두 확률 변수간의 상호 의존성을 측정하는 지표입니다.
Cross-Entropy란 무엇인가?
- 두 확률 분포의 유사도를 측정하는 지표입니다.
- 교차 엔트로피는 두 확률 분포의 차이를 측정하는 데 사용되며
분류 문제에서 모델의 성능을 평가하는 데 사용된다.
Cross-Entropy loss 란 무엇인가?
- 분류 문제에서 자주 사용되는 손실 함수로, 실제 분포와 예측 분포 사이의 차이, 즉, 실제 분포와 예측 분포 사이의 Cross-Entropy를 계산합니다.
Generative Model이란 무엇인가?
- 데이터의 생성 과정을 모델링합니다.
- 생성 모델은 데이터의 생성 과정을 모델링하여 새로운 데이터를 생성할 수 있는 모델
Discriminative Model이란 무엇인가?
- 입력 데이터가 어떤 레이블에 속하는지를 직접 모델링합니다.
- 판별 모델은 주어진 입력에서 레이블을 직접 예측하는 모델이다.
Discrinator function이란 무엇인가?
- Discriminative Model에서 사용되는 함수로, 입력 데이터를 특정 클래스로 분류합니다.
- 판별 함수는 입력이 주어진 클래스에 속할 확률을 계산하는 함수이다.
Overfitting 이란? [Answer Post]
- 모델이 트레이닝 데이터에 과도하게 적합되어, 새로운 데이터에 대한 일반화 성능이 떨어지는 현상입니다.
- 과적합은 모델이 학습 데이터에 너무 잘 맞아서 새로운 데이터에 대한 성능이 저하되는 현상을 말한다.
Underfitting이란? [Answer Post]
- 모델이 트레이닝 데이터에도 제대로 적합되지 못하여, 성능이 낮은 모델이 되는 현상
- 과소적합은 모델이 너무 단순하여 학습 데이터에도 잘 맞지 않고, 새로운 데이터에 대한 성능도 저하되는 현상을 말한다.
Overfitting과 Underfitting은 어떤 문제가 있는가?
- Overfitting: 새로운 데이터에 대한 예측력이 떨어집니다.
- Underfitting: 트레이닝 데이터에 대한 예측력도 떨어집니다.
- 과적합과 과소적합은 모두 모델의 일반화 성능을 저하시키며, 예측 정확도에 부정적인 영향을 미친다.
Overfitting과 Underfitting을 해결하는 방법은? [Answer Post]
- Overfitting: 데이터의 복잡성을 줄이거나, Regularization을 사용합니다.
+ 드롭아웃 적용 또는 데이터의 수를 증가 또는 validataion 비율 조정
- Underfitting: 모델의 복잡성을 증가시키거나, 더 많은 데이터를 수집합니다.
- 데이터의 양을 늘리기, 모델의 복잡도 조절, 교차 검증 수행, 정규화 기법 사용
Regularization이란?
- 모델의 복잡성을 제한하여 Overfitting을 방지하는 기법입니다.
- Ridge와 Lasso는 정규화의 두 가지 주요 형태이다.
- Ridge는 L2 정규화, Lasso는 L1 정규화를 사용한다.
Activation function이란 무엇인가?3가지 Activation function type이 있다.
- 뉴런의 출력 값을 결정하는 함수입니다.
- Activation Function은 신경망의 각 노드에서 입력 신호의 총합을 출력 신호로 변환하는 함수다.
- 일반적인 Activation Function으로는 ReLU, Sigmoid, Tanh 등이 있다.
CNN에 대해서 설명해보라
- 이미지 처리에 특화된 신경망 구조입니다. 합성곱 계층을 사용하여 지역적 특징을 추출합니다.
- CNN은 이미지 인식, 비디오 처리 등에 사용되는 신경망으로, 공간적 구조를 인식하는 컨볼루션 레이어를 포함한다.
RNN에 대해서 설명해보라
- 시계열 데이터를 처리하기 위한 신경망 구조입니다. 상태를 유지하며 정보를 전달합니다.
- RNN은 시간적 구조를 가진 데이터를 처리하기 위한 신경망으로, 이전 시간 단계의 정보를 현재 시간 단계로 전달한다.
Netwon's method란 무엇인가?
- 최적화 문제에서 두 번째 미분값(헤시안)을 사용하여 함수의 최소값을 찾는 방법입니다.
- 함수의 근을 찾기 위한 반복적인 최적화 알고리즘이다
Gradient Descent란 무엇인가?
- 함수의 기울기를 사용하여 함수의 최소값을 찾는 최적화 알고리즘입니다.
- 경사 하강법은 비용 함수를 최소화하기 위해 반복적으로 모델 파라미터를 업데이트하는 최적화 알고리즘이다.
Stochastic Gradient Descent(SGD)란 무엇인가?
- 기울기를 업데이트할 때 전체 데이터 대신 랜덤하게 선택한 일부 데이터를 사용하는 경사 하강법입니다.
- SGD는 각 반복에서 하나의 샘플만 사용하여 경사 하강법을 수행하며, 계산 비용이 낮고, 빠른 수렴을 가능하게 한다.
Local optimum으로 빠지는데 성능이 좋은 이유는 무엇인가?
- 실제 문제에서 Global Optimum에 도달하는 것이 불가능하거나 과적합을 유발할 수 있기 때문에 Local Optimum도 종종 충분한 성능을 발휘합니다.
- 지역 최적점에 빠져도, 실제로는 전역 최적점에 근접할 수 있고, 그 결과가 실제 문제에 충분히 좋을 수 있다.
Internal Covariance Shift 란 무엇인가?
- 신경망의 각 레이어를 거치면서 입력 데이터의 분포가 변화하는 현상을 의미합니다.
- 신경망의 각 레이어에서 입력 분포가 변경되는 현상을 말하며, 이는 학습을 느리게 하고, 초기화를 어렵게 한다.
Batch Normalization은 무엇이고 왜 하는가?
- 각 레이어의 입력을 정규화하여 Internal Covariance Shift를 완화합니다.
- 학습 속도가 빨라지고, 초기화를 덜 민감하게 하여 과적합을 줄이는 효과가 있습니다.
Backpropagation이란 무엇인가?
- 신경망에서 오차를 최소화하기 위해 각 레이어의 가중치를 역방향으로 업데이트하는 알고리즘입니다.
Optimizer의 종류와 차이에 대해서 아는가?
- SGD, Adam, RMSprop 등이 있으며, 각기 다른 방식으로 가중치를 업데이트합니다.
Ensemble이란?
- 앙상블은 여러 개의 모델을 결합하여 단일 모델보다 더 좋은 성능을 내는 방법입니다.
Stacking Ensemble이란?
- 스태밍 앙상불은 여러 모델의 예측 결과를 새로운 모델의 입력으로 사용하여 예측하는 방법입니다.
Bagging이란?
- 배깅은 학습 데이터를 랜덤하게 샘플링하여 여러 모델을 학습시키고, 그 결과 예측을 평균내는 방법입니다.
Bootstrapping이란?
- 부트스트래핑은 통계적 샘플링 기법 중 하나로 중복을 허용한 랜덤 샘플링을 의미
Boosting이란?
- 부스팅은 약한 학습기를 여러 개 결합하여 순차적으로 훈련시켜 각각의 오류를 수정하여 강한 학습기를 만드는 알고리즘입니다.
Bagging 과 Boosting의 차이는?
- Bagging은 독립적으로 병렬로 여러 모델을 학습, Boosting은 순차적으로 모델을 학습
AdaBoost / Logit Boost / Gradient Boost --> 모두 부스팅 알고리즘의 변형
- AdaBoost는 가중치를 부여
- Logit Boost는 로지스틱 회귀에 적용,
- Gradient Boost는 손실 함수의 기울기를 최소화하는 방식으로 작동합니다.
Support Vector Machine(SVM)이란 무엇인가?
- 클래스 간의 마진을 최대화하는 초평면을 찾는 알고리즘입니다.
Margin을 최대화하면 어떤 장점이 있는가?
- Margin이 크면 모델의 일반화 성능이 향상됩니다.
- 마진을 최대화하면 일반화 오류가 줄어들고, 모델의 오버피팅 가능성이 감소한다.
Share article