대학원 면접 정리(Machine Learning)

Nov 23, 2023
대학원 면접 정리(Machine Learning)

대학원 면접 정리

Machine Learning

Frequentist 와 Bayesian의 차이는 무엇인가?

  • Frequentist모수가 고정된 상수라고 가정하며, 데이터를 통해 그 값을 추정합니다.
  • Bayesian모수도 확률변수로 보고, 사전확률을 업데이트하여 사후확률을 얻습니다.
  • Frequentist: 빈도주의자는 모수가 고정되어 있고, 데이터가 랜덤하다고 가정한다.
  • Bayesian: 베이지안은 모수도 랜덤 변수로 보고, 데이터에 대한 불확실성을 확률로 표현한다.

Frequentist 와 Bayesian의 장점은 무엇인가?

  • Frequentist: 계산적으로 더 간단하며, 대량의 데이터에 잘 작동합니다.
  • Bayesian: 사전 지식을 포함할 수 있으며, 모수의 불확실성을 직접적으로 모델링할 수있습니다.

차원의 저주란?

  • 차원이 증가할수록 데이터의 밀도가 급격하게 감소하여 학습이 어려워지는 현상이다. 이로 인해 분류기의 성능이 저하될 수 있습니다.

Train, Valid, Test를 나누는 이유는 무엇인가?

  • 오버피팅을 방지하고, 모델의 일반화 성능을 평가하기 위함입니다.

Cross Validation이란?

  • 데이터를 여러 부분으로 나누어 하나의 부분을 테스트셋, 나머지를 트레이닝셋으로사용하는 검증 방법입니다.
  • 교차 검증은 모델의 성능을 보다 안정적으로 평가하기 위해 데이터를 여러 부분으로 나누고, 각 부분에 대해 모델을 학습 및 검증하는 방법이다.

(Super-, Unsuper-, Semi-Super) vised learning이란 무엇인가?

  • Supervised Learning: 지도학습은 라벨이 제공되며 모델은 라벨을 예측하도록 학습
  • Unsupervised Learning: 비지도학습은 라벨이 제공되지 않으며 모델은 데이터의 구조나 패턴을 학습한다.
  • Semi-Supervised Learning: 준지도학습은 일부 라벨만 제공되며 모델은 라벨이 제공된 데이터와 라벨이 제공되지 않은 데이터를 모두 사용하여 학습한다.

Decision Theory란?

  • 결정을 내리기 위한 기준과 알고리즘을 연구하는 이론입니다.
  • 결정 이론은 불확실한 상황에서의 최적의 결정을 찾는 이론이다.

Receiver Operating Characteristic Curve란 무엇인가?

  • ROC Curve는 이진 분류 모델의 성능을 평가하기 위한 그래프입니다. FPR과 TPR사이의 관계를 나타냅니다.

Precision Recall에 대해서 설명해보라

  • Precision은 True Positive/(True Positive + False Positive)로 → 양성으로 예측한 것 중 실제 양성의 비율입니다.
  • Recall은 True Positive/(True Positive + False Negative)로 → 실제 양성 중 양성으로 예측한 비율입니다.

Precision Recall Curve란 무엇인가?

  • 다양한 임계값에서의 Precision과 Recall 값을 그래프로 나타낸 것입니다.

Type 1 Error 와 Type 2 Error는?

  • Type 1 Error: 실제로는 False인데 True로 잘못 판단한 경우입니다.
  • Type 2 Error: 실제로는 True인데 False로 잘못 판단한 경우입니다.
  • Type 1 Error: 귀무 가설이 참일 때, 귀무 가설을 기각하는 오류다.
  • Type 2 Error: 대립 가설이 참일 때, 귀무 가설을 채택하는 오류다.

Entropy란 무엇인가?

  • 정보의 불확실성을 측정하는 지표입니다.

KL-Divergence란 무엇인가?

  • 두 확률 분포의 차이를 측정하는 지표입니다.
  • KL 발산은 두 확률 분포의 차이를 측정하는 데 사용되며, 한 분포를 다른 분포로 근사하는 데 얼마나 많은 정보가 손실되는지를 측정한다.

Mutual Information(상호정보)이란 무엇인가?

  • 두 확률 변수간의 상호 의존성을 측정하는 지표입니다.

Cross-Entropy란 무엇인가?

  • 두 확률 분포의 유사도를 측정하는 지표입니다.
  • 교차 엔트로피는 두 확률 분포의 차이를 측정하는 데 사용되며

분류 문제에서 모델의 성능을 평가하는 데 사용된다.

Cross-Entropy loss 란 무엇인가?

  • 분류 문제에서 자주 사용되는 손실 함수로, 실제 분포와 예측 분포 사이의 차이, 즉, 실제 분포와 예측 분포 사이의 Cross-Entropy를 계산합니다.

Generative Model이란 무엇인가?

  • 데이터의 생성 과정을 모델링합니다.
  • 생성 모델은 데이터의 생성 과정을 모델링하여 새로운 데이터를 생성할 수 있는 모델

Discriminative Model이란 무엇인가?

  • 입력 데이터가 어떤 레이블에 속하는지를 직접 모델링합니다.
  • 판별 모델은 주어진 입력에서 레이블을 직접 예측하는 모델이다.

Discrinator function이란 무엇인가?

  • Discriminative Model에서 사용되는 함수로, 입력 데이터를 특정 클래스로 분류합니다.
  • 판별 함수는 입력이 주어진 클래스에 속할 확률을 계산하는 함수이다.

Overfitting 이란? [Answer Post]

  • 모델이 트레이닝 데이터에 과도하게 적합되어, 새로운 데이터에 대한 일반화 성능이 떨어지는 현상입니다.
  • 과적합은 모델이 학습 데이터에 너무 잘 맞아서 새로운 데이터에 대한 성능이 저하되는 현상을 말한다.

Underfitting이란? [Answer Post]

  • 모델이 트레이닝 데이터에도 제대로 적합되지 못하여, 성능이 낮은 모델이 되는 현상
  • 과소적합은 모델이 너무 단순하여 학습 데이터에도 잘 맞지 않고, 새로운 데이터에 대한 성능도 저하되는 현상을 말한다.

Overfitting과 Underfitting은 어떤 문제가 있는가?

  • Overfitting: 새로운 데이터에 대한 예측력이 떨어집니다.
  • Underfitting: 트레이닝 데이터에 대한 예측력도 떨어집니다.
  • 과적합과 과소적합은 모두 모델의 일반화 성능을 저하시키며, 예측 정확도에 부정적인 영향을 미친다.

Overfitting과 Underfitting을 해결하는 방법은? [Answer Post]

  • Overfitting: 데이터의 복잡성을 줄이거나, Regularization을 사용합니다.
    • + 드롭아웃 적용 또는 데이터의 수를 증가 또는 validataion 비율 조정
  • Underfitting: 모델의 복잡성을 증가시키거나, 더 많은 데이터를 수집합니다.
  • 데이터의 양을 늘리기, 모델의 복잡도 조절, 교차 검증 수행, 정규화 기법 사용

Regularization이란?

  • 모델의 복잡성을 제한하여 Overfitting을 방지하는 기법입니다.
  • RidgeLasso는 정규화의 두 가지 주요 형태이다.
  • RidgeL2 정규화, LassoL1 정규화를 사용한다.

Activation function이란 무엇인가?3가지 Activation function type이 있다.

  • 뉴런의 출력 값을 결정하는 함수입니다.
  • Activation Function은 신경망의 각 노드에서 입력 신호의 총합을 출력 신호로 변환하는 함수다.
  • 일반적인 Activation Function으로는 ReLU, Sigmoid, Tanh 등이 있다.

CNN에 대해서 설명해보라

  • 이미지 처리에 특화된 신경망 구조입니다. 합성곱 계층을 사용하여 지역적 특징을 추출합니다.
  • CNN은 이미지 인식, 비디오 처리 등에 사용되는 신경망으로, 공간적 구조를 인식하는 컨볼루션 레이어를 포함한다.

RNN에 대해서 설명해보라

  • 시계열 데이터를 처리하기 위한 신경망 구조입니다. 상태를 유지하며 정보를 전달합니다.
  • RNN은 시간적 구조를 가진 데이터를 처리하기 위한 신경망으로, 이전 시간 단계의 정보를 현재 시간 단계로 전달한다.

Netwon's method란 무엇인가?

  • 최적화 문제에서 두 번째 미분값(헤시안)을 사용하여 함수의 최소값을 찾는 방법입니다.
  • 함수의 근을 찾기 위한 반복적인 최적화 알고리즘이다

Gradient Descent란 무엇인가?

  • 함수의 기울기를 사용하여 함수의 최소값을 찾는 최적화 알고리즘입니다.
  • 경사 하강법은 비용 함수를 최소화하기 위해 반복적으로 모델 파라미터를 업데이트하는 최적화 알고리즘이다.

Stochastic Gradient Descent(SGD)란 무엇인가?

  • 기울기를 업데이트할 때 전체 데이터 대신 랜덤하게 선택한 일부 데이터를 사용하는 경사 하강법입니다.
  • SGD는 각 반복에서 하나의 샘플만 사용하여 경사 하강법을 수행하며, 계산 비용이 낮고, 빠른 수렴을 가능하게 한다.

Local optimum으로 빠지는데 성능이 좋은 이유는 무엇인가?

  • 실제 문제에서 Global Optimum에 도달하는 것이 불가능하거나 과적합을 유발할 수 있기 때문에 Local Optimum도 종종 충분한 성능을 발휘합니다.
  • 지역 최적점에 빠져도, 실제로는 전역 최적점에 근접할 수 있고, 그 결과가 실제 문제에 충분히 좋을 수 있다.

Internal Covariance Shift 란 무엇인가?

  • 신경망의 각 레이어를 거치면서 입력 데이터의 분포가 변화하는 현상을 의미합니다.
  • 신경망의 각 레이어에서 입력 분포가 변경되는 현상을 말하며, 이는 학습을 느리게 하고, 초기화를 어렵게 한다.

Batch Normalization은 무엇이고 왜 하는가?

  • 각 레이어의 입력을 정규화하여 Internal Covariance Shift를 완화합니다.
  • 학습 속도가 빨라지고, 초기화를 덜 민감하게 하여 과적합을 줄이는 효과가 있습니다.

Backpropagation이란 무엇인가?

  • 신경망에서 오차를 최소화하기 위해 각 레이어의 가중치를 역방향으로 업데이트하는 알고리즘입니다.

Optimizer의 종류와 차이에 대해서 아는가?

  • SGD, Adam, RMSprop 등이 있으며, 각기 다른 방식으로 가중치를 업데이트합니다.

Ensemble이란?

  • 앙상블은 여러 개의 모델을 결합하여 단일 모델보다 더 좋은 성능을 내는 방법입니다.

Stacking Ensemble이란?

  • 스태밍 앙상불은 여러 모델의 예측 결과를 새로운 모델의 입력으로 사용하여 예측하는 방법입니다.

Bagging이란?

  • 배깅은 학습 데이터를 랜덤하게 샘플링하여 여러 모델을 학습시키고, 그 결과 예측을 평균내는 방법입니다.

Bootstrapping이란?

  • 부트스트래핑은 통계적 샘플링 기법 중 하나로 중복을 허용한 랜덤 샘플링을 의미

Boosting이란?

  • 부스팅은 약한 학습기를 여러 개 결합하여 순차적으로 훈련시켜 각각의 오류를 수정하여 강한 학습기를 만드는 알고리즘입니다.

Bagging 과 Boosting의 차이는?

  • Bagging독립적으로 병렬로 여러 모델을 학습, Boosting순차적으로 모델을 학습

AdaBoost / Logit Boost / Gradient Boost --> 모두 부스팅 알고리즘의 변형

  • AdaBoost가중치를 부여
  • Logit Boost로지스틱 회귀에 적용,
  • Gradient Boost손실 함수의 기울기를 최소화하는 방식으로 작동합니다.

Support Vector Machine(SVM)이란 무엇인가?

  • 클래스 간의 마진을 최대화하는 초평면을 찾는 알고리즘입니다.

Margin을 최대화하면 어떤 장점이 있는가?

  • Margin이 크면 모델의 일반화 성능이 향상됩니다.
  • 마진을 최대화하면 일반화 오류가 줄어들고, 모델의 오버피팅 가능성이 감소한다.
Share article

jodory