일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 독립표본
- 데이터불균형
- Lambda
- 데이터분석
- 빅데이터
- LDA
- 워드클라우드
- Python
- 텍스트분석
- ADsP
- DBSCAN
- iloc
- ADP
- dataframe
- 대응표본
- 언더샘플링
- t-test
- opencv
- 파이썬
- 군집화
- 주성분분석
- 오버샘플링
- 데이터분석전문가
- numpy
- 빅데이터분석기사
- PCA
- pandas
- 데이터분석준전문가
- datascience
- 크롤링
목록adp 실기/알고리즘 이론 (4)
Data Science LAB

XGBoost 여러개의 의사결정나무를 조합하여 사용하는 앙상블 알고리즘으로 GBM에 기반하고 있지만, 느린 수행 시간 및 과적합 규제 부재 등의 문제를 해결하였다. 특히 병렬 CPU환경에서 병렬 학습이 가능해 기존 GBM보다 빠르게 학습 가능하다. 뛰어난 예측 성능 GBM 대비 빠른 수행 시간 과적합 규제 나무 가지치기 : 가지치기로 긍정 이득이 더 이상 없는 분할은 분할 수를 더 줄이는 장점 자체 내장된 교차 검증 결손값 자체 처리 XGBBoost(max_depth, objective, eval_metric, learning_rate, subsample) XGBClassifier xgbc = XGBClassifier(random_state=42) xgbc.fit(X1_train, y1_train) pr..

배깅 방식이 사용되며 배깅은 같은 알고리즘으로 여러 분류기를 만들어 보팅으로 최종 결정하는 알고리즘이다. 앙상블 알고리즘 중에서 비교적 빠른 속도를 가지고 있으며, 다양한 영역에서 좋은 성능을 보이나. 랜덤 포레스트의 기반 알고리즘은 결정 트리로 결정 트리의 쉽고 직관적인 장점을 가진다. 랜덤 포레스트는 여러 개의 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 된다. 또한 개별 트리가 학습하는 데이터는 전체 데이터에서 일부가 중첩되게 만든 데이터이다. 이렇게 여러 개의 데이터를 중첩되게 분리하는 것을 부트스트래핑 분할 방식이라고 한다. - 앙상블 알고리즘 중 비교적 빠른 속도 - 다양한 영역에..

의사결정나무 SVM처럼 분류와 회귀 그리고 다중 출력 작업도 가능한 머신러닝 알고리즘이다. 데이터의 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만든다. 일반적으로 스무고개와 같이 if/else 형태를 띄기 때문에 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 성능을 좌우한다. 결정트리는 루트노드부터 리프노드까지 데이터로부터 생성한 규칙을 기준으로 예측을 결정하게 된다. 루트노드에서 시작하여 규칙노드로부터 브랜치/서브 트리를 생성하여 데이터를 분류하고 최종적으로 리프노드에서 결정값을 예측한다. 많은 규칙이 존재하는 경우, 결정이 복잡해지고 이는 곧 과적합을 일으키기 쉽다. 정보의 균일도를 측정하는 방법은 엔트로피를 활용한 정보 이득 지수와 지니계수가 있다. 정보이..

SVM 서포트 벡터 머신은 새로운 데이터가 입력되었을 때 기존 데이터를 활용하여 분류, 회귀, 이상치 탐색에 사용 가능한 다목적 머신러닝 모델이다. 복잡한 분류 문제에 특히 유용하며 작거나 중간 크기의 데이터에 사용하기 적합하다. SVM은 최대 마진 분류기라고 불리는 단순한 분류기를 일반화한 것이며, 이러한 최대 마진 분류기의 단점을 극복하고 확장성을 넓힌 것이 서포트 벡터 분류기(SVC)이다. 또한 SVC를 더 확장하고 비선형 클래스 경계를 수용하기 위해 SVM이 고안되었다. 장점 분류와 예측에 모두 사용 가능하다. 신경망 기법에 비해 과적합 정도가 낮다. 예측의 정확도가 높다. 저차원과 고차원의 데이터에 모두 잘 작동한다. 단점 전처리와 파라미터에 따라 정확도가 달라진다. 예측이 어떻게 이루어지는지에..