일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- dataframe
- 오버샘플링
- 군집화
- ADP
- LDA
- pandas
- 대응표본
- 데이터불균형
- 텍스트분석
- DBSCAN
- 빅데이터
- 데이터분석준전문가
- 주성분분석
- 파이썬
- Lambda
- 데이터분석
- 데이터분석전문가
- Python
- 워드클라우드
- numpy
- datascience
- PCA
- 언더샘플링
- 독립표본
- iloc
- t-test
- 빅데이터분석기사
- 크롤링
- ADsP
- opencv
목록분류 전체보기 (300)
Data Science LAB

2022.08.20 - [Python] 이원 배치 분산 분석 (Two-way ANOVA) [Python] 이원 배치 분산 분석 (Two-way ANOVA) Two - way ANOVA 분산 분석에서 하나의 종속변수에 대한 두 개의 독립변수 A, B의 영향을 알아보기 위해 사용되는 검증 방법 두 독립변수 사이에 상관관계가 있는 지를 살펴보는 교호작용에 대한 검 suhye.tistory.com 앞서 포스팅 했던 ANOVA 분석은 종속변수가 연속형 변수였지만, 카이제곱 검정은 종속변수가 범주형 변수인 경우에 사용하는 통계 기법이다. 교차 분석은 교차표를 통해 각 셀의 관찰 빈도와 기대 빈도간의 차이를 검정하는 기법이다. 1. 적합성 검정 : 각 범주에 따른 데이터의 빈도 분포가 이론적으로 기대하는 분포를 따르..

Two - way ANOVA 분산 분석에서 하나의 종속변수에 대한 두 개의 독립변수 A, B의 영향을 알아보기 위해 사용되는 검증 방법 두 독립변수 사이에 상관관계가 있는 지를 살펴보는 교호작용에 대한 검증이 반드시 진행되어야 한다. 집단의 측정치는 독립적 정규분포를 따름 등분산성 귀무가설 (H0) - 변수 A에 따른 종속 변수의 값에는 차이가 없다. - 변수 B에 따른 종속 변수의 값에는 차이가 없다. - 변수 A, B의 교호작용은 없다. 대립가설 (H1) - 변수 A에 따른 종속 변수의 값에는 차이가 있다. - 변수 B에 따른 종속 변수의 값에는 차이가 있다. - 변수 A, B의 교호작용은 있다. 예시 mtcars = pd.read_csv('../data/mtcars.csv') mtcars.head(..

XGBoost 여러개의 의사결정나무를 조합하여 사용하는 앙상블 알고리즘으로 GBM에 기반하고 있지만, 느린 수행 시간 및 과적합 규제 부재 등의 문제를 해결하였다. 특히 병렬 CPU환경에서 병렬 학습이 가능해 기존 GBM보다 빠르게 학습 가능하다. 뛰어난 예측 성능 GBM 대비 빠른 수행 시간 과적합 규제 나무 가지치기 : 가지치기로 긍정 이득이 더 이상 없는 분할은 분할 수를 더 줄이는 장점 자체 내장된 교차 검증 결손값 자체 처리 XGBBoost(max_depth, objective, eval_metric, learning_rate, subsample) XGBClassifier xgbc = XGBClassifier(random_state=42) xgbc.fit(X1_train, y1_train) pr..

배깅 방식이 사용되며 배깅은 같은 알고리즘으로 여러 분류기를 만들어 보팅으로 최종 결정하는 알고리즘이다. 앙상블 알고리즘 중에서 비교적 빠른 속도를 가지고 있으며, 다양한 영역에서 좋은 성능을 보이나. 랜덤 포레스트의 기반 알고리즘은 결정 트리로 결정 트리의 쉽고 직관적인 장점을 가진다. 랜덤 포레스트는 여러 개의 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 된다. 또한 개별 트리가 학습하는 데이터는 전체 데이터에서 일부가 중첩되게 만든 데이터이다. 이렇게 여러 개의 데이터를 중첩되게 분리하는 것을 부트스트래핑 분할 방식이라고 한다. - 앙상블 알고리즘 중 비교적 빠른 속도 - 다양한 영역에..

의사결정나무 SVM처럼 분류와 회귀 그리고 다중 출력 작업도 가능한 머신러닝 알고리즘이다. 데이터의 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만든다. 일반적으로 스무고개와 같이 if/else 형태를 띄기 때문에 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 성능을 좌우한다. 결정트리는 루트노드부터 리프노드까지 데이터로부터 생성한 규칙을 기준으로 예측을 결정하게 된다. 루트노드에서 시작하여 규칙노드로부터 브랜치/서브 트리를 생성하여 데이터를 분류하고 최종적으로 리프노드에서 결정값을 예측한다. 많은 규칙이 존재하는 경우, 결정이 복잡해지고 이는 곧 과적합을 일으키기 쉽다. 정보의 균일도를 측정하는 방법은 엔트로피를 활용한 정보 이득 지수와 지니계수가 있다. 정보이..

SVM 서포트 벡터 머신은 새로운 데이터가 입력되었을 때 기존 데이터를 활용하여 분류, 회귀, 이상치 탐색에 사용 가능한 다목적 머신러닝 모델이다. 복잡한 분류 문제에 특히 유용하며 작거나 중간 크기의 데이터에 사용하기 적합하다. SVM은 최대 마진 분류기라고 불리는 단순한 분류기를 일반화한 것이며, 이러한 최대 마진 분류기의 단점을 극복하고 확장성을 넓힌 것이 서포트 벡터 분류기(SVC)이다. 또한 SVC를 더 확장하고 비선형 클래스 경계를 수용하기 위해 SVM이 고안되었다. 장점 분류와 예측에 모두 사용 가능하다. 신경망 기법에 비해 과적합 정도가 낮다. 예측의 정확도가 높다. 저차원과 고차원의 데이터에 모두 잘 작동한다. 단점 전처리와 파라미터에 따라 정확도가 달라진다. 예측이 어떻게 이루어지는지에..