일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- pandas
- opencv
- 데이터분석
- 대응표본
- 빅데이터
- Lambda
- t-test
- dataframe
- datascience
- numpy
- ADP
- 군집화
- LDA
- 데이터불균형
- 데이터분석전문가
- PCA
- iloc
- 데이터분석준전문가
- ADsP
- 파이썬
- 빅데이터분석기사
- 크롤링
- 주성분분석
- 독립표본
- 언더샘플링
- Python
- 텍스트분석
- 오버샘플링
- DBSCAN
- 워드클라우드
목록adp 실기 (22)
Data Science LAB

사용 데이터 : FIFA.csv FIFA 데이터는 가상의 온라인 축구게임에 등장하는 축구 선수의 주요 특징과 신체 정보에 대한 데이터이며, 변수 설명은 아래와 같다. 변수 데이터형태 ID 수치형 Age 수치형 Nationality 범주형 Overall 수치형 Club 범주형 Preferred Foot 범주형 Work Rate 범주형 Position 범주형 Jersey Number 수치형 Contract Valid Until 수치형 Height 문자형 Weight_lb 수치형 Release_Clause 수치형 Value 수치형 Wage 수치형 1. FIFA 데이터에서 각 선수의 키는 Height변수에 피트와 인치로 입력되어 있습니다. 이를 cm로 변환하여 새로운 변수 Height_cm을 생성하시오.(" '..

사용 데이터 : lotto.csv lotto 데이터는 1회부터 859회까지의 로또 당첨번호(보너스 번호를 제외한 6개의 추첨번호)를 담고 있는 데이터이며, 변수 설명은 다음과 같다. 변수 데이터 형태 설명 time_id 수치형 로또 회차 numN 수치형 해당 회의 N번 째 당첨번호 6개 - 데이터 불러오기 import pandas as pd import numpy as np import warnings warnings.filterwarnings(action='ignore') df = pd.read_csv('../data/lotto.csv') df.head() 1. 연관규칙분석을 수행하기 위해 lotto 데이터셋을 transaction 데이터로 변환하시오. (단, 본 분석에서 로또번호가 추첨된 순서는 고려..

XGBoost 여러개의 의사결정나무를 조합하여 사용하는 앙상블 알고리즘으로 GBM에 기반하고 있지만, 느린 수행 시간 및 과적합 규제 부재 등의 문제를 해결하였다. 특히 병렬 CPU환경에서 병렬 학습이 가능해 기존 GBM보다 빠르게 학습 가능하다. 뛰어난 예측 성능 GBM 대비 빠른 수행 시간 과적합 규제 나무 가지치기 : 가지치기로 긍정 이득이 더 이상 없는 분할은 분할 수를 더 줄이는 장점 자체 내장된 교차 검증 결손값 자체 처리 XGBBoost(max_depth, objective, eval_metric, learning_rate, subsample) XGBClassifier xgbc = XGBClassifier(random_state=42) xgbc.fit(X1_train, y1_train) pr..

배깅 방식이 사용되며 배깅은 같은 알고리즘으로 여러 분류기를 만들어 보팅으로 최종 결정하는 알고리즘이다. 앙상블 알고리즘 중에서 비교적 빠른 속도를 가지고 있으며, 다양한 영역에서 좋은 성능을 보이나. 랜덤 포레스트의 기반 알고리즘은 결정 트리로 결정 트리의 쉽고 직관적인 장점을 가진다. 랜덤 포레스트는 여러 개의 결정 트리 분류기가 전체 데이터에서 배깅 방식으로 각자의 데이터를 샘플링해 개별적으로 학습을 수행한 뒤 최종적으로 모든 분류기가 보팅을 통해 예측 결정을 하게 된다. 또한 개별 트리가 학습하는 데이터는 전체 데이터에서 일부가 중첩되게 만든 데이터이다. 이렇게 여러 개의 데이터를 중첩되게 분리하는 것을 부트스트래핑 분할 방식이라고 한다. - 앙상블 알고리즘 중 비교적 빠른 속도 - 다양한 영역에..

의사결정나무 SVM처럼 분류와 회귀 그리고 다중 출력 작업도 가능한 머신러닝 알고리즘이다. 데이터의 규칙을 학습을 통해 자동으로 찾아내 트리 기반의 분류 규칙을 만든다. 일반적으로 스무고개와 같이 if/else 형태를 띄기 때문에 어떤 기준을 바탕으로 규칙을 만들어야 가장 효율적인 분류가 될 것인가가 성능을 좌우한다. 결정트리는 루트노드부터 리프노드까지 데이터로부터 생성한 규칙을 기준으로 예측을 결정하게 된다. 루트노드에서 시작하여 규칙노드로부터 브랜치/서브 트리를 생성하여 데이터를 분류하고 최종적으로 리프노드에서 결정값을 예측한다. 많은 규칙이 존재하는 경우, 결정이 복잡해지고 이는 곧 과적합을 일으키기 쉽다. 정보의 균일도를 측정하는 방법은 엔트로피를 활용한 정보 이득 지수와 지니계수가 있다. 정보이..

SVM 서포트 벡터 머신은 새로운 데이터가 입력되었을 때 기존 데이터를 활용하여 분류, 회귀, 이상치 탐색에 사용 가능한 다목적 머신러닝 모델이다. 복잡한 분류 문제에 특히 유용하며 작거나 중간 크기의 데이터에 사용하기 적합하다. SVM은 최대 마진 분류기라고 불리는 단순한 분류기를 일반화한 것이며, 이러한 최대 마진 분류기의 단점을 극복하고 확장성을 넓힌 것이 서포트 벡터 분류기(SVC)이다. 또한 SVC를 더 확장하고 비선형 클래스 경계를 수용하기 위해 SVM이 고안되었다. 장점 분류와 예측에 모두 사용 가능하다. 신경망 기법에 비해 과적합 정도가 낮다. 예측의 정확도가 높다. 저차원과 고차원의 데이터에 모두 잘 작동한다. 단점 전처리와 파라미터에 따라 정확도가 달라진다. 예측이 어떻게 이루어지는지에..