일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- Lambda
- 군집화
- 빅데이터
- datascience
- Python
- 언더샘플링
- 데이터분석준전문가
- 텍스트분석
- 오버샘플링
- 파이썬
- 대응표본
- t-test
- opencv
- iloc
- ADsP
- pandas
- 데이터분석
- 크롤링
- 데이터불균형
- 워드클라우드
- ADP
- 빅데이터분석기사
- PCA
- dataframe
- DBSCAN
- 데이터분석전문가
- LDA
- 독립표본
- numpy
- 주성분분석
목록전체 글 (300)
Data Science LAB

2. 통계분석(사용데이터: FIFA) FIFA 데이터는 가상의 온라인 축구게임에 등장하는 축구 선수의 주요 특징과 신체 정보에 대한 데이터이며, 변수 설명은 아래와 같다. 변수 데이터형태 ID 수치형 Age 수치형 Nationality 범주형 Overall 수치형 Club 범주형 Preferred Foot 범주형 Work Rate 범주형 Position 범주형 Jersey Number 수치형 Contract Valid Until 수치형 Height 문자형 Weight_lb 수치형 Release_Clause 수치형 Value 수치형 Wage 수치형 1. FIFA 데이터에서 각 선수의 키는 Height변수에 피트와 인치로 입력되어 있습니다. 이를 cm로 변환하여 새로운 변수 Height_cm을 생성하시오.(..

주피터 노트북에서 networkx 패키지를 이용해 연관 분석 결과를 시각화 하는 과정에서 다음과 같은 에러가 발생하였다. NetworkXError: random_state_index is incorrect 해결 방법 !pip install decorator==4.3 위의 코드를 실행한 뒤, 커널을 재시작해주면 문제가 해결된다!
분산분석 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 통계 분석 기법 두 개 이상의 집단의 평균 차이에 대한 통계적 유의성 검정 일원 배치 분산 분석 분산분석에서 반응값에 대한 하나의 범주형 변수의 영향을 알아보기 위해 사용됨 모집단의 수에는 제한이 없으며, 표본의 수는 같지 않아도 됨 F 검정 통계량 사용 각 집단의 측정치는 독립적이며, 정규분포를 따라야 함 각 집단 측정치의 분산은 같다고 가정(등분산성) 요인 제곱합(SS) 자유도(df) 평균제곱(MS) 분산비(F) 처리 SSA k-1 MSA F = MSA/MSE 오차 SSE N-k MSE 전체 SST N-1 귀무가설(H0) : k개의 집단 간 모평균에는 차이가 없다. 대립가설(H1) : k개의 집단 간 모평균이 모두..
대응 표본 vs 독립 표본 대응 표본 : 부부 100쌍을 뽑아 남편 100명과 아내 100명으로 집단 비교 독립 표본 : 무작위로 남자 100명, 여자 100명을 뽑아 비교 두 집단이 독립적이어야 독립 표본이라고 할 수 있다. 등분산 검정 반드시 등분산 검정 후에 독립표본 t검정을 수행해야한다. 귀무가설 (H0) : 두 집단의 데이터는 등분산성을 만족함 대립가설 (H1) : 두 집단의 데이터는 등분산성을 만족하지 않음 p-value값이 0.05보다 작으면 귀무가설 기각 => 두 집단은 등분산성을 만족하지 않음 import numpy as np from scipy.stats import levene a = np.random.normal(10,1,100) b = np.random.normal(10,1,100..

레이블의 분포가 불균형한 데이터셋을 학습시킬 때 예측 성능에 문제가 발생할 수 있는데, 이는 이상치 레이블이 정상 레이블의 데이터 건수에 비해 너무 적기 때문에 발생하는 현상이다. 즉, 이상 레이블의 데이터는 매우 적기 때문에 다양한 유형을 학습하지 못하는 반면 정상 레이블의 데이터 건수는 매우 많아 일방적으로 정상 레이블에 치우친 학습을 수행해 제대로된 이상 데이터 검출이 어려워진다. 이러한 문제점을 해결하기 위한 방법으로 오버샘플링/언더샘플링의 방법이 있다. OverSampling 이상치 레이블과 같이 적은 데이터 셋을 증식하여 학습에 필요한 데이터를 확보하는 방법이다. 동일한 데이터를 단순히 증식시키면 과적합이 되기 때문에, 원본 데이터의 피처 값들을 조금씩 변경하여 증식한다. 대표적인 오버샘플링 ..

안녕하세요! 오늘은 Python을 이용하여 기초 통계량을 구하는 방법에 대해서 포스팅해보려고 합니다! 중심 통계량 : 데이터의 중심 경향을 나타내는 수치 import numpy as np from scipy import stats x = [1,3,5,7,9] - 평균 np.mean(x) - 중앙값 np.median(x) - 최빈값 stats.mode(x) 변동 통계량 데이터의 변동성을 나타냄 - 범위 np.max(x) - np.min(x) - 편차 및 변동 deviation = x - np.mean(x) variation = sum(deviation**2) variation - 분산 np.var(x) - 표준편차 np.std(x) - 사분위수 #제 1 사분위수 np.quantile(x,0.25) 형태 통..