'🛠 Machine Learning' 카테고리의 글 목록 (2 Page)

250x250

Link

GitHub

나의 GitHub Contribution 그래프

Loading data ...

Notice

Recent Posts

Recent Comments

« 2025/03 »
일	월	화	수	목	금	토
						1
2	3	4	5	6	7	8
9	10	11	12	13	14	15
16	17	18	19	20	21	22
23	24	25	26	27	28	29
30	31

Tags more

Archives

관리 메뉴

목록🛠 Machine Learning (36)

Data Science LAB

[Python] 교차 분석 (카이제곱 검정)

2022.08.20 - [Python] 이원 배치 분산 분석 (Two-way ANOVA) [Python] 이원 배치 분산 분석 (Two-way ANOVA) Two - way ANOVA 분산 분석에서 하나의 종속변수에 대한 두 개의 독립변수 A, B의 영향을 알아보기 위해 사용되는 검증 방법 두 독립변수 사이에 상관관계가 있는 지를 살펴보는 교호작용에 대한 검 suhye.tistory.com 앞서 포스팅 했던 ANOVA 분석은 종속변수가 연속형 변수였지만, 카이제곱 검정은 종속변수가 범주형 변수인 경우에 사용하는 통계 기법이다. 교차 분석은 교차표를 통해 각 셀의 관찰 빈도와 기대 빈도간의 차이를 검정하는 기법이다. 1. 적합성 검정 : 각 범주에 따른 데이터의 빈도 분포가 이론적으로 기대하는 분포를 따르..

🛠 Machine Learning/기초 통계 2022. 8. 21. 03:36

[Python] 이원 배치 분산 분석 (Two-way ANOVA)

Two - way ANOVA 분산 분석에서 하나의 종속변수에 대한 두 개의 독립변수 A, B의 영향을 알아보기 위해 사용되는 검증 방법 두 독립변수 사이에 상관관계가 있는 지를 살펴보는 교호작용에 대한 검증이 반드시 진행되어야 한다. 집단의 측정치는 독립적 정규분포를 따름 등분산성 귀무가설 (H0) - 변수 A에 따른 종속 변수의 값에는 차이가 없다. - 변수 B에 따른 종속 변수의 값에는 차이가 없다. - 변수 A, B의 교호작용은 없다. 대립가설 (H1) - 변수 A에 따른 종속 변수의 값에는 차이가 있다. - 변수 B에 따른 종속 변수의 값에는 차이가 있다. - 변수 A, B의 교호작용은 있다. 예시 mtcars = pd.read_csv('../data/mtcars.csv') mtcars.head(..

🛠 Machine Learning/기초 통계 2022. 8. 20. 02:32

[머신러닝/ML] 결측치 처리 방법

결측치 처리 방법은 크게 두가지로 나뉜다. 1. 삭제(Delete) 2. 대체, 보간(Imputation) 1. 삭제(Deletion) 먼저 데이터를 삭제하는 방법은 단순하게 결측치가 존재하는 행이나 열을 삭제하는 방법이다. 결측치가 존재하는 전체 행을 삭제한다. 데이터셋에서 해당 열의 80% 이상이 결측치로 구성되어 있으면 주로 삭제한다. 2. 보간(Imputation) 1. 단순대치(중앙값, 평균) : 결측치를 해당 열의 평균이나 중앙값으로 대체하는 방법이다. 2. 단순대치(최빈값) : 결측치를 해당 열의 최빈값으로 대체하는 방법으로 범주형 변수에서 사용 가능하다. 3. KNN 알고리즘(KNNImputer) : 결측치의 값을 가장 가까운 값(feature similarity)를 적용하여 대체한다. 이..

🛠 Machine Learning/데이터 전처리 2022. 6. 4. 15:27

[Python] 데이터 EDA를 한번에 하는 방법(pandas profiling)

pandas - profiling을 이용하면 EDA를 직접하지 않아도 됨 1. pandas profiling 설치 >> pip install -U pandas-profiling 2. 라이브러리 불러오기 import pandas_profiling 3. 실행 import pandas as pd from sklearn.datasets import load_iris import pandas_profiling from pandas_profiling import ProfileReport iris = load_iris() iris = pd.DataFrame(iris.data,columns=iris.feature_names) iris['class'] = load_iris().target iris['class'] = i..

🛠 Machine Learning/데이터 전처리 2022. 4. 6. 19:56

[Python] 일원 분산 분석(ANOVA)

분산분석 두 개 이상의 집단에서 그룹 평균 간 차이를 그룹 내 변동에 비교하여 살펴보는 통계 분석 기법 두 개 이상의 집단의 평균 차이에 대한 통계적 유의성 검정 일원 배치 분산 분석 분산분석에서 반응값에 대한 하나의 범주형 변수의 영향을 알아보기 위해 사용됨 모집단의 수에는 제한이 없으며, 표본의 수는 같지 않아도 됨 F 검정 통계량 사용 각 집단의 측정치는 독립적이며, 정규분포를 따라야 함 각 집단 측정치의 분산은 같다고 가정(등분산성) 요인 제곱합(SS) 자유도(df) 평균제곱(MS) 분산비(F) 처리 SSA k-1 MSA F = MSA/MSE 오차 SSE N-k MSE 전체 SST N-1 귀무가설(H0) : k개의 집단 간 모평균에는 차이가 없다. 대립가설(H1) : k개의 집단 간 모평균이 모두..

🛠 Machine Learning/기초 통계 2022. 3. 16. 13:07

[Python] 독립 / 대응 표본 t 검정

대응 표본 vs 독립 표본 대응 표본 : 부부 100쌍을 뽑아 남편 100명과 아내 100명으로 집단 비교 독립 표본 : 무작위로 남자 100명, 여자 100명을 뽑아 비교 두 집단이 독립적이어야 독립 표본이라고 할 수 있다. 등분산 검정 반드시 등분산 검정 후에 독립표본 t검정을 수행해야한다. 귀무가설 (H0) : 두 집단의 데이터는 등분산성을 만족함 대립가설 (H1) : 두 집단의 데이터는 등분산성을 만족하지 않음 p-value값이 0.05보다 작으면 귀무가설 기각 => 두 집단은 등분산성을 만족하지 않음 import numpy as np from scipy.stats import levene a = np.random.normal(10,1,100) b = np.random.normal(10,1,100..

🛠 Machine Learning/기초 통계 2022. 3. 15. 14:32

Prev 1 2 3 4 5 6 Next

목록🛠 Machine Learning (36)

Data Science LAB

티스토리툴바