์ผ | ์ | ํ | ์ | ๋ชฉ | ๊ธ | ํ |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- ํ์ด์ฌ
- ๋ ๋ฆฝํ๋ณธ
- ADsP
- iloc
- pandas
- ๋ฐ์ดํฐ๋ถ๊ท ํ
- ๊ตฐ์งํ
- PCA
- ๋์ํ๋ณธ
- ๋ฐ์ดํฐ๋ถ์
- datascience
- LDA
- Python
- ์ฃผ์ฑ๋ถ๋ถ์
- ๋ฐ์ดํฐ๋ถ์์ค์ ๋ฌธ๊ฐ
- Lambda
- ์๋ํด๋ผ์ฐ๋
- ๋น ๋ฐ์ดํฐ
- ๋น ๋ฐ์ดํฐ๋ถ์๊ธฐ์ฌ
- opencv
- numpy
- dataframe
- t-test
- ์ค๋ฒ์ํ๋ง
- DBSCAN
- ํฌ๋กค๋ง
- ์ธ๋์ํ๋ง
- ADP
- ํ ์คํธ๋ถ์
- ๋ฐ์ดํฐ๋ถ์์ ๋ฌธ๊ฐ
๋ชฉ๋ก๐ Machine Learning (36)
Data Science LAB

2022.08.20 - [Python] ์ด์ ๋ฐฐ์น ๋ถ์ฐ ๋ถ์ (Two-way ANOVA) [Python] ์ด์ ๋ฐฐ์น ๋ถ์ฐ ๋ถ์ (Two-way ANOVA) Two - way ANOVA ๋ถ์ฐ ๋ถ์์์ ํ๋์ ์ข ์๋ณ์์ ๋ํ ๋ ๊ฐ์ ๋ ๋ฆฝ๋ณ์ A, B์ ์ํฅ์ ์์๋ณด๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๊ฒ์ฆ ๋ฐฉ๋ฒ ๋ ๋ ๋ฆฝ๋ณ์ ์ฌ์ด์ ์๊ด๊ด๊ณ๊ฐ ์๋ ์ง๋ฅผ ์ดํด๋ณด๋ ๊ตํธ์์ฉ์ ๋ํ ๊ฒ suhye.tistory.com ์์ ํฌ์คํ ํ๋ ANOVA ๋ถ์์ ์ข ์๋ณ์๊ฐ ์ฐ์ํ ๋ณ์์์ง๋ง, ์นด์ด์ ๊ณฑ ๊ฒ์ ์ ์ข ์๋ณ์๊ฐ ๋ฒ์ฃผํ ๋ณ์์ธ ๊ฒฝ์ฐ์ ์ฌ์ฉํ๋ ํต๊ณ ๊ธฐ๋ฒ์ด๋ค. ๊ต์ฐจ ๋ถ์์ ๊ต์ฐจํ๋ฅผ ํตํด ๊ฐ ์ ์ ๊ด์ฐฐ ๋น๋์ ๊ธฐ๋ ๋น๋๊ฐ์ ์ฐจ์ด๋ฅผ ๊ฒ์ ํ๋ ๊ธฐ๋ฒ์ด๋ค. 1. ์ ํฉ์ฑ ๊ฒ์ : ๊ฐ ๋ฒ์ฃผ์ ๋ฐ๋ฅธ ๋ฐ์ดํฐ์ ๋น๋ ๋ถํฌ๊ฐ ์ด๋ก ์ ์ผ๋ก ๊ธฐ๋ํ๋ ๋ถํฌ๋ฅผ ๋ฐ๋ฅด..

Two - way ANOVA ๋ถ์ฐ ๋ถ์์์ ํ๋์ ์ข ์๋ณ์์ ๋ํ ๋ ๊ฐ์ ๋ ๋ฆฝ๋ณ์ A, B์ ์ํฅ์ ์์๋ณด๊ธฐ ์ํด ์ฌ์ฉ๋๋ ๊ฒ์ฆ ๋ฐฉ๋ฒ ๋ ๋ ๋ฆฝ๋ณ์ ์ฌ์ด์ ์๊ด๊ด๊ณ๊ฐ ์๋ ์ง๋ฅผ ์ดํด๋ณด๋ ๊ตํธ์์ฉ์ ๋ํ ๊ฒ์ฆ์ด ๋ฐ๋์ ์งํ๋์ด์ผ ํ๋ค. ์ง๋จ์ ์ธก์ ์น๋ ๋ ๋ฆฝ์ ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ฆ ๋ฑ๋ถ์ฐ์ฑ ๊ท๋ฌด๊ฐ์ค (H0) - ๋ณ์ A์ ๋ฐ๋ฅธ ์ข ์ ๋ณ์์ ๊ฐ์๋ ์ฐจ์ด๊ฐ ์๋ค. - ๋ณ์ B์ ๋ฐ๋ฅธ ์ข ์ ๋ณ์์ ๊ฐ์๋ ์ฐจ์ด๊ฐ ์๋ค. - ๋ณ์ A, B์ ๊ตํธ์์ฉ์ ์๋ค. ๋๋ฆฝ๊ฐ์ค (H1) - ๋ณ์ A์ ๋ฐ๋ฅธ ์ข ์ ๋ณ์์ ๊ฐ์๋ ์ฐจ์ด๊ฐ ์๋ค. - ๋ณ์ B์ ๋ฐ๋ฅธ ์ข ์ ๋ณ์์ ๊ฐ์๋ ์ฐจ์ด๊ฐ ์๋ค. - ๋ณ์ A, B์ ๊ตํธ์์ฉ์ ์๋ค. ์์ mtcars = pd.read_csv('../data/mtcars.csv') mtcars.head(..
๊ฒฐ์ธก์น ์ฒ๋ฆฌ ๋ฐฉ๋ฒ์ ํฌ๊ฒ ๋๊ฐ์ง๋ก ๋๋๋ค. 1. ์ญ์ (Delete) 2. ๋์ฒด, ๋ณด๊ฐ(Imputation) 1. ์ญ์ (Deletion) ๋จผ์ ๋ฐ์ดํฐ๋ฅผ ์ญ์ ํ๋ ๋ฐฉ๋ฒ์ ๋จ์ํ๊ฒ ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ ํ์ด๋ ์ด์ ์ญ์ ํ๋ ๋ฐฉ๋ฒ์ด๋ค. ๊ฒฐ์ธก์น๊ฐ ์กด์ฌํ๋ ์ ์ฒด ํ์ ์ญ์ ํ๋ค. ๋ฐ์ดํฐ์ ์์ ํด๋น ์ด์ 80% ์ด์์ด ๊ฒฐ์ธก์น๋ก ๊ตฌ์ฑ๋์ด ์์ผ๋ฉด ์ฃผ๋ก ์ญ์ ํ๋ค. 2. ๋ณด๊ฐ(Imputation) 1. ๋จ์๋์น(์ค์๊ฐ, ํ๊ท ) : ๊ฒฐ์ธก์น๋ฅผ ํด๋น ์ด์ ํ๊ท ์ด๋ ์ค์๊ฐ์ผ๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ด๋ค. 2. ๋จ์๋์น(์ต๋น๊ฐ) : ๊ฒฐ์ธก์น๋ฅผ ํด๋น ์ด์ ์ต๋น๊ฐ์ผ๋ก ๋์ฒดํ๋ ๋ฐฉ๋ฒ์ผ๋ก ๋ฒ์ฃผํ ๋ณ์์์ ์ฌ์ฉ ๊ฐ๋ฅํ๋ค. 3. KNN ์๊ณ ๋ฆฌ์ฆ(KNNImputer) : ๊ฒฐ์ธก์น์ ๊ฐ์ ๊ฐ์ฅ ๊ฐ๊น์ด ๊ฐ(feature similarity)๋ฅผ ์ ์ฉํ์ฌ ๋์ฒดํ๋ค. ์ด..
pandas - profiling์ ์ด์ฉํ๋ฉด EDA๋ฅผ ์ง์ ํ์ง ์์๋ ๋จ 1. pandas profiling ์ค์น >> pip install -U pandas-profiling 2. ๋ผ์ด๋ธ๋ฌ๋ฆฌ ๋ถ๋ฌ์ค๊ธฐ import pandas_profiling 3. ์คํ import pandas as pd from sklearn.datasets import load_iris import pandas_profiling from pandas_profiling import ProfileReport iris = load_iris() iris = pd.DataFrame(iris.data,columns=iris.feature_names) iris['class'] = load_iris().target iris['class'] = i..
๋ถ์ฐ๋ถ์ ๋ ๊ฐ ์ด์์ ์ง๋จ์์ ๊ทธ๋ฃน ํ๊ท ๊ฐ ์ฐจ์ด๋ฅผ ๊ทธ๋ฃน ๋ด ๋ณ๋์ ๋น๊ตํ์ฌ ์ดํด๋ณด๋ ํต๊ณ ๋ถ์ ๊ธฐ๋ฒ ๋ ๊ฐ ์ด์์ ์ง๋จ์ ํ๊ท ์ฐจ์ด์ ๋ํ ํต๊ณ์ ์ ์์ฑ ๊ฒ์ ์ผ์ ๋ฐฐ์น ๋ถ์ฐ ๋ถ์ ๋ถ์ฐ๋ถ์์์ ๋ฐ์๊ฐ์ ๋ํ ํ๋์ ๋ฒ์ฃผํ ๋ณ์์ ์ํฅ์ ์์๋ณด๊ธฐ ์ํด ์ฌ์ฉ๋จ ๋ชจ์ง๋จ์ ์์๋ ์ ํ์ด ์์ผ๋ฉฐ, ํ๋ณธ์ ์๋ ๊ฐ์ง ์์๋ ๋จ F ๊ฒ์ ํต๊ณ๋ ์ฌ์ฉ ๊ฐ ์ง๋จ์ ์ธก์ ์น๋ ๋ ๋ฆฝ์ ์ด๋ฉฐ, ์ ๊ท๋ถํฌ๋ฅผ ๋ฐ๋ผ์ผ ํจ ๊ฐ ์ง๋จ ์ธก์ ์น์ ๋ถ์ฐ์ ๊ฐ๋ค๊ณ ๊ฐ์ (๋ฑ๋ถ์ฐ์ฑ) ์์ธ ์ ๊ณฑํฉ(SS) ์์ ๋(df) ํ๊ท ์ ๊ณฑ(MS) ๋ถ์ฐ๋น(F) ์ฒ๋ฆฌ SSA k-1 MSA F = MSA/MSE ์ค์ฐจ SSE N-k MSE ์ ์ฒด SST N-1 ๊ท๋ฌด๊ฐ์ค(H0) : k๊ฐ์ ์ง๋จ ๊ฐ ๋ชจํ๊ท ์๋ ์ฐจ์ด๊ฐ ์๋ค. ๋๋ฆฝ๊ฐ์ค(H1) : k๊ฐ์ ์ง๋จ ๊ฐ ๋ชจํ๊ท ์ด ๋ชจ๋..
๋์ ํ๋ณธ vs ๋ ๋ฆฝ ํ๋ณธ ๋์ ํ๋ณธ : ๋ถ๋ถ 100์์ ๋ฝ์ ๋จํธ 100๋ช ๊ณผ ์๋ด 100๋ช ์ผ๋ก ์ง๋จ ๋น๊ต ๋ ๋ฆฝ ํ๋ณธ : ๋ฌด์์๋ก ๋จ์ 100๋ช , ์ฌ์ 100๋ช ์ ๋ฝ์ ๋น๊ต ๋ ์ง๋จ์ด ๋ ๋ฆฝ์ ์ด์ด์ผ ๋ ๋ฆฝ ํ๋ณธ์ด๋ผ๊ณ ํ ์ ์๋ค. ๋ฑ๋ถ์ฐ ๊ฒ์ ๋ฐ๋์ ๋ฑ๋ถ์ฐ ๊ฒ์ ํ์ ๋ ๋ฆฝํ๋ณธ t๊ฒ์ ์ ์ํํด์ผํ๋ค. ๊ท๋ฌด๊ฐ์ค (H0) : ๋ ์ง๋จ์ ๋ฐ์ดํฐ๋ ๋ฑ๋ถ์ฐ์ฑ์ ๋ง์กฑํจ ๋๋ฆฝ๊ฐ์ค (H1) : ๋ ์ง๋จ์ ๋ฐ์ดํฐ๋ ๋ฑ๋ถ์ฐ์ฑ์ ๋ง์กฑํ์ง ์์ p-value๊ฐ์ด 0.05๋ณด๋ค ์์ผ๋ฉด ๊ท๋ฌด๊ฐ์ค ๊ธฐ๊ฐ => ๋ ์ง๋จ์ ๋ฑ๋ถ์ฐ์ฑ์ ๋ง์กฑํ์ง ์์ import numpy as np from scipy.stats import levene a = np.random.normal(10,1,100) b = np.random.normal(10,1,100..