일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 언더샘플링
- Python
- iloc
- 빅데이터
- DBSCAN
- pandas
- 군집화
- 독립표본
- PCA
- opencv
- LDA
- datascience
- 데이터분석전문가
- 데이터분석준전문가
- ADP
- dataframe
- 데이터분석
- 빅데이터분석기사
- Lambda
- 워드클라우드
- 데이터불균형
- 대응표본
- t-test
- 크롤링
- 텍스트분석
- 주성분분석
- 파이썬
- 오버샘플링
- ADsP
- numpy
목록분류 전체보기 (300)
Data Science LAB

from matplotlib import font_manager, rc font_path = 'C:/Windows/Fonts/NGULIM.TTF' font = font_manager.FontProperties(fname = font_path).get_name() rc('font', family = font) font_path는 사용환경에 따라 다를 수 있음, 마지막 글자는 원하는 글자로 선택 이런식으로 font경로로 들어가서 원하는 폰트의 경로를 복사해 온뒤 font_path에 붙여넣기 해주면 된다.

1. 문제 MBTI처럼 4가지의 성격 유형이 있으며 가능한 성격 유형의 총 개수는 16개 검사자가 질문에서 약간 동의 선택지를 선택하면 어피치형 (A) 성격 유형 1점 획득 매우 비동의 선택지를 선택하면 네오형(N) 성격 유형 3점 획득 검사 결과 모든 질문의 성격 유형 점수를 더해 각 지표에서 더 높은 점수를 받은 성격 유형이 검사자의 성격 유형이라고 판단한다. 단, 단하나의 지표에서 각 성격 유형 점수가 같으면, 두 성격 유형 중 사전 순으로 빠른 성격유형을 검사자의 성격유형이라고 판단한다. 질문마다 판단하는 지표를 담은 1차원 문자열 배열 survey와 검사자가 각 질문마다 선택한 선택지를 담은 1차원 정수 배열 choices가 매개변수로 주어집니다. 이때, 검사자의 성격 유형 검사 결과를 지표 번..
1. np.random.rand(m,n) 0~1의 균일분포 표준 정규분포 난수를 matrix array(m,n) 형태로 생성 import numpy as np np.random.rand(6) # array([0.43370799, 0.86829053, 0.43087038, 0.20789529, 0.41183189, 0.40093899]) np.random.rand(2,3) # array([[0.69712992, 0.32758099, 0.20567256], # [0.62130179, 0.64666152, 0.71468473]]) 숫자를 하나만 입력하면 1차원 배열 형태로 생성됨 2. np.random.randn(m,n) 평균이 0, 표준편차 1인 가우시안 표준 정규분포 난수를 matrix(m,n)형태로 생성..

데이터가 단순한 직선 형태가 아닌 비선형의 형태를 갖고 있을 때, 각 변수의 거듭 제곱을 새로운 변수로 추가하면 선형 모델을 사용할 수 있다. 이렇게 확장된 특성을 데이터 세트에 선형 모델로 훈련 시키는 기법을 다항회귀라고한다. 1. 다항 변수 생성 PolynomialFeatures(degree=d)를 활용해 변수 특성을 거듭제곱으로 변환 class sklearn.preprocessing.PolynomialFeatures(degree=2, interaction_only=False, include_bias = True, order='C') - 매개변수 degree : 다항식의 차수 결정 (default=2) interaction_only : 교차항을 추가할지 여부 결정 (False인 경우 교차항과 동일한 ..

1. 모듈 불러오기 import matplotlib.pyplot as plt 2. 그래프 개수(행*열) 설정 plt.subplots(row, column, index) fig,axs = plt.subplots(2,2) # 2*2개의 그래프 생성 3. 각 그래프별 원하는 그래프 설정 axs[0][0].bar(data['school'].value_counts().index, data['school'].value_counts().values) axs[0][0].set_title('School') axs[0][1].bar(data['sex'].value_counts().index, data['sex'].value_counts().values) axs[0][1].set_title('Sex') axs[1][0].b..

하나 혹은 그 이상의 원인이 종속변수에 미치는 영향을 추적하여 식으로 표현하는 통계기법으로 머신러닝과 다르게 식으로 표현하기 때문에 해석력을 높일 수 있다. 선형 회귀분석의 평가 SST : 총변동 SSE : 설명된 변동 SSR : 설명되지 않은 변동을 의미 위의 수식이 의미하는 바는 총 변동 중 설명된 변동의 비율이다. 즉, 회귀 추정선이 전체 데이터를 얼마나 설명하고 있는지를 의미하며 이 값이 높다면 회귀 추정 직선으로 새로운 값을 예측하거나 추정하더라도 믿을 수 있는 정도를 의미한다. RMSE 값은 평균 제곱근 오차로 예측값에서 실제 관측값을 뺀 값의 제곱의 합을 표본의 수로 나눈 것이다. SSE값을 자유도 (n-2)로 나누고 루트를 취한 값과 같다. RMSE 값이 낮을 수록 예측력이 좋다고 할 수 ..