일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 | 29 |
30 | 31 |
- 텍스트분석
- 빅데이터
- DBSCAN
- PCA
- 군집화
- 주성분분석
- 데이터분석준전문가
- t-test
- 데이터분석
- pandas
- numpy
- opencv
- LDA
- Python
- ADP
- 오버샘플링
- ADsP
- 크롤링
- 언더샘플링
- dataframe
- Lambda
- 독립표본
- 대응표본
- 데이터분석전문가
- 파이썬
- iloc
- 워드클라우드
- 데이터불균형
- datascience
- 빅데이터분석기사
목록adp 실기 (22)
Data Science LAB

사용 데이터 : BlackFriday.csv 변수 데이터 형태 설명 User_ID 문자형 구매자 ID Product_ID 범주형 제품 ID Gender 범주형 성별 Age 범주형 나이(구간화) Occupation 범주형 구매자 직업 City_Category 범주형 거주 지역 Stay_In_Current_City_Years 범주형 현재 도시에 체류하는 년수 Marital_Status 범주형 결혼 여부 Product_Category_1 범주형 상품 구매 카테고리 Product_Category_2 범주형 1번 제품 카테고리에 속하는 제품의 카테고리 Product_Category_3 범주형 2번 제품 카테고리에 속하는 제품의 카테고리 Purchase 수치형 구매금액(달러) 1. BlackFriday 데이터에서 ..

사용 데이터 : Carseat.csv Carseats 데이터는 자동차 좌석에 대한 판매정보이며, 변수의 설명은 아래와 같다. 변수 데이터 형태 설명 Sales 수치형 각 지역의 천 달러 단위 매출 ComPrice 수치형 각 위치에서 경쟁업체가 부과하는 가격 Income 수치형 지역 소득 수준 Advertising 수치형 각 지역의 광고 예산 Population 수치형 지역의 인구(단위 : 1000) Price 수치형 자동차 좌석의 가격 ShelveLoc 범주형 보관 장소의 품질 Age 수치형 인구의 연령대 Education 수치형 지역의 교육 수준 Urban 범주형 도시인지 혹은 아닌지의 여부 US 범주형 미국인지 혹은 아닌 지의 여부 1. Urban 변수에 따른 Sales의 차이가 있는지를 통계적으로 ..

사용 데이터 : 연설문.txt 1. 연설문.txt 데이터를 읽어온 뒤, 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. import pandas as pd f = open('../data/연설문.txt') data = f.read() data import re data = re.sub(r"[a-zA-Z0-9]","",data) data 특수문자 제거 2. 전처리된 데이터에서 명사를 추출하고 명사의 출현 빈도를 10위까지 추출하여 막대그래프로 시각화하시오. from konlpy.tag import Okt from collections import Counter okt = Okt() nouns = okt.nouns(data) nouns = [x for x in nouns if len(x) >= 2..

사용 데이터 : titanic.csv 변수 데이터 형태 설명 pclass 수치형 1,2,3 등석 정보를 각각 1,2,3으로 저장 survived 범주형 생존 여부 (0 : 사망, 1 : 생존) name 문자형 이름 sex 수치형 성별 age 수치형 나이 sibsp 수치형 함께 탑승한 형제 또는 배우자의 수 parch 수치형 함꼐 탑승한 형제 또는 자녀의 수 ticket 문자형 티켓번호 fare 수치형 티켓요금 cabin 문자형 선실번호 embarked 범주형 탑승한곳(C:cherbourg, Q:Queenstown, S:Southampthon) 1. cabin, embarked 변수의 값 중 ""로 처리된 값을 NA로 바꾸고 아래의 데이터 테이블을 보고 문자형, 범주형 변수들을 각각 charactor, f..

사용 데이터 : Admission.csv 변수 데이터 형태 설명 GRE 수치형 GRE 점수 TOEFL 수치형 TOEFL 점수 Univ_Rating 수치형 대학교 등급(1~5등급) SOP 수치형 자기소개서 점수 LOR 수치형 추천서 점수 CGPA 수치형 평점평균 Research 범주형 연구 실적유무(0 : 없음, 1 : 있음) Chance_of_Admit 수치형 입학 허가 확률 import pandas as pd import numpy as np df = pd.read_csv('../data/Admission.csv') df.head() 1. 종속변수인 Chance_of+adimit와 독립변수 (GRE, TOEFL, Univ_Rating, SOP, LOR, CGPA)에 대해 피어슨 상관관계 분석을 수행하고..

사용 데이터 : 영화 기생충_review.txt, 영화 기생충_사전.txt '영화 기생충_review.txt'는 다음 영화 사이트의 영화 '기생충'에 대한 review 데이터이며, '영화 기생충_사전.txt'은 영화 기생충의 출연진의 이름과 극중 이름, 감독 이름이 있는 데이터이다. 1. '영화 기생충_review.txt' 데이터를 읽어온 뒤 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. 그리고 '영화 기생충_review.txt'을 사전에 등록하시오. import pandas as pd f = open('../data/영화 기생충_review.txt','r') review = f.read() review = pd.Series(review.split('\n')) review 데이터를 불러온뒤,..