일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | 2 | 3 | 4 | |||
5 | 6 | 7 | 8 | 9 | 10 | 11 |
12 | 13 | 14 | 15 | 16 | 17 | 18 |
19 | 20 | 21 | 22 | 23 | 24 | 25 |
26 | 27 | 28 | 29 | 30 | 31 |
- 오버샘플링
- 빅데이터
- Python
- 텍스트분석
- pandas
- LDA
- 주성분분석
- iloc
- 데이터분석준전문가
- ADP
- 파이썬
- datascience
- t-test
- 빅데이터분석기사
- DBSCAN
- 군집화
- 독립표본
- opencv
- 워드클라우드
- Lambda
- dataframe
- numpy
- 데이터분석전문가
- 데이터분석
- 대응표본
- ADsP
- 언더샘플링
- 크롤링
- PCA
- 데이터불균형
목록adp 실기/기출문제 (13)
Data Science LAB
사용 데이터 : Carseat.csv Carseats 데이터는 자동차 좌석에 대한 판매정보이며, 변수의 설명은 아래와 같다. 변수 데이터 형태 설명 Sales 수치형 각 지역의 천 달러 단위 매출 ComPrice 수치형 각 위치에서 경쟁업체가 부과하는 가격 Income 수치형 지역 소득 수준 Advertising 수치형 각 지역의 광고 예산 Population 수치형 지역의 인구(단위 : 1000) Price 수치형 자동차 좌석의 가격 ShelveLoc 범주형 보관 장소의 품질 Age 수치형 인구의 연령대 Education 수치형 지역의 교육 수준 Urban 범주형 도시인지 혹은 아닌지의 여부 US 범주형 미국인지 혹은 아닌 지의 여부 1. Urban 변수에 따른 Sales의 차이가 있는지를 통계적으로 ..
사용 데이터 : 연설문.txt 1. 연설문.txt 데이터를 읽어온 뒤, 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. import pandas as pd f = open('../data/연설문.txt') data = f.read() data import re data = re.sub(r"[a-zA-Z0-9]","",data) data 특수문자 제거 2. 전처리된 데이터에서 명사를 추출하고 명사의 출현 빈도를 10위까지 추출하여 막대그래프로 시각화하시오. from konlpy.tag import Okt from collections import Counter okt = Okt() nouns = okt.nouns(data) nouns = [x for x in nouns if len(x) >= 2..
사용 데이터 : titanic.csv 변수 데이터 형태 설명 pclass 수치형 1,2,3 등석 정보를 각각 1,2,3으로 저장 survived 범주형 생존 여부 (0 : 사망, 1 : 생존) name 문자형 이름 sex 수치형 성별 age 수치형 나이 sibsp 수치형 함께 탑승한 형제 또는 배우자의 수 parch 수치형 함꼐 탑승한 형제 또는 자녀의 수 ticket 문자형 티켓번호 fare 수치형 티켓요금 cabin 문자형 선실번호 embarked 범주형 탑승한곳(C:cherbourg, Q:Queenstown, S:Southampthon) 1. cabin, embarked 변수의 값 중 ""로 처리된 값을 NA로 바꾸고 아래의 데이터 테이블을 보고 문자형, 범주형 변수들을 각각 charactor, f..
사용 데이터 : Admission.csv 변수 데이터 형태 설명 GRE 수치형 GRE 점수 TOEFL 수치형 TOEFL 점수 Univ_Rating 수치형 대학교 등급(1~5등급) SOP 수치형 자기소개서 점수 LOR 수치형 추천서 점수 CGPA 수치형 평점평균 Research 범주형 연구 실적유무(0 : 없음, 1 : 있음) Chance_of_Admit 수치형 입학 허가 확률 import pandas as pd import numpy as np df = pd.read_csv('../data/Admission.csv') df.head() 1. 종속변수인 Chance_of+adimit와 독립변수 (GRE, TOEFL, Univ_Rating, SOP, LOR, CGPA)에 대해 피어슨 상관관계 분석을 수행하고..
사용 데이터 : 영화 기생충_review.txt, 영화 기생충_사전.txt '영화 기생충_review.txt'는 다음 영화 사이트의 영화 '기생충'에 대한 review 데이터이며, '영화 기생충_사전.txt'은 영화 기생충의 출연진의 이름과 극중 이름, 감독 이름이 있는 데이터이다. 1. '영화 기생충_review.txt' 데이터를 읽어온 뒤 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. 그리고 '영화 기생충_review.txt'을 사전에 등록하시오. import pandas as pd f = open('../data/영화 기생충_review.txt','r') review = f.read() review = pd.Series(review.split('\n')) review 데이터를 불러온뒤,..
사용 데이터 : FIFA.csv FIFA 데이터는 가상의 온라인 축구게임에 등장하는 축구 선수의 주요 특징과 신체 정보에 대한 데이터이며, 변수 설명은 아래와 같다. 변수 데이터형태 ID 수치형 Age 수치형 Nationality 범주형 Overall 수치형 Club 범주형 Preferred Foot 범주형 Work Rate 범주형 Position 범주형 Jersey Number 수치형 Contract Valid Until 수치형 Height 문자형 Weight_lb 수치형 Release_Clause 수치형 Value 수치형 Wage 수치형 1. FIFA 데이터에서 각 선수의 키는 Height변수에 피트와 인치로 입력되어 있습니다. 이를 cm로 변환하여 새로운 변수 Height_cm을 생성하시오.(" '..