일 | 월 | 화 | 수 | 목 | 금 | 토 |
---|---|---|---|---|---|---|
1 | ||||||
2 | 3 | 4 | 5 | 6 | 7 | 8 |
9 | 10 | 11 | 12 | 13 | 14 | 15 |
16 | 17 | 18 | 19 | 20 | 21 | 22 |
23 | 24 | 25 | 26 | 27 | 28 |
- Python
- DBSCAN
- 언더샘플링
- pandas
- 파이썬
- t-test
- iloc
- 독립표본
- 주성분분석
- numpy
- ADP
- 데이터분석전문가
- ADsP
- 대응표본
- 크롤링
- 데이터분석
- 군집화
- 오버샘플링
- 데이터분석준전문가
- Lambda
- 빅데이터
- 텍스트분석
- 데이터불균형
- LDA
- datascience
- opencv
- dataframe
- 빅데이터분석기사
- PCA
- 워드클라우드
목록adp 실기/기출문제 (13)
Data Science LAB
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/cBGpTq/btrMdQRXSL6/KepAPw8UJr8wkLnkgi5ji0/img.png)
문제 링크 : https://www.kaggle.com/code/kukuroo3/problem4-python/notebook problem4-python Explore and run machine learning code with Kaggle Notebooks | Using data from ADP_KR_p4 www.kaggle.com 1번 철강데이터 종속변수 : target 데이터 출처 : https://www.kaggle.com/uciml/faulty-steel-plates 데이터 경로 : /kaggle/input/adp-kr-p4/problem1.csv 1-1 EDA(탐색적 데이터 분석)을 하시오 (시각화와 통계량을 제시할 것) df1 = pd.read_csv('/kaggle/input/adp-kr..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/CNQNx/btrLQyi8RvF/0tMUewwfhe09lPmOXs1eF1/img.png)
사용 데이터 : instagram_태교여행.txt 1. 'instagram_태교여행.txt' 데이터를 읽어온 뒤, 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. import re f = open(r'../data/instagram_태교여행.txt') data = f.read() text = re.sub('[^A-Za-z가-힣\\s]',' ',data) text 2. 전처리된 데이터에서 '태교여행' 이란 단어를 사전에 추가하고 명사를 추출해 출현빈도 10위까지 막대그래프로 시각화하시오. import pandas as pd dict = pd.DataFrame(columns=['명사', '형태소']) dict =dict.append({'명사' : '태교여행', '형태소':'NNP'},ignore_..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/Js6Ih/btrLOfqbJmZ/PobGTHHkoX10oxLIzJUNK1/img.png)
사용 데이터 : bike_marketing.csv 변수 데이터 형태 설명 company_num 수치형 회사 번호 google_adwords 수치형 구글 Adwords에 대한 비용 facebook 수치형 페이스북 광고에 대한 비용 twitter 수치형 트위터 광고에 대한 비용 marketing_total 수치형 총 마케팅 예산 revenues 수치형 매출 정보 employees 수치형 종업원 수 pop_density 범주형 타깃 시장의 인구밀도 수준 (Low, Medium, High) 1. pop_density 변수를 factor형 변수로 변환하고, pop_density 별 revenues의 평균 차이가 있는 지 통계분석을 시행하여 결과를 해석하시오. 만약 대립가설이 채택된다면 사후분석을 실시하고 결과를 ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/biVKRv/btrLI4jmuTe/JNZV7SK6hOvaJpEuCNjwK1/img.png)
사용 데이터 : weatherAUS.csv 변수 데이터 형태 설명 Date 날짜형 날짜 Location 범주형 장소 MinTemp 수치형 최저 온도 (섭씨) MaxTemp 수치형 최고 온도 (섭씨) Rainfall 수치형 하루 동안 기록된 강우량 WindGustDir 범주형 자정까지 24시간 동안 가장 강한 바람이 부는 방향 WIndGustSpeed 수치형 24시간에서 자정 사이 가장 강한 바람 속도 (km/h) WindDir9am 범주형 바람 방향 WindDIr3pm 범주형 바람 방향 WindSpeed9am 수치형 평균 10분 이상 풍속 WindSpeed3pm 수치형 평균 10분 이상 풍속 Humidity9am 수치형 습도 Humidity3pm 수치형 습도 Pressure9am 수치형 대기압 Press..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/clVTZP/btrLvEky5zP/QbSy2cI88ReNFCGV8vQyw1/img.png)
사용 데이터 : 공구 블로그 댓글.txt, 사전.txt 1. '공구 블로그 댓글.txt' 파일을 읽어 들여 숫자, 특수 문자 등을 제거하는 전처리 작업을 시행하시오. import pandas as pd import numpy as np f = open('../data/공구 블로그 댓글.txt', 'r') data = f.read() data import re text = re.sub('[^A-Za-z가-힣\\s]',' ',data) text 2. '사전.txt'를 사전에 추가하고 문서에서 형용사를 추출하라 f = open('../data/사전.txt', 'r') dictionary = f.read() dictionary from konlpy.tag import * hannanum = Hannanum() ..
![](http://i1.daumcdn.net/thumb/C150x150/?fname=https://blog.kakaocdn.net/dn/TAhsH/btrLvDePqW4/9iFuMtlOcJOS8nUNgJDzmk/img.png)
사용 데이터 : BlackFriday.csv 변수 데이터 형태 설명 User_ID 문자형 구매자 ID Product_ID 범주형 제품 ID Gender 범주형 성별 Age 범주형 나이(구간화) Occupation 범주형 구매자 직업 City_Category 범주형 거주 지역 Stay_In_Current_City_Years 범주형 현재 도시에 체류하는 년수 Marital_Status 범주형 결혼 여부 Product_Category_1 범주형 상품 구매 카테고리 Product_Category_2 범주형 1번 제품 카테고리에 속하는 제품의 카테고리 Product_Category_3 범주형 2번 제품 카테고리에 속하는 제품의 카테고리 Purchase 수치형 구매금액(달러) 1. BlackFriday 데이터에서 ..