전체 글 75

[250502] 태블로 3,4주차 + 머신러닝 개인과제+ qcc 5주차

# 필수 1# statistics csv 파일을 읽고, Category 기준 Customer ID 컬럼은 Count, Purchase Amount(USD) 컬럼은 Sum 연산을 진행해주세요. 동시에 2가지 연산을 진행해주세요. (한번의 group by)# 그리고 이를 df2 라는 변수에 저장해주세요.import pandas as pddf = pd.read_csv('/Users/t2024-m0244/Downloads/statistics.csv')df2 = df.groupby(['Category']).agg({'Customer ID':['count'], 'Purchase Amount (USD)':['sum']})df2# 필수 2# Expanding 메서드를 이용하여, Purchase Amount (USD) ..

카테고리 없음 2025.05.02

[250501] 태블로 1,2주차

항상 지금 게시 누르기 !!!!!!!!!데이터 연결 방식데이터 원본 연결 형태 : sql 쿼리 사용시, 라이브 연결 대신 추출 연결로 (대시보드 만드는 시간 줄임)라이브 : 원본 파일 바뀌면 연동추출 : 라이브 연결 끊고 현재 데이터로만 태블로는 데이터 원본 연결시 원본 컬럼 삭제 불가능 -> 숨기기 기능 활용테이블 관계 만들기관계 : 조인과 달리 관계는 하나의 테이블로 병합하지 않고 테이블간 관계를 설정해서 뷰에서 필드 사용유니온 : 테이블 구조가 같은 경우, 테이블 병합조인 : 2개 이상의 테이블을 하나의 테이블로 연결하도록 병합블렌딩 : 물리적으로 테이블을 병합하지 않고, 서로 다른 데이터베이스에서 데이터를 불러오고 임시로 분석할때 사용태블로 구성 및 기능 소개워크시트 : 기본 작업 공간대시보드 :..

카테고리 없음 2025.05.01

[250428] 심화 프로젝트 7일차

오예.. 우리조 모두 심화프로젝트 우수학습자다....오늘은 피피티 완성함이게 12시간동안 완성이 되네..대본 작성까지 하다가 마무리됨내일 마저 해야지 저희는 원래 PUMA 단위로 데이터를 59개 지역으로 세분화했지만,각 지역을 일일이 다 확인하고 분석하는 것은 현실적으로 어렵다는 판단을 했습니다.그래서 데이터에 기본적으로 제공된 'neighborhood_group_cleansed' 컬럼을 활용하여, 뉴욕을 대표하는 5개 지역으로 나누어 분석을 진행했습니다.먼저, 맨해튼입니다.맨해튼은 다른 지역들과 비교했을 때, 면적은 상대적으로 좁지만 숙소 수가 매우 많고, 평균 숙박 가격도 가장 높은 특징을 보였습니다.이는 맨해튼이 뉴욕의 경제, 문화의 중심지라는 점을 그대로 반영한다고 볼 수 있습니다.따라서 맨해튼 ..

카테고리 없음 2025.04.28

[250423] 심화 프로젝트 4일차

# 각 bedrooms 값별로 bedrooms의 최빈값(mode)을 구해서 결측치에 채워넣기mode_bedrooms = airbnb1.groupby('beds')['bedrooms'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np.nan)airbnb1['bedrooms'] = airbnb1['bedrooms'].fillna(mode_bedrooms)# 각 beds 값별로 bedrooms의 최빈값(mode)을 구해서 결측치에 채워넣기mode_beds = airbnb1.groupby('bedrooms')['beds'].transform(lambda x: x.mode().iloc[0] if not x.mode().empty else np..

카테고리 없음 2025.04.23

[250422] 심화 프로젝트 3일차

상관관계 분석을 다시해보자1. 아이디, 호스트네임, 날짜는 제외 범주형 + price(연속형과 범주형 상관관계 0.3 이상인거 뽑기) / 연속형 = price와 돌리기 (그냥 상관관계) 2. 범주형에서도 2분형만 모아서 프라이스와 돌리기 point-biserial 연속형과 범주형 3. 나머지는 아노바로 돌리기 -> 없다 1번 제외 6, 7, 8 범주 / 연속 묶기 # 범주형 cat = ['license'] -> 있냐 없냐로 구분 후 bool 변경 # license가 있으면 True, 없으면 False df['has_license'] = df['license'].notnull() # T/F bool = ['has_availability', 'instant_bookable', 'has_license'] ..

카테고리 없음 2025.04.22