전체 글 75

[250418] 심화 프로젝트 1일차

모든 열을 보고자 할때: pd.set_option('display.max_columns',None) 모든 행을 보고자 할때: pd.set_option('display.max_rows',None) 원래대로 돌리기: pd.options.display.max_columns = 20 pd.options.display.max_rows = 60 - 주제 : airbnb - 데이터 항목 설명 (한국어)id (integer): Airbnb 숙소의 고유 식별자listing_url (text): 숙소의 URLscrape_id (bigint): Airbnb "스크래핑"에서 이 숙소가 포함된 스크랩 IDlast_scraped (datetime): 이 숙소 정보가 마지막으로 ..

카테고리 없음 2025.04.18

[250417] 머신러닝 6강 앙상블

앙상블 기법을 통해 여러 모델을 결합하고, 손실 함수를 활용해 예측 오류를 측정하며, 과적합을 방지하고 하이퍼파라미터 튜닝을 통해 모델 성능을 최적화하는 방법 1. 앙상블 기법여러 개의 모델을 조합하여, 하나의 모델보다 더 좋은 예측 성능을 내는 방법why?서로 다른 관점(모델)을 결합함으로써 오류를 줄일 수 있음개별 모델의 편향과 분산을 상호 보완배깅 (Bagging, Bootstrap Aggregating)원리학습 데이터를 무작위로 여러 부분 샘플(부트스트랩)로 나누어 각각 독립적으로 모델 학습예측 시에는 여러 모델의 결과를 평균(회귀) 혹은 다수결(분류)로 결정예시랜덤포레스트 - 분류, 회귀 모두 가능결정 트리 여러 개를 만들 때, 각 트리에 사용하는 피처와 데이터 샘플을 무작위로 선택 (피처 샘플..

카테고리 없음 2025.04.17

[팀아티클] A/B 테스트 제대로 이해하기 5, 데이터 분석가가 되기 위한 취준생을 위한 안내서

[250415] 선정 아티클 : A/B 테스트 제대로 이해하기 ⑤ A/B 테스트에 적정한 표본과 주의 사항A/B 테스트 제대로 이해하기: 5 A/B 테스트에 적정한 표본과 주의 사항 | 요즘IT아티클 요약표본 크기는 실험의 기대 차이에 따라 달라진다. 예를 들어, 기존 전환율이 20%일 때 대안이 1% 차이가 난다면 최소 25,255개의 표본이 필요하지만, 5% 차이가 난다면 1,030개의 표본만으로도 유의미한 결과를 얻을 수 있다.무작정 트래픽을 더 모으는 것은 리소스 낭비가 될 수 있다.내가 원하는 결과가 나올 때까지 기다리는 것은 실험의 객관성을 해칠 수 있다.A/B 테스트를 다른 날짜에 시작하는 것은 외부 요인의 영향을 받을 수 있다.A/B 테스트는 단순한 비교가 아니라 고객에게 더 나은 방안을 ..

아티클 스터디 2025.04.17

[250416] 머신러닝 5강 분류

- 분류 모델의 원리를 이해하고, 금융/헬스케어/제조업 등 다양한 실제 사례와 평가 방법을 종합적으로 익혀, 실무에 적용 1. 분류 모델 개요지도학습입력 데이터(특징, Feature)와 정답(Label)이 주어졌을 때, 모델이 정답을 예측하도록 학습하는 방식.회귀(연속값 예측)와 분류(범주 예측)의 차이점?분류의 정의목적데이터가 어느 범주(클래스)에 속하는지 예측ex. 스팸 메일 분류 (스팸/정상), 질병 여부 (양성/음성), 제조 공정 품질 (불량/정상) 등분류 문제를 해결하기 위해 자주 활용되는 알고리즘 : Logistic Regression, SVM분류 모델이 많이 쓰이는 이유1) 이진 분류 (양성/음성, 합격/불합격, 정상/불량 등)는 직관적이고 다양한 산업에서 필요2) 데이터 분석에서 가장 먼저..

카테고리 없음 2025.04.16

[250415] 머신러닝 4강 회귀

회귀 모델은 독립변수(X)와 종속변수(Y) 간의 관계를 활용해 연속형 결과값을 예측하며, 비선형 모델, 규제를 통해 모델 성능과 일반화 능력을 향상시킬 수 있다- 회귀모델1. 회귀 분석 개요회귀 분석종속변수(Y)와 하나 이상의 독립변수(X) 간의 관계를 추정하여, 연속형 종속 변수를 예측하는 통계/머신러닝 기법ex. '공부한 시간(x)에 따라 시험 점수(y)가 어떻게 변하는가?'를 예측지도학습에서의 분류와 회귀의 차이분류 : 결과값이 이산형 (클래스 라벨)회귀 : 결과값이 연속형 (숫자 값)사람의 지능적인 작업을 기계가 수행하도록 만드는 광범위한 개념회귀 모델을 사용하는 이유1. 미래 값 예측 : 판매량, 주가, 온도 등 실수값 예측에 사용2. 인과관계 해석 (통계 관점) : 특정 독립변수가 종속 변수에..

카테고리 없음 2025.04.15

[250414] 머신러닝 2,3강 데이터 전처리

- 2강 데이터 전처리데이터 전처리원시 데이터에서 불필요하거나 손실(노이즈)이 있는 부분을 처리하고, 분석 목적에 맞는 형태로 만드는 과정필요성1) 모델 정확도 및 신뢰도 향상2) 이상치나 결측치가 많은 상태로 학습하면 예측 성능이 크게 떨어짐3) 효율적인 데이터 분석과 모델 훈련을 위해 필수적인 단계 사례제조업센서가 간헐적으로 측정에 실패해 결측값이 발생센서 오작동으로 인해 극단적으로 큰 값(이상치)이 기록정상 제품과 불량 제품의 데이터 분포가 매우 다름(불균형 데이터)금융증권사나 은행에서 고객 정보 일부가 유실되거나, 특정 시점의 주가나 거래량 데이터가 취합되지 않은 경우 결측값 발생특정 종목에 대해 드물게 발생하는 급등락(‘Flash Crash’), 단일 대량 거래에 따른 비정상적 가격 변동 이상..

카테고리 없음 2025.04.14

[250411] 4회차 QCC

문제 1번. 내 풀이select region_name, rank() over salesfrom storesgroup by region_namehaving count(region_name)>=2order by region_name asc정답와... 걍 맥스 쓰면 되는건데... 이걸 틀리네...SELECT region_name, MAX(sales) AS highest_salesFROM storesGROUP BY region_nameHAVING COUNT(region_name) >= 2ORDER BY region_name ASC; 문제 2번. 정답SELECT A.NAME AS name_x, B.NAME AS name_y, COUNT(DISTINCT A.CART_ID) AS ordersFROM ca..

카테고리 없음 2025.04.11

[250410] 베이직반 총정리

# 숫자 풀어서 확인하기 import decimal decimal_num = decimal.Decimal(a) print(format(decimal_num, 'f')) 1. 조건문# if 조건식 : if 조건식: # 조건이 참일 때 실행할 코드 elif 다른_조건식: # 첫 번째 조건은 거짓이고 다른 조건이 참일 때 실행할 코드 else: # 모든 조건이 거짓일 때 실행할 코드# 2. 중첩 if 문print("\n======= 중첩 if 문 =======")age = 22has_id = Trueif age >= 18: if has_id: print("술을 구매할 수 있습니다.") else: print("신분증이 필요합니다.")else: pr..

카테고리 없음 2025.04.10

[팀아티클] A/B테스트 제대로 이해하기 3, 4

[250408] 선정 아티클 : A/B 테스트 제대로 이해하기 ③ A/B 테스트 계산기의 세팅과 해석A/B 테스트 제대로 이해하기: 3 A/B 테스트 계산기의 세팅과 해석 | 요즘IT아티클 요약1. A/B 테스트 계산기 활용 A/B 테스트를 위한 솔루션을 사용하지 않는 경우, 무료로 제공되는 웹 기반 계산기를 활용할 수 있습니다. 대표적인 사이트로 AB Testguide가 있으며, 간단한 숫자 입력만으로 유의미한 결과를 확인할 수 있다2. 주요 설정 항목 AB Testguide에서는 다음과 같은 설정을 통해 실험을 진행할 수 있다:Test Data: 각 그룹의 표본 크기와 전환된 숫자를 입력Settings-Hypothesis: 단측 검정(한쪽이 우세하다고 가정) 또는 양측 검정(어느 쪽이 우세할지 모름)..

아티클 스터디 2025.04.10