[250311] 선정 아티클 : 양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가?
양질의 데이터를 판별하는 5가지 방법 : 1 데이터 양은 충분한가? | 요즘IT
개인 요약
1. 빅데이터의 가치
- 빅데이터의 가치를 정리한다 빅데이터는 '21세기 원유'로 불리며, 산업과 소비자 트렌드 분석, AI 기술 발전의 핵심적인 원천이 된다.
- 정부와 민간은 데이터를 체계화하고 활용하기 위해 많은 노력을 기울인다.
2. 양질의 데이터의 필요성
- 데이터 품질이 높을수록 분석과 활용도가 높아지고 효율성도 증가한다.
- 그러나 저품질 데이터도 많아, 데이터를 수집할 때 효율성을 고려해야 한다.
3. 양질의 데이터 판단 기준
- 양질의 데이터는 다음과 같은 특징을 가진다:
- 충분한 데이터 수를 보유.
- 데이터 내 오류가 적음.
- 관계형 데이터베이스 형식을 잘 유지.
- 수치형 데이터 비율이 높음.
- 데이터 활용 목적에 적합.
4. 데이터의 양을 논의한다
- 충분한 데이터 양은 분석 결과의 신뢰성을 높이는 중요한 요소다. 통계적 분석에는 최소 500개 이상, 머신러닝에는 변수 수의 100배 이상의 데이터가 필요하다.
- 특히 AI 알고리즘은 데이터 양이 많을수록 정확도가 높아진다.
[아티클 요약]
- 빅데이터는 단순히 많다고 좋은 것이 아니며, 분석의 효율성을 높이기 위해 질 좋은 데이터를 선별적으로 수집하고 사용하는 것이 중요하다는 것을 느꼈다
[250313] 선정 아티클 : 양질의 데이터를 판별하는 5가지 방법 : ② 믿을 수 있는 데이터인가?
양질의 데이터를 판별하는 5가지 방법 : 2 믿을 수 있는 데이터인가? | 요즘IT
개인 요약
- 데이터 신뢰성 : 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념
- 1) 데이터 오류 : 데이터가 사실이 아닌 잘못된 정보를 적재하고 있는 경우
- 분석 초기에 하나하나의 데이터를 꼼꼼히 살펴보고, 각 데이터가 어떻게 수집되어 온 것인지에 대한 수집 방법 파악을 반드시 선행해야 함
- 2) 결측 데이터 : 데이터 수집 혹은 적재과정에서 누락된 데이터 → 데이터 파일에서 비어 있는 부분
- 빅데이터를 활용해 분석을 수행한다면 애초에 결측 데이터가 없는 혹은 최소로 존재하는 데이터를 선택하는 것이 높은 신뢰성을 가질 수 있는 방법
- 1) 데이터 오류 : 데이터가 사실이 아닌 잘못된 정보를 적재하고 있는 경우
- 데이터 가공 정도
- 양질의 데이터 판별을 위해 데이터의 신뢰성을 보고자 한다면 가공 정도가 중요
- 1) 원천 데이터 : 데이터 수집 이후 아무런 가공도 하지 않은 데이터
- 사람의 손을 최소로 탄 상태 → 데이터 오류가 적은 편
- 보통의 원천 데이터는 너무나 복잡 => 최소한의 가공을 거친 데이터가 가장 신뢰성이 높을 수 있음
- 2) 가공 데이터 : 최소한의 가공을 거친 데이터를 편의상 부름
- 원하는 지수를 개발, 필요한 데이터 추출
- 이 과정을 통해 만들어 낸 데이터는 추정값 = 예측 값
- 중요한 것은 둘 사이의 균형을 잘 잡는 것 !
- 허용할 수 있는 데이터 오류 정도를 명확히 설정하고 그에 따라 얼마나 가공된 데이터를 선택할지, 어떤 내용을 담고 있는 데이터를 선택할지 결정해야 한다
[아티클 요약]
- 데이터의 신뢰성과 가공 정도가 양질의 데이터를 판별하는 핵심 요소라는 것을 알게 되었고, 후반에 알게 되면 고치기가 힘들기 때문에 데이터 분석 초기에 철저한 검증이 필요하다는 것을 느꼈다.
'아티클 스터디' 카테고리의 다른 글
[팀아티클] A/B테스트 제대로 이해하기 3, 4 (0) | 2025.04.10 |
---|---|
[팀아티클] A/B테스트 제대로 이해하기 1, 2 (0) | 2025.04.03 |
[팀아티클] 사용자 데이터를 효과적으로 분석하는 법 / 실험 조직으로 거듭나기 (0) | 2025.03.07 |
[팀아티클] 데이터 분석이란 무엇일까?/데이터 아키텍처? 쉽게 배워봅시다 (0) | 2025.02.27 |
[팀아티클] 그 데이터는 잘못 해석되었습니다, 데이터 리터러시를 올리는 방법 (0) | 2025.02.20 |