아티클 스터디

[팀아티클] 양질의 데이터를 판별하는 방법 1,2

jeonieee 2025. 3. 13. 14:35

[250311] 선정 아티클 : 양질의 데이터를 판별하는 5가지 방법 : ① 데이터 양은 충분한가?

양질의 데이터를 판별하는 5가지 방법 : 1 데이터 양은 충분한가? | 요즘IT

개인 요약

1. 빅데이터의 가치

  • 빅데이터의 가치를 정리한다 빅데이터는 '21세기 원유'로 불리며, 산업과 소비자 트렌드 분석, AI 기술 발전의 핵심적인 원천이 된다.
  • 정부와 민간은 데이터를 체계화하고 활용하기 위해 많은 노력을 기울인다.

2. 양질의 데이터의 필요성

  • 데이터 품질이 높을수록 분석과 활용도가 높아지고 효율성도 증가한다.  
  • 그러나 저품질 데이터도 많아, 데이터를 수집할 때 효율성을 고려해야 한다.  

3. 양질의 데이터 판단 기준

  • 양질의 데이터는 다음과 같은 특징을 가진다:
  • 충분한 데이터 수를 보유.
  • 데이터 내 오류가 적음.
  • 관계형 데이터베이스 형식을 잘 유지.
  • 수치형 데이터 비율이 높음.
  • 데이터 활용 목적에 적합.

4. 데이터의 양을 논의한다

  • 충분한 데이터 양은 분석 결과의 신뢰성을 높이는 중요한 요소다. 통계적 분석에는 최소 500개 이상, 머신러닝에는 변수 수의 100배 이상의 데이터가 필요하다.
  • 특히 AI 알고리즘은 데이터 양이 많을수록 정확도가 높아진다.

[아티클 요약] 

  • 빅데이터는 단순히 많다고 좋은 것이 아니며, 분석의 효율성을 높이기 위해 질 좋은 데이터를 선별적으로 수집하고 사용하는 것이 중요하다는 것을 느꼈다

 

[250313] 선정 아티클 : 양질의 데이터를 판별하는 5가지 방법 : ② 믿을 수 있는 데이터인가?

양질의 데이터를 판별하는 5가지 방법 : 2 믿을 수 있는 데이터인가? | 요즘IT

 

개인 요약

  • 데이터 신뢰성 : 데이터가 얼마나 실제 정보를 똑바로 담고 있는가에 대한 개념 
    • 1) 데이터 오류 : 데이터가 사실이 아닌 잘못된 정보를 적재하고 있는 경우
      • 분석 초기에 하나하나의 데이터를 꼼꼼히 살펴보고, 각 데이터가 어떻게 수집되어 온 것인지에 대한 수집 방법 파악을 반드시 선행해야 함
    • 2) 결측 데이터 : 데이터 수집 혹은 적재과정에서 누락된 데이터 → 데이터 파일에서 비어 있는 부분
      • 빅데이터를 활용해 분석을 수행한다면 애초에 결측 데이터가 없는 혹은 최소로 존재하는 데이터를 선택하는 것이 높은 신뢰성을 가질 수 있는 방법
  • 데이터 가공 정도 
    • 양질의 데이터 판별을 위해 데이터의 신뢰성을 보고자 한다면 가공 정도가 중요
  • 1) 원천 데이터 : 데이터 수집 이후 아무런 가공도 하지 않은 데이터
    • 사람의 손을 최소로 탄 상태 → 데이터 오류가 적은 편
    • 보통의 원천 데이터는 너무나 복잡 => 최소한의 가공을 거친 데이터가 가장 신뢰성이 높을 수 있음
  • 2) 가공 데이터 : 최소한의 가공을 거친 데이터를 편의상 부름
    • 원하는 지수를 개발, 필요한 데이터 추출
    • 이 과정을 통해 만들어 낸 데이터는 추정값 = 예측 값
  • 중요한 것은 둘 사이의 균형을 잘 잡는 것 !
  • 허용할 수 있는 데이터 오류 정도를 명확히 설정하고 그에 따라 얼마나 가공된 데이터를 선택할지, 어떤 내용을 담고 있는 데이터를 선택할지 결정해야 한다

[아티클 요약] 

  • 데이터의 신뢰성과 가공 정도가 양질의 데이터를 판별하는 핵심 요소라는 것을 알게 되었고, 후반에 알게 되면 고치기가 힘들기 때문에 데이터 분석 초기에 철저한 검증이 필요하다는 것을 느꼈다.