올린글을 확인할 수 있도록 포스팅을 공개로 설정해 주세요.
포인트는 운영자가 올린글을 검토후 지급됩니다. 검토요청이 누적된 상황에서는 포인트 지급에 상당한 지연이 발생할 수 있습니다.
정형 데이터와 비정형 데이터의 의미 비교
데이터 품질의 의미와 데이터 품질관리 실패 사례 분석
데이터를 처음 접했을 때는 단순히 '정보'라는 의미로만 이해했습니다.
데이터 과학의 시대를 살아가면서 데이터는 단순한 숫자 이상입니다.
반대로 비정형 데이터는 고정된 틀이 없는데이터입니다.
명목형 데이터는 단순히 '서로 다름'을 나타내는 데이터입니다.
데이터를 제대로 해석하지 못하면 결국 의미를 잃게 됩니다.
결국 데이터 품질은 기술이 아니라 '태도'의 문제라고 생각합니다.

이런 자료들이 모여 의미를 가지게 되면 비로소 정보가 됩 니다.
즉, 데이터란 인간이 스스로 만들어내기 이전에 주어진 사실을 의미합니다.
처음이 어원을 들었을 때, 데이터가 단순히 사람이 만든 결과물이 아니라 세상에 존재하는 '현상'이라는 생각이 들었습니다.
예를 들어 날씨의 온도, 사람의 나이, 교통량 같은 것들은 인간이 조작하지 않아도 존재하는 사실입니다.
데이터를 수집하고 가공하면서 느낀 점은, 아무리 많은 자료가 있어도 그 의미를 읽어내는 사람의 태도가 중요하다는 것입니다.
제가 이해한 정형 데이터는 쉽게 말해 '형태가 정해진 데이터'입니다.
온라인 쇼핑몰의 상품 판매량(정형)과 리뷰텍스트(비정형)를 결합해 제품 만족도를 예측하는 모델을 만들었습니다.
범주형 데이터는 명목형 데이터와 순서형 데이터 두 가지로 나뉩니다.
명목형 데이터는 단순히 '서로 다름'을 나타내는 데이터입니다.
반면 순서형 데이터는 크기나 수준의 순서가 있는 범주형 데이터입니다.
예를 들어 만족도 조사가 '매우 만족', '만족', '보통', '불만족'으로 되어 있다면, 이는 순서형 데이터입니다.
명목형 데이터처럼 범주를 구분하지만, 단계적인 차이를 표현할 수 있습니다.
같은 범주형이라도 순서를 반영하면 이용자의 태도를 훨씬 정확히 파악할 수 있었습니다.
이후 저는 범주형 데이터를 분석할 때 항상 명목형 인지 순서형 인지를 먼저 구분합니다.
범주형 데이터는 숫자가 아니라 사람의 생각과 선택을 보여주는 정보이기 때문에, 데이터를 해석하는 관점이 더 중요합니다.
명목형 데이터는 원-핫인코딩, 순서형 데이터는 순위 척도화 같은 방식으로 수치화됩니다.
결국 데이터 주도권은 정보를 통제하고 방향을 제시하는 능력이라고 생각합니다.
그때 데이터 주도권은 자료를 소유한 사람에게 있는 게 아 니라, 그 자료를 이해하고 행동으로 옮길 수 있는 사람에게 있다는 걸 깨달았습니다.
데이터 주도권을 가지려면 첫 번째로 필요한 소양은 비판적 사고력이라고 생각합니다.
데이터를 읽고 시각화하며 의미를 전달하는 능력이 있어야 데이터 주도권을 지킬 수 있습니다.
데이터 주도권은 단순히 기술을 잘 다루는 능력이 아니라, 정보를 통해 더 나은 결정을 내릴 수 있는 주체로 성장하는 과정이라고 생각합니다.
데이터 품질관리 실패 사례 중 가장 대표적인 것은 보잉 737MAX 항공기 사고라고 생각합니다.
이 사례는 데이터의 품질관리 실패가 생명과 직결될 수 있다는 점을 보여줍니다.
저는 이런 사례를 보며 데이터 품질이 단순히 기술 문제가 아니라 사회 전체의 신뢰와 연결된다는 점을 느꼈습니다.
데이터 품질을 관리하지 않으면 단순한 오류가 큰 사고로 이어질 수 있습니다.
시각화는 단순히 예쁘게 표현하는 기술이 아니라, 정확한 의미 전달이 핵심이라는 점을 보여줍니다.

[hwp/pdf]통계데이터학과 1학년 2학기 데이터과학개론 2025방통대 중간과제물
포스팅 주소 입력
  올린글을 확인할 수 있는 포스팅 주소를 입력해 주세요.
  네이버,다음,티스토리,스팀잇,페이스북,레딧,기타 등 각각 4개(20,000p) 까지 등록 가능하며 총 80,000p(8,000원)까지 적립이 가능합니다.