데이터의 정의
- 데이터란?
어떤 관심있는 주제에 대하여 수집된 구조화된 정보(Organized information)
일반적인 의미의 데이터는 수치, 문자, 그림, 음성, 동영상 등의 표현 양식(format) 과 관계없이 어떤주제에 대한 구조화된 정보
- 데이터의 특징
1) 분석에 알맞는 일정한 규칙과 형태로 수집되고 정리된다.
2) 분석과정을 통해 유용한 정보(Information)로 변환
3) 조사나 실험을 통해서 수집되어 알맞는 형태로로 변환
4) 어떤 관심있는 주제에 대하여 얻어진것.
- 통계적 데이터(Statistical Data)
수치적 계산과 통계적 북석에 알맞는 데이터
- 데이터 분석의 목적
1) 자연및 사회현상에 대한 정확한 현상 (집단의 특징) 파악
2) 왜 그런 현상이 나타나게 되었는지 (인과관계) 규명
3) 경제, 사회 현상 속에 숨어있는 법칙성 발견
>> 미래 상황 예측으로 합리적인 의사결정 도움
측정의 수준과 데이터의 종류
- 데이터 수집방법
통계조사, 실험, 관찰 등을 통해서 조사단위나 실험단위로 부터 정해진 측정방법 (측정도구, 질문지, 설문지) 등으로 얻을수있다.
측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단 위에 수치를 부여하는 작업
예) 표본으로 뽑힌 사람들의 몸무게, 성별, 지능지수(IQ) 등..
>> 측정된 전체 자료를 데이터(Data) 라고 한다.
- 데이터관련 용어 (통계학적 용어)
1. 케이스 (Case , 레코드) : 데이터세트에서 하나의 조사단위에 대한 정보의 집합체
2. 변수 (Variable , 필드) : 각 조사단위로 부터 측정된 개별적인 속성
3. 결측값(Missing Value, 무응답 값) : 실험자, 응시자가 무응답 데이터로 얻지못한 값을 뜻함.
측정 수준과 데이터의 종류
측정의 척도에 따라서 제공되는 정보의 수준과 데이터분석에 이용할수 있는 분석방법이 달라진다
- 명목척도 (Nominal Scale : 명명척도)
측정 대상의 속성을 단순불류, 확인할 목적으로 수치부여
단순 범주 구분이 목적이다.
예) 남자(1) , 여자 (2) , 운동선수 등번호, 종교, 지지정당, 거주지(대도시, 중소도시, 농어촌 ) 등 구분방법
- 순서 척도 (Ordinal Scale : 서열척도)
어떤 특성이 많고 적음에 따라 수치를 부여한다.
수치자체에 어떤 절대적인 수나 양, 크기들을 나타내지 않고, 서열, 대소 관계의 구분만 의미 있다.
예) 제품이나 서비스의 질을 묻는 질문 , 매우좋음(5점) , 약간좋음(4점) , 보통 (3점) , 약간 나쁨(2점) , 나쁨(1점)
- 구간척도 (Interval Scale : 등간 척도)
측정대상을 속성에 따라 서열화는 물론 서열간의 간격이 같도록 수치를 부여하는 방법
연속형값으로 측정값의 차이는 의미가 있지만 비(比)는 의미 없다.
절대 0을 정의할수 없고 임의로 지정된 0은 있다.
예) 섭씨온도, IQ , 주가 지수, 적성검사 점수 등
- 비율척도(Ratio Scale)
구간척도와 유사하지만 측정값의 차이뿐 만 아니라 비(比)도 의미있는 경우
절대 0을 정의할수 있음.
예) 소득, 체중, 신장, 시간, 방문객 수 등..
데이터의 구분
- 측정수준에 따른 구분
1. 질적변수(Qualitative Variable)
2. 양적변수(Quantitative Varaiable)
- 연속적변수
- 이산형변수
- 측정되는 변수의 수에 따른 구분
1. 일변량 데이터
2. 다변량 데이터
데이터의 입력
- 부호화 (Coding : 코딩 )
※절대 프로그래밍적 코딩과 혼동하지말자 통계학적 코딩은 데이터 분류코드와 같다
수집된 설문지의 응답결과나 관측결과등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정
연속적 변수는 관측된 값이 숫자이기 때문에 그대로 입력이 가능하다.
여러사람이 부호와 작업에 참여할때는 부호화의 일관성이 유지되도록 부호와 지침서를 만들어 사용해야한다.
- 데이터 부호화 설계
조사/ 실험을 통해서 얻은 데이터를 입력할때 어떻게 입력 해야 더 간편하고 효과적으로 분석할수 있는지를 구상하는 부분
예) 지방자치 제도가 지역발전에 미친영향을 알아보기위한 표본조사
*지방자치제도 설문지 부호화 지침서
설문번호 | 변수명 | 변수명 (영어 약어) | 입력 열 | 코드및 설명 |
일련번호 | ID | 1~2 | ||
1 | 지역발전 | C1 | 4 |
1, 2, 3,4, 9(무응답) |
2 | 지역경제 | C2 | 6 |
1, 2, 3, 4 ,9(무응답) |
3 | 성별 | P1 | 8 |
1(남), 2(여) , 9(무응답) |
4 | 나이 | P2 | 10 |
나이 , 99(무응답) |
- 부호화
1. 텍스트파일
ASCII 코드 형식(Format)으로 저장된 파일
자유형식 : 변수와 변수 사이를 공란(Blank)로 구분
고정형식 : 스프레드 시트와 같이 변수가 위치한 열을 정하고 입력하는 방식
2. 엑셀사용
3. 한글파일 사용
- 데이터 점검
디버깅 : 입력오류나 또는 조사상 실수로 인한 오류를 찾아 수정할 목적으로 Data Set을 검토하는 분석법
- 디버깅 방법
1. 각변수의 입력범위로 확인하는 방법
2. 변수들간의 논리적 일관성 여부를 확인하는 방법
기억장치의 설명 (0) | 2019.05.06 |
---|---|
디바이스 기술 - SoC/MEMS (0) | 2019.05.03 |
소프트웨어와 정보시스템 (31) | 2019.04.27 |
보조기억장치와 데이터 저장 (0) | 2019.04.24 |
유비쿼터스 컴퓨팅을 위한 핵심 기술과 전망 (0) | 2019.04.18 |
컴퓨터의 입출력 (0) | 2019.04.17 |