상세 컨텐츠

본문 제목

데이터의 입력과 점검

Tips/대학

by 한국인맛집 2019. 4. 25. 01:18

본문

반응형

데이터의 정의

 

- 데이터란?  

어떤 관심있는 주제에 대하여 수집된 구조화된 정보(Organized information)

일반적인 의미의 데이터는 수치, 문자, 그림, 음성, 동영상 등의 표현 양식(format) 과 관계없이 어떤주제에 대한 구조화된 정보

 

- 데이터의 특징

1) 분석에 알맞는 일정한 규칙과 형태로 수집되고 정리된다.

2) 분석과정을 통해 유용한 정보(Information)로 변환

3) 조사나 실험을 통해서 수집되어 알맞는 형태로로 변환

4) 어떤 관심있는 주제에 대하여 얻어진것.

 

 

통계적 데이터(Statistical Data)

수치적 계산과 통계적 북석에 알맞는 데이터

 

 

데이터 분석의 목적

1) 자연및 사회현상에 대한 정확한 현상 (집단의 특징) 파악

2) 왜 그런 현상이 나타나게 되었는지 (인과관계) 규명

3) 경제, 사회 현상 속에 숨어있는 법칙성 발견

>> 미래 상황 예측으로 합리적인 의사결정 도움

 

 

측정의 수준과 데이터의 종류

 

- 데이터 수집방법

통계조사, 실험, 관찰 등을 통해서 조사단위나 실험단위로 부터 정해진 측정방법 (측정도구, 질문지, 설문지) 등으로 얻을수있다.

측정 : 각각의 조사단위의 어떤 특성을 일정한 기준에 따라 관측하여 각 조사단 위에 수치를 부여하는 작업

예) 표본으로 뽑힌 사람들의 몸무게, 성별, 지능지수(IQ) 등..

>> 측정된 전체 자료를 데이터(Data) 라고 한다.

 

데이터관련 용어 (통계학적 용어)

1. 케이스 (Case , 레코드) : 데이터세트에서 하나의 조사단위에 대한 정보의 집합체

2. 변수 (Variable , 필드) : 각 조사단위로 부터 측정된 개별적인 속성

3. 결측값(Missing Value, 무응답 값) : 실험자, 응시자가 무응답 데이터로 얻지못한 값을 뜻함.

 

 

측정 수준과 데이터의 종류

 

측정의 척도에 따라서 제공되는 정보의 수준과 데이터분석에 이용할수 있는 분석방법이 달라진다

 

- 명목척도 (Nominal Scale : 명명척도)

측정 대상의 속성을 단순불류, 확인할 목적으로 수치부여

단순 범주 구분이 목적이다.

예)  남자(1) , 여자 (2) , 운동선수 등번호, 종교, 지지정당, 거주지(대도시, 중소도시, 농어촌 ) 등 구분방법

 

순서 척도 (Ordinal Scale : 서열척도)

어떤 특성이 많고 적음에 따라 수치를 부여한다.

수치자체에 어떤 절대적인 수나 양, 크기들을 나타내지 않고, 서열, 대소 관계의 구분만 의미 있다.

예) 제품이나 서비스의 질을 묻는 질문  , 매우좋음(5점) , 약간좋음(4점) , 보통 (3점) , 약간 나쁨(2점) , 나쁨(1점)

 

구간척도 (Interval Scale : 등간 척도)

측정대상을 속성에 따라 서열화는 물론 서열간의 간격이 같도록 수치를 부여하는 방법

연속형값으로 측정값의 차이는 의미가 있지만 비(比)는 의미 없다.

절대 0을 정의할수 없고 임의로 지정된 0은 있다.

예) 섭씨온도, IQ , 주가 지수, 적성검사 점수 등

 

비율척도(Ratio Scale)

구간척도와 유사하지만 측정값의 차이뿐 만 아니라 비(比)도 의미있는 경우

절대 0을 정의할수 있음.

예) 소득, 체중, 신장, 시간, 방문객 수 등..

 

데이터의 구분

 

- 측정수준에 따른 구분

1. 질적변수(Qualitative Variable)

2. 양적변수(Quantitative Varaiable) 

   - 연속적변수

   - 이산형변수

측정되는 변수의 수에 따른 구분

1. 일변량 데이터

2. 다변량 데이터

 

데이터의 입력

 

부호화 (Coding : 코딩 ) 

※절대 프로그래밍적 코딩과 혼동하지말자 통계학적 코딩은 데이터 분류코드와 같다

수집된 설문지의 응답결과나 관측결과등을 통계적 분석이 가능하도록 일정한 원칙에 따라 각 응답에 숫자를 부여하는 과정

연속적 변수는 관측된 값이 숫자이기 때문에 그대로 입력이 가능하다.

여러사람이 부호와 작업에 참여할때는 부호화의 일관성이 유지되도록 부호와 지침서를 만들어 사용해야한다.

 

데이터 부호화 설계

 

 조사/ 실험을 통해서 얻은 데이터를 입력할때 어떻게 입력 해야 더 간편하고 효과적으로 분석할수 있는지를 구상하는 부분

 

예) 지방자치 제도가 지역발전에 미친영향을 알아보기위한 표본조사

*지방자치제도 설문지 부호화 지침서

설문번호 변수명 변수명 (영어 약어) 입력 열 코드및 설명
  일련번호 ID 1~2  
1 지역발전 C1 4

1, 2, 3,4, 9(무응답)

2 지역경제 C2 6

1, 2, 3, 4 ,9(무응답)

3 성별 P1 8

1(남), 2(여) , 9(무응답)

4 나이 P2 10

나이 , 99(무응답)

 

 

 

부호화

1. 텍스트파일 

ASCII 코드 형식(Format)으로 저장된 파일

자유형식 : 변수와 변수 사이를 공란(Blank)로 구분

고정형식 : 스프레드 시트와 같이 변수가 위치한 열을 정하고 입력하는 방식

2. 엑셀사용

3. 한글파일 사용

 

 

데이터 점검

 디버깅 : 입력오류나 또는 조사상 실수로 인한 오류를 찾아 수정할 목적으로 Data Set을 검토하는 분석법

 

- 디버깅 방법

1. 각변수의 입력범위로 확인하는 방법

2. 변수들간의 논리적 일관성 여부를 확인하는 방법

 

 

 

 

반응형

'Tips > 대학' 카테고리의 다른 글

기억장치의 설명  (0) 2019.05.06
디바이스 기술 - SoC/MEMS  (0) 2019.05.03
소프트웨어와 정보시스템  (31) 2019.04.27
보조기억장치와 데이터 저장  (0) 2019.04.24
유비쿼터스 컴퓨팅을 위한 핵심 기술과 전망  (0) 2019.04.18
컴퓨터의 입출력  (0) 2019.04.17

관련글 더보기