[Math] Type of Data and Scale of Measurement

2023. 3. 15. 18:39·.../Math
728x90
728x90

Type of Data and Scale of Measurement

1. Type of Data

1-1. Measurement data (quantitative data)

Measurement(측정)의 결과로 얻어진 data.
예를 든다면, 스트레스지수, 체중, 하루당 마시는 술의 양 등이 이에 해당한다.

Data obtained by measuring objects or events.

 

여기에 속하는 데이터들을 scale관점 (아래 2. Type of Data 를 참고)에서 보면,

  • ordinal scale,
  • interval scale,
  • ratio scale 

임.


1-2. Categorical data (frequency data)

Frequency data 또는 count data라고 불리며,

각 카테고리에 속하는 객체의 수를 나타내는 data임.

 

우리나라 말로 범주/빈도 data로 많이 불림.

  • scale 관점에서 nominal scale로 측정되는 데이터라고 볼 수 있음.

참고: Measurement(측정)이란?

  • 관심 대상이 되는 속성이나 개념을 일정한 규칙에 따라 정량적 수치를 부여하는 과정.
  • 측정의 도구 중 scale 이 있음.

The assignment of numbers to objects.


참고: Scale of Measurement

Characteristics of relations among numbers assigned to objects.

  • 측정대상에 부여된 숫자들 사이의 관계 에 대한 특성 으로
  • 정량화된 측정대상의 특성을 나타내는 숫자들 간의 관계를 나타냄.
  • 즉, 어떠한 대상의 특성을 unit을 사용하여 정량화한 것.

요약하면,

측정(measurement)을 목적으로
일정한 규칙에 따라 측정대상에 적용할 수 있도록 만들어진 계량적 도구(측정도구)

 

scale은
측정대상인 데이터 정량화에 사용되는
척도(a set of measures)나 체계(system)

 

기계학습 관점에서 애기한다면,

Scale은 특정 feature 을 측정 및 표현할 때, 그 값의 분류·순서·간격·비율을 정의하는 체계이며, 동시에 크기와 범위를 나타내는 기준임.


2. Scale of Data

2.1. Nominal scale (명명척도)

단순히 구분만을 위해 숫자가 할당된 scale. ML등의 경우, one-hot encoding을 적용해야하는 경우에 해당한다.

  • 구분의 용도 외에 부여된 숫자에 아무 의미가 없음.
남자와 여자를 구분하기위해 0,1을 부여한 경우나, 선수를 구분하기 위한 백넘버 등을 예로 들 수 있다.

2.2. Ordinal scale (서열척도)

매겨진 숫자들 간의 의미있는 순서가 존재함.

  • Numbers used only to place objects in order.
  • Order or rank things
대식가에게 3을 부여하고 평균 식사량의 사람에게 2를, 소식가에 1을 부여하는 형태는 ordinal scale이다. 여기서 소식가와 평균인 사람과의 차이 1이 대식가와 평균인 사람과의 차이 1과 숫자상으로는 같지만, 똑같은 식사량의 차이를 의미하고 있지 않다. (소식가와 평균인 사람의 식사량의 차이는 대식가와 평균인 사람과의 식사량과 다른 경우가 일반적이다.)

2.3. Interval scale (간격척도)

측정대상에 부여된 숫자 간의 간격이 의미를 가짐. 즉 빼기를 통해 구한 어떤 차이가 의미를 지니게 되는 scale을 가르킴.

  • Scale on which equal intervals between objects represent equal differences—differences are meaningful.
  • Equal intervals represent equal differences.
전형적인 예가 time이다. 3시와 2시의 차이는 12시와 11시의 차이와 같다. 그렇지만 2시가 4시보다 1/2의 어떤 크기는 아니다.

 

온도(섭씨, 화씨)나 시간이 대표적인 interval scale이며, 여기서 0은 임의적인 기준점임.

섭씨 0도는 온도가 없음을 나타내지 않음(어는 점을 임으로 기준으로 삼은 것임) 


2.4. Ratio scale (비율척도)

0 이 의미를 가지며, "몇 배" 또는 "몇분의 몇" 이라는 개념이 적용가능한 scale.

  • A scale with a true zero point—ratios are meaningful.
  • Allow us to use phrases such as “half as much”.
몸무게를 예로 들 수 있다.

질량과 나이가 ratio scale로, 0kg은 질량이 없음을 나타내고 나이 0세는 태어나지 않음을 나타냄.

Ratio scale은 절대적 0이 존재하여 0이 해당 feature의 존재가 없을 의미해야 multiple이 의미를 가짐.

절대적 0은 feature의 부재를 의미하며 이는 multiple을 해도 0이 되며, 값이 존재시 x-multiple(x배)라는 비례관계가 성립하게 됨.

(임의로 정한 0을 사용하는 섭씨는 20 도가 40도가 되었다고 해서 2배의 열에너지를 가지는 것을 의미하지 않음)

 

참고로 절대온도 kelvin은 ratio scale임.


참고: 기계학습

기계학습 관점에서 Nominal과 Ordinal은 encoding 처리가 필요함 (Nominal scale은 반드시 해야한다).

interval scale과 ratio scale은 보통의 float를 사용하는 numeric feature로 취급하는게 일반적임.

 

참고로 scikit-learn의 OrdinalEncoder에서 특정 값의 순서를 정하고 싶다면
생성자에 categories 파라미터를 통해 할당받고자하는 번호순으로 element가 놓인 list를 넘기면 된다.

(기본은 알파벳 순임)

from sklearn.preprocessing import OrdinalEncoder
import numpy as np

X = np.array([
    ["low", "A"],
    ["medium", "B"],
    ["high", "C"],
])

enc = OrdinalEncoder(categories=[
    ["low", "medium", "high"],  # 첫 번째 feature의 순서
    ["C", "B", "A"]             # 두 번째 feature의 순서
])

print(enc.fit_transform(X)) 
# 출력은 다음과 같음.
#[[0. 2.]
# [1. 1.]
# [2. 0.]]

같이 보면 좋은 자료

2024.05.02 - [분류 전체보기] - [Statistics] Examples: Scale of Measurements

 

[Statistics] Examples: Scale of Measurements

 

dsaint31.tistory.com

 

728x90

'... > Math' 카테고리의 다른 글

[Math] Differential Equation 용어.  (0) 2023.04.17
[Math] Mean : Measures of Central Tendency  (0) 2023.04.13
[Math] Binomial Distribution (이항분포)  (0) 2023.03.14
[Math] Random Variable  (0) 2023.03.09
[Math] Taylor Expansion and Taylor Theorem (테일러 전개)  (0) 2023.02.27
'.../Math' 카테고리의 다른 글
  • [Math] Differential Equation 용어.
  • [Math] Mean : Measures of Central Tendency
  • [Math] Binomial Distribution (이항분포)
  • [Math] Random Variable
dsaint31x
dsaint31x
    반응형
    250x250
  • dsaint31x
    Dsaint31's blog
    dsaint31x
  • 전체
    오늘
    어제
    • 분류 전체보기 (787)
      • Private Life (15)
      • Programming (206)
        • DIP (116)
        • ML (35)
      • Computer (120)
        • CE (54)
        • ETC (33)
        • CUDA (3)
        • Blog, Markdown, Latex (4)
        • Linux (9)
      • ... (368)
        • Signals and Systems (115)
        • Math (176)
        • Linear Algebra (33)
        • Physics (43)
        • 인성세미나 (1)
      • 정리필요. (61)
        • 의료기기의 이해 (6)
        • PET, MRI and so on. (7)
        • PET Study 2009 (1)
        • 방사선 장해방호 (5)
        • 방사선 생물학 (3)
        • 방사선 계측 (9)
        • 기타 방사능관련 (3)
        • 고시 (9)
        • 정리 (18)
      • RI (0)
      • 원자력,방사능 관련법 (2)
  • 블로그 메뉴

    • Math
    • Programming
    • SS
    • DIP
  • 링크

    • Convex Optimization For All
  • 공지사항

    • Test
    • PET Study 2009
    • 기타 방사능관련.
  • 인기 글

  • 태그

    random
    opencv
    signal_and_system
    SS
    Python
    numpy
    ML
    Probability
    Optimization
    math
    function
    Vector
    Programming
    signals_and_systems
    linear algebra
    fourier transform
    cv2
    인허가제도
    Term
    SIGNAL
  • 최근 댓글

  • 최근 글

  • hELLO· Designed By정상우.v4.10.3
dsaint31x
[Math] Type of Data and Scale of Measurement
상단으로

티스토리툴바