“데이터 세트”란 정확히 무엇을 의미합니까?


10

데이터 포인트의 집계입니까? 아니면 다른 변수의 값으로 정렬 된 표 형식으로 다른 요소에 대한 데이터 요소를 표시합니까? 원시 데이터와 어떻게 다릅니 까?


"데이터 포인트"란 무엇을 의미합니까? 최소 2D 일 것으로 예상하십니까? 시계열 또는 일련의 시험 점수는 데이터 세트가 될 수 있습니다. 최소한 행 레이블이없는 하나의 변수로 직렬화 될 수 있습니다. 의해 답변을 @FranckDernoncourt
smci

1
정말 데이터 수집이라고 생각합니다. 그것이 제가이 용어를 사용하는 방식입니다. 나는 이것에 너무 많은 것이 없다고 생각합니다. 데이터가 "미가공"인지, 전처리 또는 청소되는지 등은 직교입니다.
gung-Monica Monica 복원

답변:


9

내 경험상 "데이터 세트"(또는 "데이터 세트")는 데이터 모음을 나타내는 비공식 용어입니다. 일반적으로 데이터 세트는 둘 이상의 변수를 포함하며 단일 주제와 관련이 있습니다. 단일 샘플과 관련이 있습니다.

Cross Validated 질문의 작성자가 종종 "데이터 세트"를 "가변"또는 "벡터"의 동의어로 사용하는 것은 실수입니다.


3
데이터 세트 대 변수 또는 벡터에 대해 동의했습니다. "데이터가 있습니다"와 같이 "데이터"를 시작하지 마십시오. 반대로, "데이터 집합이 있습니다"는 데이터 가 복수형 이라고 주장하는 사람들을 자극하거나 그러한 주장을 전혀 생각하지 않는 사람들을 자극한다고 생각하는 사람들을 자극하는 방법 중 하나를 자극하지 않는 훌륭한 방법 입니다.
Nick Cox

3
@NickCox "데이터"에 대한 문법 전쟁에서 나는 "데이터"가 대량 명사라고 주장하는 가장 인기있는 파벌에있다.
Kodiologist

3
나는 그것이 지금 과반수이며 그것이 점점 인기를 얻고 있다고 생각합니다.
Nick Cox

8

나는 Wikipedia 가 그것을 정의하는 데 알맞은 일을 한다고 생각 합니다.

가장 일반적으로 데이터 세트는 단일 데이터베이스 테이블 또는 단일 통계 데이터 매트릭스의 컨텐츠에 해당하며, 테이블의 모든 열은 특정 변수를 나타내며 각 행은 해당 데이터 세트의 주어진 멤버에 해당합니다. 데이터 세트에는 데이터 세트의 각 멤버에 대한 객체의 높이 및 무게와 같은 각 변수의 값이 나열됩니다. 각 값을 데이텀이라고합니다. 데이터 세트는 행의 수에 대응하는 하나 이상의 멤버에 대한 데이터를 포함 할 수있다.

용어 데이터 세트는 또한 특정 실험 또는 이벤트에 대응하여 밀접하게 관련된 테이블의 수집에서 데이터를 지칭하기 위해 더 느슨하게 사용될 수있다. 이 유형의 예는 우주 기관이 우주 탐사선에 탑승 한 기기로 실험을 수행하여 수집 한 데이터 세트입니다.

공개 데이터 분야에서 데이터 세트는 공개 공개 데이터 저장소에서 공개 된 정보를 측정하는 단위입니다. 유럽 ​​개방형 데이터 포털은 50 만 개 이상의 데이터 집합을 집계합니다. 이 분야에서 다른 정의가 제안되었지만 현재 공식적인 정의는 없습니다. 다른 문제 (실시간 데이터 소스, 비 관계형 데이터 세트 등)는 이에 대한 합의에 도달하기가 어렵습니다.

보시다시피 용어는 다소 모호합니다.


컴퓨터 비전 설정에서 데이터 세트는 자연스러운 이미지와 레이블 또는 주석의 모음 일 수 있습니다.
Sycorax는 Reinstate Monica가

"데이터베이스 *"의 의미
ankit


@Sycorax 네, 데이터베이스에서 하나의 이미지 (또는 다른 신호)를 하나의 얼룩 데이터로 간주 할 수 있습니다.
Franck Dernoncourt 5

7

데이터 세트를 정의하기 전에 데이터 포인트 를 정의해야 할 수도 있습니다 . 왜 하나의 기본 요소이고 정의가 필요하지 않지만 그 반대의 이유는 무엇입니까?

적어도 두 가지 정의가 의미가 있습니다.

  1. 하나 이상의 변수 (필드, 열)에 대한 하나 이상의 관찰 (케이스, 레코드, 행).

  2. 선택한 프로그램이 읽을 수있는 파일 내에 데이터로 저장되는 것.

테이블 형식 레이아웃은 일반적이지만 정의의 일부라고 생각하지 않습니다. 데이터가 저장되는 방식은 실제로 자연스럽게 중요 할 수 있습니다.

추신 : "포맷"이라는 단어가 너무 과부하되어 명확하게 지정되지 않는 한 피하는 것이 가장 좋습니다. 나는 그것을 사용하는 것을 보았다

  1. 일반 또는 특정 텍스트 또는 이진 파일 형식

  2. 데이터 구조, 예 : 테이블 또는 기타

  3. 데이터 저장 또는 변수 유형 (예 : 비트, 정수, 실수, 문자)

  4. 프리젠 테이션을 제어하는 ​​디스플레이 형식, 예 : 소수점 이하 자릿수에 대한 세부 사항; 10 진수, 16 진수 또는 2 진 표시.


6

이 여기에 좋은 답변이 이미 나는 내가 어떤 깊은 닉 콕스 나 프랑크 Dernoncourt "데이터 세트"는를 의미하는지 여부의 문제보다 더 침투 수 있다고 생각하지 않습니다 개념 수집 , 또는에 관련 데이터의 특정 배열 그 데이터 등의로 테이블 / 매트릭스 또는 컴퓨터 판독 가능 파일. Franck의 추출물은 지속적으로 수집 된 데이터 또는 여러 테이블에 분산 된 데이터와 같은 최첨단 사례를 언급하며, 간단한 정의가있을 것으로 생각되는 경우 염두에 두어야합니다. (모든 통계 소프트웨어가이를 처리 할 수있는 것은 아니지만 데이터가 여러 테이블이 있는 관계형 데이터베이스에 저장된 경우를 상상하기가 매우 쉽습니다 . 전체 데이터베이스가 단일 "데이터 세트"입니까?)

그래도 추가 할 것은 데이터 세트가 수학적으로 일반적으로 설정되지 않는다는 것입니다! Sensu stricto 는 세트에 객체를 포함하거나 포함하지 않지만 해당 객체의 사본을 두 개 이상 포함 할 수 없습니다. I는 다이 여덟 번 감아 점수 경우 1, 4, 3, 5, 5, 4, 6, 4는 다음 세트 압연 점수 단지 {1, 3, 4, 5, 6}. 요소는 순서에 관계없이 값을 오름차순으로 작성했지만 {5, 4, 1, 6, 3} 집합은 수학적으로 요소와 동일합니다. 이것은 우리가 일반적으로 데이터 세트가 의미하는 것이 아닙니다!

MULTISET (또는 가방 )이므로 {1과 동일, 항목 예는 {1, 4, 3, 5, 5, 4, 6, 4} 참고 비록 이것이 여전히 순서 느낌을 포함하지 않는 반복 될 수 있도록 3, 4, 4, 4, 5, 5, 6}. "dataset"의 "set"은 "multiset"으로 읽는 것이 가장 좋습니다. 또한 순서를 유지하려면 대신 벡터를 사용할 수 있습니다. (1, 4, 3, 5, 5, 4, 6, 4)는 (1, 3, 4, 4, 4, 5, 5, 6). 이 순서는 일종의 식별자 역할을 할 수있는 색인을 제공합니다. 예를 들어 "어떤 것이 4입니까?" — 종종 자연적인 시간적 또는 지리적 순서로 관측치를 기록하는 목적을 제공합니다. 과 같은 공식을 볼 때엑스¯=1나는=1엑스나는엑스1엑스2

그러나 벡터는 하나의 변수 만 기록하기위한 것입니다. 여러 변수의 경우 순서를 유지하면서 행렬을 사용하여 표를 작성하는 것이 더 편리 할 수 ​​있습니다. 시간이 지남 에 따라 3 차원 복셀 그리드의 속성을 측정하는 것과 같은보다 복잡한 상황의 경우 데이터를 텐서에 배치하는 것으로 이동할 수도 있습니다 (예 : 이 질문 참조 ).

그러나 개념 상 다중 집합은 실제 목적에 불편하더라도 대부분의 간단한 상황에서 충분할 수 있습니다. 주사위를 굴리는 동시에 동전을 던지고 두 결과를 함께 기록하려면 {(1, H), (3, T), (4, H), (4, H와 같은 다중 집합을 사용할 수 있습니다 ), (4, T), (5, H), (5, T), (6, T)} 대신 행렬. 예를 들어 (4, H)의 다중성을 계산하지 않기 때문에 일반 세트로는 충분하지 않습니다.


1
데이터 세트가 주름이있는 일련의 관측치라는 아이디어를 구입할 수 있었으며,이를 구별하기 위해 식별자가 필요할 수 있습니다. 그러나 여러분은 여기서 의미가 정해진 이론과는 약간 거리가 있다는 것이 옳습니다. 여기에서 암시 하듯이, 관측 순서는 종종 결정적이며 항상 그렇지는 않지만 시간이나 다른 순서 변수에 의해 주어질 것임을 강조하십시오.
Nick Cox

@NickCox (+1) 실제로, 아직 시간을 알지 못하고 표현하는 방법은 관측에 종종 식별자, 때로는 시간적, 때로는 위치 기반, 때로는 둘 다가 있다는 것입니다. 데이터를 벡터, 행렬 또는 텐서로 인코딩 할 때 종종 원하는 구조를 직접 제공하며 특히 하드 코딩 된 인덱스와 같은 명시 적 식별자는 불필요하게 렌더링 될 수 있습니다. 특히 순서 또는 상대 위치 만 중요하다면. 의심 할 여지없이이 모든 것에 대한 올바른 용어가 있습니다.
Silverfish

나는 그 순서가 중요하지 않다고 말하는 데 아무런 문제가 없습니다. 단일 변수가 없습니다. 측정 시간과 함께 X- 값이 쌍을 이루는 경우 순서가 중요합니다. 그러나 점을 다차원으로 생각할 수 있으며 다차원 데이터 집합의 순서는 다시 중요하지 않습니다. 또한 실제로 두 개의 5를 고유하게 만드는 암시 적 식별자가 있다고 생각하는 데 문제가 없습니다.
gung-Monica Monica 복원

@ gung 나는 시간이나 일련의 순서가 암시적인 데이터 세트를 생각하고있었습니다. 나는 명백한 순서 변수를 갖지 않는 것이 좋지 않은 습관이고 이제는 불필요하다고 말하지만 그러한 순서 변수가 없다고해서 데이터 세트가 될 수는 없습니다. 사실 1970 년대에 나는 내 자신의 포트란 프로그램이 사소한 것이 아닌 하나의 입력 작업을 불필요하게 만들었 기 때문에 내재적 식별자로 공간 시리즈를 일상적으로 처리 할 것이다.
Nick Cox

@NickCox, 괜찮습니다. 나는 그 경우에 order 변수가 암시 적이라고 말하지만 여전히 의미가 있습니다.
gung-Monica Monica 복원
당사 사이트를 사용함과 동시에 당사의 쿠키 정책개인정보 보호정책을 읽고 이해하였음을 인정하는 것으로 간주합니다.
Licensed under cc by-sa 3.0 with attribution required.