데이터 포인트의 집계입니까? 아니면 다른 변수의 값으로 정렬 된 표 형식으로 다른 요소에 대한 데이터 요소를 표시합니까? 원시 데이터와 어떻게 다릅니 까?
데이터 포인트의 집계입니까? 아니면 다른 변수의 값으로 정렬 된 표 형식으로 다른 요소에 대한 데이터 요소를 표시합니까? 원시 데이터와 어떻게 다릅니 까?
답변:
내 경험상 "데이터 세트"(또는 "데이터 세트")는 데이터 모음을 나타내는 비공식 용어입니다. 일반적으로 데이터 세트는 둘 이상의 변수를 포함하며 단일 주제와 관련이 있습니다. 단일 샘플과 관련이 있습니다.
Cross Validated 질문의 작성자가 종종 "데이터 세트"를 "가변"또는 "벡터"의 동의어로 사용하는 것은 실수입니다.
나는 Wikipedia 가 그것을 정의하는 데 알맞은 일을 한다고 생각 합니다.
가장 일반적으로 데이터 세트는 단일 데이터베이스 테이블 또는 단일 통계 데이터 매트릭스의 컨텐츠에 해당하며, 테이블의 모든 열은 특정 변수를 나타내며 각 행은 해당 데이터 세트의 주어진 멤버에 해당합니다. 데이터 세트에는 데이터 세트의 각 멤버에 대한 객체의 높이 및 무게와 같은 각 변수의 값이 나열됩니다. 각 값을 데이텀이라고합니다. 데이터 세트는 행의 수에 대응하는 하나 이상의 멤버에 대한 데이터를 포함 할 수있다.
용어 데이터 세트는 또한 특정 실험 또는 이벤트에 대응하여 밀접하게 관련된 테이블의 수집에서 데이터를 지칭하기 위해 더 느슨하게 사용될 수있다. 이 유형의 예는 우주 기관이 우주 탐사선에 탑승 한 기기로 실험을 수행하여 수집 한 데이터 세트입니다.
공개 데이터 분야에서 데이터 세트는 공개 공개 데이터 저장소에서 공개 된 정보를 측정하는 단위입니다. 유럽 개방형 데이터 포털은 50 만 개 이상의 데이터 집합을 집계합니다. 이 분야에서 다른 정의가 제안되었지만 현재 공식적인 정의는 없습니다. 다른 문제 (실시간 데이터 소스, 비 관계형 데이터 세트 등)는 이에 대한 합의에 도달하기가 어렵습니다.
보시다시피 용어는 다소 모호합니다.
데이터 세트를 정의하기 전에 데이터 포인트 를 정의해야 할 수도 있습니다 . 왜 하나의 기본 요소이고 정의가 필요하지 않지만 그 반대의 이유는 무엇입니까?
적어도 두 가지 정의가 의미가 있습니다.
하나 이상의 변수 (필드, 열)에 대한 하나 이상의 관찰 (케이스, 레코드, 행).
선택한 프로그램이 읽을 수있는 파일 내에 데이터로 저장되는 것.
테이블 형식 레이아웃은 일반적이지만 정의의 일부라고 생각하지 않습니다. 데이터가 저장되는 방식은 실제로 자연스럽게 중요 할 수 있습니다.
추신 : "포맷"이라는 단어가 너무 과부하되어 명확하게 지정되지 않는 한 피하는 것이 가장 좋습니다. 나는 그것을 사용하는 것을 보았다
일반 또는 특정 텍스트 또는 이진 파일 형식
데이터 구조, 예 : 테이블 또는 기타
데이터 저장 또는 변수 유형 (예 : 비트, 정수, 실수, 문자)
프리젠 테이션을 제어하는 디스플레이 형식, 예 : 소수점 이하 자릿수에 대한 세부 사항; 10 진수, 16 진수 또는 2 진 표시.
이 여기에 좋은 답변이 이미 나는 내가 어떤 깊은 닉 콕스 나 프랑크 Dernoncourt "데이터 세트"는를 의미하는지 여부의 문제보다 더 침투 수 있다고 생각하지 않습니다 개념 수집 , 또는에 관련 데이터의 특정 배열 그 데이터 등의로 테이블 / 매트릭스 또는 컴퓨터 판독 가능 파일. Franck의 추출물은 지속적으로 수집 된 데이터 또는 여러 테이블에 분산 된 데이터와 같은 최첨단 사례를 언급하며, 간단한 정의가있을 것으로 생각되는 경우 염두에 두어야합니다. (모든 통계 소프트웨어가이를 처리 할 수있는 것은 아니지만 데이터가 여러 테이블이 있는 관계형 데이터베이스에 저장된 경우를 상상하기가 매우 쉽습니다 . 전체 데이터베이스가 단일 "데이터 세트"입니까?)
그래도 추가 할 것은 데이터 세트가 수학적으로 일반적으로 설정되지 않는다는 것입니다! Sensu stricto 는 세트에 객체를 포함하거나 포함하지 않지만 해당 객체의 사본을 두 개 이상 포함 할 수 없습니다. I는 다이 여덟 번 감아 점수 경우 1, 4, 3, 5, 5, 4, 6, 4는 다음 세트 압연 점수 단지 {1, 3, 4, 5, 6}. 요소는 순서에 관계없이 값을 오름차순으로 작성했지만 {5, 4, 1, 6, 3} 집합은 수학적으로 요소와 동일합니다. 이것은 우리가 일반적으로 데이터 세트가 의미하는 것이 아닙니다!
MULTISET (또는 가방 )이므로 {1과 동일, 항목 예는 {1, 4, 3, 5, 5, 4, 6, 4} 참고 비록 이것이 여전히 순서 느낌을 포함하지 않는 반복 될 수 있도록 3, 4, 4, 4, 5, 5, 6}. "dataset"의 "set"은 "multiset"으로 읽는 것이 가장 좋습니다. 또한 순서를 유지하려면 대신 벡터를 사용할 수 있습니다. (1, 4, 3, 5, 5, 4, 6, 4)는 (1, 3, 4, 4, 4, 5, 5, 6). 이 순서는 일종의 식별자 역할을 할 수있는 색인을 제공합니다. 예를 들어 "어떤 것이 4입니까?" — 종종 자연적인 시간적 또는 지리적 순서로 관측치를 기록하는 목적을 제공합니다. 과 같은 공식을 볼 때
그러나 벡터는 하나의 변수 만 기록하기위한 것입니다. 여러 변수의 경우 순서를 유지하면서 행렬을 사용하여 표를 작성하는 것이 더 편리 할 수 있습니다. 시간이 지남 에 따라 3 차원 복셀 그리드의 속성을 측정하는 것과 같은보다 복잡한 상황의 경우 데이터를 텐서에 배치하는 것으로 이동할 수도 있습니다 (예 : 이 질문 참조 ).
그러나 개념 상 다중 집합은 실제 목적에 불편하더라도 대부분의 간단한 상황에서 충분할 수 있습니다. 주사위를 굴리는 동시에 동전을 던지고 두 결과를 함께 기록하려면 {(1, H), (3, T), (4, H), (4, H와 같은 다중 집합을 사용할 수 있습니다 ), (4, T), (5, H), (5, T), (6, T)} 대신 행렬. 예를 들어 (4, H)의 다중성을 계산하지 않기 때문에 일반 세트로는 충분하지 않습니다.