메이크업 데이터를위한 최고의 용어?

23

예제를 작성 중이며 일부 데이터를 구성했습니다. 나는 이것이 실제 데이터가 아니라는 것을 독자에게 분명히하고 싶지만, 단지 악의에 대한 인상을주고 싶지 않습니다.

이 특정 데이터에 (의사) 임의의 구성 요소가 없으므로 '시뮬레이션 된'이 적합하지 않은 것으로 보입니다. 허구 또는 조작이라고하면 허위 데이터에 대한 인상을 주나요? '만들기'는 과학적 맥락에 맞는 단어입니까?

시뮬레이션되지 않은 구성 데이터에 대한 통계 문헌의 용어는 무엇입니까?

terminology synthetic-data

9

몇 가지 답변에 분산 된 설명을 추가하기 만하면됩니다. "합성"은 가능한 현실적으로 보이도록 구성된 데이터를 만들기에 좋은 단어이며 "mock up"은 무언가를 보여주기 위해 만들어진 데이터를 나타냅니다. 예를 들어 "모의"데이터에는 특이 치를 올바르게 처리하는 것이 얼마나 중요한지를 보여주기 위해 터무니없는 특이 치가 포함될 수 있습니다.

— Cort Ammon-

저는 개인적으로 "시뮬레이션"이라는 용어를 선호하고 통계 문헌에서 가장 많이 접했습니다 (즉, "모델과 X, Y, Z 비교를 위해 시뮬레이션을 수행했습니다 ..."

— Samir Rachid Zaim

45

아마도이 "합성"또는 "인공"데이터라고 할 수도 있지만 "시뮬레이션"이라고도 할 수 있습니다 (시뮬레이션은 매우 간단합니다).

— 루이스 시알 델라
소스

30

"장난감 데이터", "장난감 예제"및 "더미 데이터"가 들립니다. 또한 "시뮬레이션 된"은 임의의 숫자가없는 경우에도 잘 맞을 수 있음에 동의합니다.

— rolando2

7

"예시 데이터"또는 "예시 데이터"도 작동 할 수 있음

— Henry

8

+1 ' 합성 데이터 '와 ' 장난감 예제 '는 상황이 발생하면 '구성된 예제'와 같이 내가 사용할 수있는 용어입니다. 때때로 나는 "예시 적 예"또는 이와 유사한 것을 말하는데, 특히 그 예가 특정한 특징들을 갖도록 명시 적으로 구성되었을 때 (예를 들어, 어떤 잘못된 개념에 대한 반례로서 설계 될 때).

— Glen_b-복지국 Monica

1

장난감 데이터 ( 인공 또는 시뮬레이션 없이 )를 사용하여 무언가를 "악용"하는 실제 (측정 된) 데이터 세트 에 사용하는 경향이 있습니다 .

— cbeleites는

1

응용 프로그램에 따라 무엇이 가장 잘 작동하는지에 따라 다릅니다. 예를 들어, "가짜"데이터로 프로젝트를 수행하고 있지만 프로젝트의 다른 부분에는 컴퓨터 모델 시뮬레이션이 사용됩니다. 따라서 독자가 가짜 데이터를 "시뮬레이션 된"이라고 말하는 것은 혼란 스러울 수 있습니다. 그래서 나는 "인공적인"에 의존해 왔으며 때로는 데이터를 "제조 된"것으로 묘사합니다. 나는 개인적으로이 용어가 데이터가 다른 데이터 소스 (예 : 데이터 A와 데이터 B의 "합성")의 조합이라는 것을 암시하는 "합성"을 피할 것이다.

— Ceph

12

프랜시스 앤스 콤브 (Francis Anscombe)라는 용어가 현재 유명한 사중주 를 설명하는 데 사용되기 때문에 데이터를 가상의 것으로 간주 하려면 좋은 회사에 속해야 합니다.

FJ Anscombe (1973). " 통계 분석 그래프 ", Am. 통계 27 (1) :

이러한 점 중 일부는 표에 표시된 11 개의 (x, y) 쌍으로 구성된 4 개의 가상 데이터 세트로 표시됩니다.

그러나 내 OED (v4)가 가상의 사용이 더 이상 사용되지 않음을 나타내는 것처럼 귀하의주의가 잘 놓여 있다고 생각합니다.

가상 의 a.

(fɪkˈtɪʃəs)

[에프. L. fictīci-us (f. fingĕre to fashion, feign) + -ous : -itious 참조.]

1.1 † a.1.a 자연과 반대되는 인공 (obs.). b.1.b 위조, '모방', 가짜; 정품이 아닙니다.

— 악셀
소스

가독성 측면에서 첫 번째 제안 및 의견이 훨씬 더 나은 대안입니다. 드문 복잡한 단어를 사용할 필요가 없습니다.

— 팀

1

@Tim : 동의하고 싶지만, 내가 동의 할 내용이 무엇인지 확실하지 않습니다. 이전 에도 비슷한 맥락에서 사용되었지만 가상 은 나쁜 선택이 될 것이라고 말하고 있습니까? 그것이 내가 말하는 것입니다.

— AkselA

7

IT에서는 종종 목업 데이터 라고 하며 목업 (애플리케이션)을 통해 제공 할 수 있습니다.

모형 데이터는 또한 예를 들어 제어 된 방식으로 애플리케이션의 기능을 테스트하기 위해 완전한 기능의 애플리케이션을 통해 제공 될 수있다.

— 에릭
소스

5

좋은 지적이지만, 모형 데이터와 시뮬레이션 데이터가 정확히 동일하지 않다고 생각합니다. 단위 테스트를위한 모형 데이터를 생성 할 때는 실제 데이터의 일부 기본 속성 만 보존해야하며 통계 분석에 시뮬레이션 된 데이터를 사용할 때는 일반적으로보다 복잡한 데이터 예제를 사용합니다.

— 팀

2

그래도 ErikE가 정확하다고 생각합니다. 분석 코드를 작성할 때 실제 또는 모의 데이터가 필요합니다. 모의 데이터는 원하는만큼 클 수 있습니다.

— Mathijs Segers

1

용어 사용에 따라 실습이 다를 수 있습니다. 많은 테스트 및 분석을 위해 보안 및 익명 성으로 인해 "제거 된"실시간 데이터를 사용합니다. 다른 사람들에게는 팀이 설명하는 것처럼 베어 본 데이터를 만듭니다. 나는 강한 의견이 없지만 모형이라는 용어를 아주 느슨하게 사용합니다.

— ErikE

3

"합성 데이터"라는 용어에 대한 반복적 인 제안을 보았습니다. 그러나이 용어는 광범위하게 사용되며 표현하려는 내용과는 매우 다른 의미를 갖습니다. https://en.wikipedia.org/wiki/Synthetic_data

일반적으로 받아 들여지는 과학 용어가 확실하지 않지만 "예제 데이터"라는 용어는 이해하기 어려운 것 같습니다.

— 찌그러짐
소스

1

이 기사는 약간 혼란스러워 보입니다. 익명화와의 관계는 매우 미약합니다.

— 매트 크라우스

+1이지만 이전 의견에 동의합니다. 두 번째 단락 (합성 데이터는 익명 데이터의 한 유형이라고 말함)을 제외하고 Wikipedia 기사의 나머지 부분은 질문자가 원하는 것을 설명하는 것 같습니다. 즉, 현실감있는 메이크업 데이터입니다.

— 대런 쿡

3

나는 '가짜 데이터'라는 용어에 상당한 금액이 발생했습니다. 나는 그것이 부정적인 의미를 가질 수 있다고 생각하지만, 그것이 나를 위해 전혀 부정적으로 등록하지 않을 정도로 자주 들었습니다.

FWIW, Andrew Gelman도 다음을 사용합니다.

https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/

https://statmodeling.stat.columbia.edu/2019/03/23/yes-i-real-really-really-really-like-fake-data-simulation-and-i-cant-stop-talking-about-it/

https://books.google.dk/books?id=lV3DIdV0F9AC&pg=PA155&lpg=PA155&dq=fake+data+simulation&source=bl&ots=6ljKB6StQ4&sig=ACfU3U17GLP_84q_HfIQB4u5O6wV0yA2Aw&hl=en&sa=X&ved=2ahUKEwiF2_eB0uvjAhWswcQBHSn5Cn04ChDoATAAegQICRAB#v=onepage&q=fake%20data%20simulation&f=false

'가짜 데이터'에 대한 빠른 Google 검색은 비슷한 용어를 사용하는 것처럼 보이는 많은 결과를 나타냅니다.

https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/

http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html

https://clayford.github.io/dwir/dwr_12_generating_data.html

그리고 fakeR패키지가 있습니다.이 패키지는 비교적 일반적입니다 : https://cran.r-project.org/web/packages/fakeR/fakeR.pdf

— mkt-복원 모니카
소스

2

데이터를 사용하는 방식에 따라 다른 단어를 사용합니다. 구성 데이터 세트가 놓여 있고 확인 알고리즘으로 알고리즘을 지적한 경우 "합성"이라는 단어는 괜찮습니다.

그러나 종종이 유형의 데이터를 사용할 때마다 알고리즘의 기능을 과시하려는 의도로 데이터를 발명했습니다. 다시 말해, 나는 "좋은 결과"를 얻기위한 특정 목적을 위해 데이터를 발명했습니다. 그러한 상황에서 나는 데이터에 대한 나의 기대치에 대한 설명과 함께 "contrived"라는 용어를 좋아한다. 이것은 내가 거짓말을 한 임의의 합성 데이터 세트에서 알고리즘을 지적했다고 생각하는 사람이 실수하기를 원하지 않기 때문에 실제로 잘 작동했습니다. 알고리즘을 제대로 작동시키기 위해 실제로 선택한 데이터 (실제로 만드는 시점까지)를 가지고 있다면 그렇게 말합니다. 그러한 결과는 내 알고리즘이 할 수 있다는 증거를 제공하기 때문입니다잘 작동하지만 알고리즘이 일반적으로 잘 작동 할 것으로 예상 할 수있는 매우 약한 증거 만 제공합니다 . "contrived"라는 단어는 "우수한 결과"를 염두에두고 데이터를 우선적으로 선택했다는 사실을 잘 요약합니다.

" 사기 데이터 의 인상을 주는가?"

아니,하지만, 어떤 데이터 세트의 소스와 명확히하는 것이 중요합니다 귀하의 모든 데이터 세트에 결과를보고 할 때 실험자 등의 사전 기대. "사기" 라는 용어 에는 무언가를 덮거나 완전히 거짓말을 한 양상이 명시 적으로 포함됩니다. 과학에서 사기 행위를 피하는 # 1 방법은 단순히 데이터의 특성과 기대에 대해 정직 하고 솔직한 것입니다. 다시 말해서, 데이터가 제조되고 어떤 식 으로든 말을 하지 않으면 데이터가 제조되지 않았거나 더 나쁘게 데이터가 가공되지 않은 정렬로 수집된다고 주장 하는 경우가 있습니다 방법을, 그 다음은 이다"사기". 그렇게하지 마십시오. "합성"과 같이 "보다 잘 들리다"라는 "조립 된"이라는 용어에 동의어를 사용하려는 경우 아무도 당신을 잘못 생각하지는 않지만 동시에 다른 사람이 당신을 제외하고는 그 차이를 느끼지 못할 것이라고 생각합니다.

참고 사항 :

실제로 사후 설명 인 선험적 기대가 있다고 주장하는 상황은 덜 분명하다 . 이것은 또한 부정한 데이터 분석입니다.

알고리즘의 기능을 "보여주는"의도로 데이터를 선택하면 합성 데이터의 경우가 종종 있습니다.

이것이 사실 인 이유를 명확히하기 위해, "정상적인"과학적 방법이 다음과 같이 작동한다는 것을 고려하십시오 : 1) 모집단 가 선택됨 2) 가설 가 결정됨 3) 가 (또는 ). 과학 은 이 좁은 정의 내 에서 작동 할 필요는 없지만 이것이 "확인"분석이라고하며 일반적으로 제공 할 수있는 가장 강력한 증거로 간주됩니다. 사건의 순서는 증거의 강도와 관련이 있기 때문에 구체적으로 기록하는 것이 중요합니다. $D$ $H$ $H$ $D$ $D$

가설 1) : 특히, "인위적인"데이터의 경우에는, 처리는 종종 이상과 같이 동작 2) 인구, 잉태 3), 선택 대하여 시험 . 예를 들어 알고리즘을 테스트하는 경우 합성 데이터 세트를 발명하기 전에 새롭고 멋진 알고리즘이 "좋은 일을한다"는 가설이 생길 수 있습니다. 이 경우에는 언급해야합니다. 은 적어도 당신은 안 그 독자를 이끌 것이기 때문에,에 "확증"방식으로 일어난 사건은 증거가 실제보다 더 강한 것으로 결론을 목적으로 제정 된 것이다. $H$ $D$ $H$ $D$

당신이 한 일에 대해 정직 하고 솔직한 한 ,이 작업에는 아무런 문제가 없습니다 . "좋은 결과"를 제공하는 데이터 집합을 만드는 데 어려움을 겪었다면 그렇게하십시오. 독자에게 데이터 분석에서 취한 단계를 알리는 한, 가설에 대한 증거를 효과적으로 평가하는 데 필요한 정보가 있습니다. 당신이 정직 하지 않거나 직설적 이지 않으면 , 당신의 증거가 실제보다 강하다는 인상을 줄 수 있습니다. 증거를 실제보다 강하게 보이기 위해 정직 하고 솔직 하지 않은 경우 , 실제로는 사기입니다.

어쨌든, 이러한 데이터 세트에 대해 "고려 된"이라는 용어를 선호하고 가설을 염두에두고 선택되었다는 간단한 설명을 선호하는 이유가 여기에 있습니다. "고려"는 합성 데이터 세트를 만들었을뿐만 아니라 데이터 세트를 만들기 전에 내 가설이 이미 존재했다는 사실을 반영하는 특별한 의도로 그렇게했다는 의미를 전달합니다.

예를 들어 설명하기 위해 : 임의의 시계열 분석을위한 알고리즘을 만듭니다. 시계열을 가리킬 때이 알고리즘이 "좋은 결과"를 제공 할 것이라고 가정합니다. 이제 다음 두 가지 가능성을 고려하십시오. 1) 알고리즘이 잘 수행 할 것으로 예상되는 일종의 합성 데이터를 작성합니다. 이 데이터를 분석하면 알고리즘이 제대로 작동합니다. 2) 일부 합성 데이터 세트 는 사용할 수 없기 때문에 사용할 수 있습니다. 이 데이터를 분석하면 알고리즘이 제대로 작동합니다. 이 두 상황 중 어느 것이 알고리즘이 임의의 시계열에서 잘 수행된다는 더 좋은 증거를 제공합니까? 분명히 옵션 2입니다. 그러나 옵션 1 또는 옵션 2에서 "알고리즘 적용했다"는 것은 쉽게보고 할 수 있습니다 $A$ 합성 데이터 세트 . 결과는 그림 표시됩니다 . "문맥이없는 경우 독자 는 옵션 1의 경우 그렇지 않은 경우 이러한 결과가 확인 적이라고 가정 (옵션 2) 한다고 가정 할 수 있습니다 . 따라서 독자는 옵션을 가지고 있습니다 1, 증거가 실제보다 강하다는 인상을 받았습니다. $D$ $x.y$

tl; dr

"합성", "구상 된", "조립 된", "가상"등 원하는 용어를 사용하십시오. 그러나 사용하는 용어로는 결과가 오도되지 않도록하기에 충분하지 않습니다 . 데이터에 대한 기대치 및 선택한 데이터를 선택한 이유를 포함하여 데이터가 어떻게 발생했는지에 대해 보고서에서 명확하게 확인하십시오.

— 스캇
소스

여기에 대한 답변이 겹치고 거의 모든 것이 좋은 점을 만들지 만, 나는이 용어가 모든 독자에게 데이터 구성 의 의도를 전달하지 않을 것이라는 핵심 요점을 가장 잘 전달한다고 생각 합니다. 그 이유는 게으름 (불쌍한 소개문)을 통한 목적을 위해 필수적 일뿐 아니라 필수적인 것에서부터 부정 행위 및 사기에 이르기까지 다양합니다. 왜 그렇게 오래하고 있는지 설명하는 것이 좋습니다.

— 닉 콕스

... 이유 ...

— Nick Cox

1

우선, 이것을 "데이터 셋"이라고 부를 이유가 없습니다. "가짜"대 "시뮬레이트 된"대 ... 데이터에 대해 보편적으로 합의 된 용어는 없습니다. 목표가 완전히 명확 해지려면이 데이터 세트가 무엇인지 검증하기 위해 단어 대신 문장을 실제로 사용하는 것이 가장 좋습니다. 그 후 지정을 완화하고 데이터를 데이터로 참조하면됩니다.

"합성", "인공"은 다른 MCMC 샘플링 된 "시뮬레이션 된"데이터 세트와 구별되지 않습니다. 고정 된 시드가 포함 된 준 난수 생성기를 사용하면 (적절한 훈련이 지시하는대로) 합성 또는 인공 데이터 세트가 생성됩니다.

확률 모델에서 인스턴스 또는 구현을 생성하는 대신 특정 그림에 대해 데이터 세트를 큐링하는 점이 그러한 데이터 세트를 " 예제 데이터 세트 " 라고 부르는 것이 좋습니다 . 이와 같은 데이터는 Anscombe의 4 중주와 유사합니다. 완전히 추상적이고 그럴듯하지는 않지만 요점을 설명하기위한 것입니다.

— AdamO
소스

1

생물학에서는 신화 동물의 데이터 세트를 사용하여 분석을 시연하는 경우가 있습니다. 데이터가 시뮬레이트되었음을 명시 적으로 표시할지 여부는 작성자 / 검토 자에게 달려 있습니다.

동물 모델에 대한 생태 학자 가이드, 2009

이 튜토리얼에서는 그리폰 집단에 대한 일련의 정량적 유전자 분석에 대해 설명합니다 (저자의 조류와 포유류의 편견을 반영 함). 그리폰은 신화적인 짐승이므로 제공된 데이터는 반드시 시뮬레이션되었습니다.

고정 효과 분산 및 반복성 및 유전성 추정 : 이슈 및 솔루션, 2017

이를 설명하기 위해 Wilson (2008)의 유니콘 데이터 세트로 돌아가겠습니다. 유니콘에서 뿔 길이는 개별 체질량에 따라 달라집니다 (경사 : 연령, 성별 및 상호 작용을 포함한 전체 모델의 경우 β = 0.403).

— DA 웰스
소스

1

재미있는 접근법! 생물학 학생 통계를 가르치는 데 도움이 될 수 있다고 생각합니다. 그러나 대중에게 발표 할 때 이것이 올바른 인상을 줄지 확신 할 수 없다

— Frans Rodenburg

0

직관적으로 나는 "Lorem ipsum ..."이 "Dummy text"와 같은 의미에서 'Dummy data'라는 용어로 갈 것입니다. '더미 (Dummy)'라는 단어는 다양한 배경을 가진 사람들에게 매우 일반적이고 이해하기 쉽기 때문에 통계적 배경이 적은 독자들에게는 오해의 가능성이 적습니다.

— 마티즈
소스

2

회귀 컨텍스트에있는 경우 더미 데이터를 인코딩하는 더미 변수가 없도록 "더미"과부하를 피할 수 있습니다.

— Matt Krause

나는 "더미"가 이미 회귀에 내포 된 의미를 가지고 있기 때문에 개인적으로 피할 것이라고 동의한다. 사용 가능한 용어가 풍부하다는 점을 감안할 때 사람들마다 다른 의미를 가질 수있는 용어를 사용하지 않는 것이 가장 좋습니다.

— Samir Rachid Zaim

0

데이터 는 라틴어로 주어졌으며 , 기록 된 일련의 사실에 대한 속기로서 현대에 사용됩니다 . 따라서 어떤 종류의 주어진 사실 은 공개 모순이 될 것이므로 제작 된 기록을 참조하는 방식 입니다.

그러나 사실 기록에 대한 원래의 추정과 상관없이 단순히 기록 을 참조하기 위해 데이터 사용이 증가함에 따라, 우리는 진실 되거나 사실 이 아닌 기록에 대해 이야기 할 때 서로 행복하게 이해 하므로 실제 / 가짜 데이터입니다.

아래에서 제작 된 녹음을 처리하는 방법에 대한 경험을 요약하겠습니다. 사용 된 레이블은 데이터를 추후 분석을 가능하게하기 위해 합리적으로 현실적으로 보이도록 제작 된 기록 또는 데이터를 계산 부하로 사용한다고 가정하는지 여부에 따라 다릅니다.

분석 / 데이터 과학 / 전략 컨설팅 분야에서 사람들은 가상 데이터 와 때로는 시뮬레이션 된 데이터 로 현실적인 가정하에 생성 된 제작 된 레코드 세트를 가장 자주 처리 합니다. 조잡한 가정을 사용하여 제작 된 제작 된 기록을 장난감 데이터 세트 라고합니다 .
소프트웨어 엔지니어들 사이에서, 가짜 데이터 , 더미 데이터 , 메이크업 데이터 및 모형 데이터 는 종종 실제 기록을 의미하는 것은 아니지만 기록을 암시하는 기본 레이블 일 뿐이며 원래 데이터와 기본 속성 만 공유합니다 (연령 데이터는 항상 수치입니다) 이메일 주소는 항상 "@"를 포함하는 문자열입니다.
학계 연구자들은 실제 제작 된 레코딩 세트를 의사 데이터 또는 시뮬레이션 데이터라고 합니다. 일부 원에서, 제작 된 관측치 세트가 Monte Carlo 시뮬레이션의 결과 인 경우, 구어체 적으로 Monte Carlo 라고 할 수 있습니다 . 반 현실적인 녹음은 일반적으로 설명 목적이나 대체 가설을 테스트하는 데 사용되며 장난감 데이터 세트 라고합니다.

— famargar
소스

2

"Monte Carlo"는 분석법의 이름이므로 "구어체"라는 이름은 매우 잘못된 것입니다.

— 팀

@Tim 실제로, 오해의 소지가있을 수 있습니다. 그러나 언어는 단지 무언가를 언급하는 방법으로 공동체의 합의에 기초한 도구 일뿐입니다. 그래서 우리는이 사이트에서 주어진 녹음 및 측정 (라틴어 데이터의 영어)을 언급하고 있습니다 . 내가 당신의 관점을 채택한다면, 시뮬레이션 된 측정을 다루는 것이 매우 의심스러운 가짜 라고 생각할 것입니다.

— famargar

"몬테 카를로 시뮬레이션"을 단순히 "몬테 카를로"라고 언급하는 것은 "주어진 관측치"를 "지정된"이라고하는 현대 버전이라는 것을 알 수 있기를 바랍니다. 나는“데이터”라는 단어의 의미와 실제 사용법에 대한 이것과 더 많은 고려 사항을 통합하기 위해 대답을 편집했습니다.

— famargar

1

"학술 연구자들은 가장 빈번하게 의사 데이터라고하는 현실적인 제작 된 레코드 세트를 언급 할 것입니다."저는 40 년 이상의 학문 연구에서이 용어를 본 적이 있습니다. "아카데믹은 일반적으로 비현실적인 레코딩에는 사용하지 않습니다.": 죄송하지만, 이는 매우 잘못된 것입니다. 많은 분야의 학업은 여러 종류의 시뮬레이션을 사용합니다. 비현실적인 시뮬레이션조차도 유용 할 수 있습니다. 예를 들어 정상 샘플의 변동성은 비정규 성을 평가하는 데 중요한 컨텍스트입니다.

— Nick Cox

@NickCox Pseudodata는 물리학에서 자주 사용되며 생물학과 통계에서 보았습니다. 필드가 무엇인지, 그리고 필드가 시뮬레이션을 참조하는 방법을 알고 궁금합니다. 비현실적인 데이터에 관해서는 비현실적인 것과 반 현실적인 것을 구분했습니다. 유스 케이스를 놓쳤습니까?

— famargar