예제를 작성 중이며 일부 데이터를 구성했습니다. 나는 이것이 실제 데이터가 아니라는 것을 독자에게 분명히하고 싶지만, 단지 악의에 대한 인상을주고 싶지 않습니다.
이 특정 데이터에 (의사) 임의의 구성 요소가 없으므로 '시뮬레이션 된'이 적합하지 않은 것으로 보입니다. 허구 또는 조작이라고하면 허위 데이터에 대한 인상을 주나요? '만들기'는 과학적 맥락에 맞는 단어입니까?
시뮬레이션되지 않은 구성 데이터에 대한 통계 문헌의 용어는 무엇입니까?
예제를 작성 중이며 일부 데이터를 구성했습니다. 나는 이것이 실제 데이터가 아니라는 것을 독자에게 분명히하고 싶지만, 단지 악의에 대한 인상을주고 싶지 않습니다.
이 특정 데이터에 (의사) 임의의 구성 요소가 없으므로 '시뮬레이션 된'이 적합하지 않은 것으로 보입니다. 허구 또는 조작이라고하면 허위 데이터에 대한 인상을 주나요? '만들기'는 과학적 맥락에 맞는 단어입니까?
시뮬레이션되지 않은 구성 데이터에 대한 통계 문헌의 용어는 무엇입니까?
답변:
아마도이 "합성"또는 "인공"데이터라고 할 수도 있지만 "시뮬레이션"이라고도 할 수 있습니다 (시뮬레이션은 매우 간단합니다).
프랜시스 앤스 콤브 (Francis Anscombe)라는 용어가 현재 유명한 사중주 를 설명하는 데 사용되기 때문에 데이터를 가상의 것으로 간주 하려면 좋은 회사에 속해야 합니다.
FJ Anscombe (1973). " 통계 분석 그래프 ", Am. 통계 27 (1) :
이러한 점 중 일부는 표에 표시된 11 개의 (x, y) 쌍으로 구성된 4 개의 가상 데이터 세트로 표시됩니다.
그러나 내 OED (v4)가 가상의 사용이 더 이상 사용되지 않음을 나타내는 것처럼 귀하의주의가 잘 놓여 있다고 생각합니다.
가상 의 a.
(fɪkˈtɪʃəs)
[에프. L. fictīci-us (f. fingĕre to fashion, feign) + -ous : -itious 참조.]
1.1 † a.1.a 자연과 반대되는 인공 (obs.). b.1.b 위조, '모방', 가짜; 정품이 아닙니다.
IT에서는 종종 목업 데이터 라고 하며 목업 (애플리케이션)을 통해 제공 할 수 있습니다.
모형 데이터는 또한 예를 들어 제어 된 방식으로 애플리케이션의 기능을 테스트하기 위해 완전한 기능의 애플리케이션을 통해 제공 될 수있다.
"합성 데이터"라는 용어에 대한 반복적 인 제안을 보았습니다. 그러나이 용어는 광범위하게 사용되며 표현하려는 내용과는 매우 다른 의미를 갖습니다. https://en.wikipedia.org/wiki/Synthetic_data
일반적으로 받아 들여지는 과학 용어가 확실하지 않지만 "예제 데이터"라는 용어는 이해하기 어려운 것 같습니다.
나는 '가짜 데이터'라는 용어에 상당한 금액이 발생했습니다. 나는 그것이 부정적인 의미를 가질 수 있다고 생각하지만, 그것이 나를 위해 전혀 부정적으로 등록하지 않을 정도로 자주 들었습니다.
FWIW, Andrew Gelman도 다음을 사용합니다.
https://statmodeling.stat.columbia.edu/2009/09/04/fake-data_simul/
'가짜 데이터'에 대한 빠른 Google 검색은 비슷한 용어를 사용하는 것처럼 보이는 많은 결과를 나타냅니다.
https://scientistseessquirrel.wordpress.com/2016/03/10/good-uses-for-fake-data-part-1/
http://modernstatisticalworkflow.blogspot.com/2017/04/an-easy-way-to-simulate-fake-data-from.html
https://clayford.github.io/dwir/dwr_12_generating_data.html
그리고 fakeR패키지가 있습니다.이 패키지는 비교적 일반적입니다 :
https://cran.r-project.org/web/packages/fakeR/fakeR.pdf
데이터를 사용하는 방식에 따라 다른 단어를 사용합니다. 구성 데이터 세트가 놓여 있고 확인 알고리즘으로 알고리즘을 지적한 경우 "합성"이라는 단어는 괜찮습니다.
그러나 종종이 유형의 데이터를 사용할 때마다 알고리즘의 기능을 과시하려는 의도로 데이터를 발명했습니다. 다시 말해, 나는 "좋은 결과"를 얻기위한 특정 목적을 위해 데이터를 발명했습니다. 그러한 상황에서 나는 데이터에 대한 나의 기대치에 대한 설명과 함께 "contrived"라는 용어를 좋아한다. 이것은 내가 거짓말을 한 임의의 합성 데이터 세트에서 알고리즘을 지적했다고 생각하는 사람이 실수하기를 원하지 않기 때문에 실제로 잘 작동했습니다. 알고리즘을 제대로 작동시키기 위해 실제로 선택한 데이터 (실제로 만드는 시점까지)를 가지고 있다면 그렇게 말합니다. 그러한 결과는 내 알고리즘이 할 수 있다는 증거를 제공하기 때문입니다잘 작동하지만 알고리즘이 일반적으로 잘 작동 할 것으로 예상 할 수있는 매우 약한 증거 만 제공합니다 . "contrived"라는 단어는 "우수한 결과"를 염두에두고 데이터를 우선적으로 선택했다는 사실을 잘 요약합니다.
" 사기 데이터 의 인상을 주는가?"
아니,하지만, 어떤 데이터 세트의 소스와 명확히하는 것이 중요합니다 귀하의 모든 데이터 세트에 결과를보고 할 때 실험자 등의 사전 기대. "사기" 라는 용어 에는 무언가를 덮거나 완전히 거짓말을 한 양상이 명시 적으로 포함됩니다. 과학에서 사기 행위를 피하는 # 1 방법은 단순히 데이터의 특성과 기대에 대해 정직 하고 솔직한 것입니다. 다시 말해서, 데이터가 제조되고 어떤 식 으로든 말을 하지 않으면 데이터가 제조되지 않았거나 더 나쁘게 데이터가 가공되지 않은 정렬로 수집된다고 주장 하는 경우가 있습니다 방법을, 그 다음은 이다"사기". 그렇게하지 마십시오. "합성"과 같이 "보다 잘 들리다"라는 "조립 된"이라는 용어에 동의어를 사용하려는 경우 아무도 당신을 잘못 생각하지는 않지만 동시에 다른 사람이 당신을 제외하고는 그 차이를 느끼지 못할 것이라고 생각합니다.
실제로 사후 설명 인 선험적 기대가 있다고 주장하는 상황은 덜 분명하다 . 이것은 또한 부정한 데이터 분석입니다.
알고리즘의 기능을 "보여주는"의도로 데이터를 선택하면 합성 데이터의 경우가 종종 있습니다.
이것이 사실 인 이유를 명확히하기 위해, "정상적인"과학적 방법이 다음과 같이 작동한다는 것을 고려하십시오 : 1) 모집단 가 선택됨 2) 가설 가 결정됨 3) 가 (또는 ). 과학 은 이 좁은 정의 내 에서 작동 할 필요는 없지만 이것이 "확인"분석이라고하며 일반적으로 제공 할 수있는 가장 강력한 증거로 간주됩니다. 사건의 순서는 증거의 강도와 관련이 있기 때문에 구체적으로 기록하는 것이 중요합니다.
가설 1) : 특히, "인위적인"데이터의 경우에는, 처리는 종종 이상과 같이 동작 2) 인구, 잉태 3), 선택 대하여 시험 . 예를 들어 알고리즘을 테스트하는 경우 합성 데이터 세트를 발명하기 전에 새롭고 멋진 알고리즘이 "좋은 일을한다"는 가설이 생길 수 있습니다. 이 경우에는 언급해야합니다. 은 적어도 당신은 안 그 독자를 이끌 것이기 때문에,에 "확증"방식으로 일어난 사건은 증거가 실제보다 더 강한 것으로 결론을 목적으로 제정 된 것이다.
당신이 한 일에 대해 정직 하고 솔직한 한 ,이 작업에는 아무런 문제가 없습니다 . "좋은 결과"를 제공하는 데이터 집합을 만드는 데 어려움을 겪었다면 그렇게하십시오. 독자에게 데이터 분석에서 취한 단계를 알리는 한, 가설에 대한 증거를 효과적으로 평가하는 데 필요한 정보가 있습니다. 당신이 정직 하지 않거나 직설적 이지 않으면 , 당신의 증거가 실제보다 강하다는 인상을 줄 수 있습니다. 증거를 실제보다 강하게 보이기 위해 정직 하고 솔직 하지 않은 경우 , 실제로는 사기입니다.
어쨌든, 이러한 데이터 세트에 대해 "고려 된"이라는 용어를 선호하고 가설을 염두에두고 선택되었다는 간단한 설명을 선호하는 이유가 여기에 있습니다. "고려"는 합성 데이터 세트를 만들었을뿐만 아니라 데이터 세트를 만들기 전에 내 가설이 이미 존재했다는 사실을 반영하는 특별한 의도로 그렇게했다는 의미를 전달합니다.
예를 들어 설명하기 위해 : 임의의 시계열 분석을위한 알고리즘을 만듭니다. 시계열을 가리킬 때이 알고리즘이 "좋은 결과"를 제공 할 것이라고 가정합니다. 이제 다음 두 가지 가능성을 고려하십시오. 1) 알고리즘이 잘 수행 할 것으로 예상되는 일종의 합성 데이터를 작성합니다. 이 데이터를 분석하면 알고리즘이 제대로 작동합니다. 2) 일부 합성 데이터 세트 는 사용할 수 없기 때문에 사용할 수 있습니다. 이 데이터를 분석하면 알고리즘이 제대로 작동합니다. 이 두 상황 중 어느 것이 알고리즘이 임의의 시계열에서 잘 수행된다는 더 좋은 증거를 제공합니까? 분명히 옵션 2입니다. 그러나 옵션 1 또는 옵션 2에서 "알고리즘 적용했다"는 것은 쉽게보고 할 수 있습니다합성 데이터 세트 . 결과는 그림 표시됩니다 . "문맥이없는 경우 독자 는 옵션 1의 경우 그렇지 않은 경우 이러한 결과가 확인 적이라고 가정 (옵션 2) 한다고 가정 할 수 있습니다 . 따라서 독자는 옵션을 가지고 있습니다 1, 증거가 실제보다 강하다는 인상을 받았습니다.
"합성", "구상 된", "조립 된", "가상"등 원하는 용어를 사용하십시오. 그러나 사용하는 용어로는 결과가 오도되지 않도록하기에 충분하지 않습니다 . 데이터에 대한 기대치 및 선택한 데이터를 선택한 이유를 포함하여 데이터가 어떻게 발생했는지에 대해 보고서에서 명확하게 확인하십시오.
우선, 이것을 "데이터 셋"이라고 부를 이유가 없습니다. "가짜"대 "시뮬레이트 된"대 ... 데이터에 대해 보편적으로 합의 된 용어는 없습니다. 목표가 완전히 명확 해지려면이 데이터 세트가 무엇인지 검증하기 위해 단어 대신 문장을 실제로 사용하는 것이 가장 좋습니다. 그 후 지정을 완화하고 데이터를 데이터로 참조하면됩니다.
"합성", "인공"은 다른 MCMC 샘플링 된 "시뮬레이션 된"데이터 세트와 구별되지 않습니다. 고정 된 시드가 포함 된 준 난수 생성기를 사용하면 (적절한 훈련이 지시하는대로) 합성 또는 인공 데이터 세트가 생성됩니다.
확률 모델에서 인스턴스 또는 구현을 생성하는 대신 특정 그림에 대해 데이터 세트를 큐링하는 점이 그러한 데이터 세트를 " 예제 데이터 세트 " 라고 부르는 것이 좋습니다 . 이와 같은 데이터는 Anscombe의 4 중주와 유사합니다. 완전히 추상적이고 그럴듯하지는 않지만 요점을 설명하기위한 것입니다.
생물학에서는 신화 동물의 데이터 세트를 사용하여 분석을 시연하는 경우가 있습니다. 데이터가 시뮬레이트되었음을 명시 적으로 표시할지 여부는 작성자 / 검토 자에게 달려 있습니다.
동물 모델에 대한 생태 학자 가이드, 2009
이 튜토리얼에서는 그리폰 집단에 대한 일련의 정량적 유전자 분석에 대해 설명합니다 (저자의 조류와 포유류의 편견을 반영 함). 그리폰은 신화적인 짐승이므로 제공된 데이터는 반드시 시뮬레이션되었습니다.
고정 효과 분산 및 반복성 및 유전성 추정 : 이슈 및 솔루션, 2017
이를 설명하기 위해 Wilson (2008)의 유니콘 데이터 세트로 돌아가겠습니다. 유니콘에서 뿔 길이는 개별 체질량에 따라 달라집니다 (경사 : 연령, 성별 및 상호 작용을 포함한 전체 모델의 경우 β = 0.403).
직관적으로 나는 "Lorem ipsum ..."이 "Dummy text"와 같은 의미에서 'Dummy data'라는 용어로 갈 것입니다. '더미 (Dummy)'라는 단어는 다양한 배경을 가진 사람들에게 매우 일반적이고 이해하기 쉽기 때문에 통계적 배경이 적은 독자들에게는 오해의 가능성이 적습니다.
데이터 는 라틴어로 주어졌으며 , 기록 된 일련의 사실에 대한 속기로서 현대에 사용됩니다 . 따라서 어떤 종류의 주어진 사실 은 공개 모순이 될 것이므로 제작 된 기록을 참조하는 방식 입니다.
그러나 사실 기록에 대한 원래의 추정과 상관없이 단순히 기록 을 참조하기 위해 데이터 사용이 증가함에 따라, 우리는 진실 되거나 사실 이 아닌 기록에 대해 이야기 할 때 서로 행복하게 이해 하므로 실제 / 가짜 데이터입니다.
아래에서 제작 된 녹음을 처리하는 방법에 대한 경험을 요약하겠습니다. 사용 된 레이블은 데이터를 추후 분석을 가능하게하기 위해 합리적으로 현실적으로 보이도록 제작 된 기록 또는 데이터를 계산 부하로 사용한다고 가정하는지 여부에 따라 다릅니다.