Windows 복사 대화 상자 (Windows XP의 경우)는 복사본을 메모리에 먼저 저장하고 대화 상자를 닫은 후에도 여전히 복사 중이므로 시간이 꺼져 있지만 사본을 만드는 데 걸리는 시간의 추정은 왜 메모리 복사가 비활성화되어 있어도 Vista와 Windows 7에서 정확하지 않습니까? 너무 임의적 인 것 같습니다! 전체 복사 절차는 어떻게 작동하며 Windows에서 올바르게 추정 할 수없는 이유는 무엇입니까?
Windows 복사 대화 상자 (Windows XP의 경우)는 복사본을 메모리에 먼저 저장하고 대화 상자를 닫은 후에도 여전히 복사 중이므로 시간이 꺼져 있지만 사본을 만드는 데 걸리는 시간의 추정은 왜 메모리 복사가 비활성화되어 있어도 Vista와 Windows 7에서 정확하지 않습니까? 너무 임의적 인 것 같습니다! 전체 복사 절차는 어떻게 작동하며 Windows에서 올바르게 추정 할 수없는 이유는 무엇입니까?
답변:
한마디로, 열악한 알고리즘과 점프 예측은 실제로 구현상의 약점입니다.
TeraCopy 와 같은 다른 도구 가 더 잘 작동합니다. 나는 왜 그들의 구현이 좋지 않은지를 설명 할 가치가 없다고 생각합니다. 그들은 그것을 알아 차리고 개선 할 것입니다.
어려운 점 :
이를 위해 바이트의 양뿐만 아니라 생성 할 파일의 양이 중요한 역할을합니다. 백만 개의 1KB 파일 또는 천 개의 1MB 파일이있는 경우 전자가 많은 파일을 작성하는 오버 헤드가 있기 때문에 상황이 상당히 다릅니다. 사용 된 파일 시스템에 따라 실제로 데이터를 전송하는 것보다 시간이 더 걸릴 수 있습니다.
이 대화는 나에게 몇 번이나 화가났다.
현대 Windows 사본은 그리 나쁘지 않습니다.
Raymond Chen은 이것에 대해 아주 좋은 기사를 한 번 썼습니다. 기본적으로 대화 상자는 추측입니다. :).
http://blogs.msdn.com/b/oldnewthing/archive/2004/01/06/47937.aspx
"복사 대화 상자는 추측 만하기 때문에 미래를 예측할 수는 없지만 시도해보아야합니다. 사본의 시작 부분에 기록이 거의 없을 때 예측이 실제로 나쁠 수 있습니다.
다음과 같은 비유가 있습니다. 누군가가 "100으로 세고, 언제 할 것인지에 대한 지속적인 추정을해야한다"고 말합니다. 그들은 "하나, 둘, 셋 ..."으로 시작합니다. 당신은 그들이 초당 약 하나의 숫자로 가고 있음을 알 수 있습니다. 어, 이제 속도가 느려지고 있습니다. "4 ... ... ... 5 ... ... ..."이제 추정치를 200 초로 변경해야합니다. 이제 속도가 빨라집니다. "6-7-8"추정값을 다시 업데이트해야합니다.
이제 당신의 추정만을 듣고 누군가를 세는 사람은 당신이 당신의 로커를 벗어났다고 생각합니다. 예상치는 100 초에서 200 초에서 50 초로 증가했습니다. 무엇이 문제입니다? 왜 좋은 견적을 줄 수 없습니까?
파일 복사도 마찬가지입니다. 쉘은 파일 수와 바이트 수를 알고 있지만 하드 드라이브 나 네트워크 또는 인터넷이 얼마나 빠른지 알지 못하므로 추측해야합니다. 복사 처리량이 변경되면 새 전송 속도를 고려하여 견적을 변경해야합니다. "
10까지 세려고합니다. 10 1....2....3....4
점에 도달하는 데 몇 점이 필요합니까?
5.6.7
지금은 어때? 숫자 사이의 모든 과거 점을 고려하여 평균을 계산합니까? 마지막 4 간격 만 사용하고 해당 평균을 사용합니까? 마지막 간격 만 보십니까?
파일 전송과 동일한 문제가 있습니다. 파일 전송 속도는 일정하지 않으며 많은 요인에 따라 속도가 느려지고 속도가 느려집니다. 숫자가 너무 많이 증가하는 이유는 Microsoft가 스펙트럼의 "마지막 간격 만 계산"쪽으로 기울이기 때문입니다.
스펙트럼의 측면에는 아무런 문제가 없습니다.보다 정확한 "초당 초"를 제공합니다 (실시간으로 1 초는 카운터가 1 초씩 내려갑니다). 이로 인해 타이머의 총 ETA가 많이 점프합니다. .
반대편의 좋은 예 는 압축 할 때 7-Zip 입니다. 압축 속도가 처리되는 동안 속도가 떨어지면 ETA가 파일 전송 ETA처럼 급격히 증가하지는 않지만 타이머가 1 초간 틱 다운되기까지 2 ~ 3 초가 걸릴 수 있습니다 (또는 카운트가 시작될 수도 있음) 새로운 속도로 안정화 될 때까지
실제로 WAAAAAY 의 Microsoft Raymond Chen의 정식 답변 은 거의 없으며 퍼즐에 몇 가지가 있습니다.
복사 대화 상자가 추측하기 때문입니다. 미래를 예측할 수는 없지만 시도해야합니다. 그리고 사본의 맨 처음에 갈만한 역사가 거의 없을 때 예측이 실제로 나쁠 수 있습니다.
첫째, Windows가 추측하고 있습니다. 파일 수와 크기를 알고 있지만 파일 당 전송 속도는 매우 다양합니다. 크기 또는 드라이브 위치에 따라 다릅니다. 시간이 지남에 따라 현재 및 과거 조건을 기반으로 추측을 조정하므로 실제 조건에서 예상 전송 속도가 정확하지 않습니다.
여기 설명 에 의해 레이몬드 첸 , 마이크로 소프트의 수석 소프트웨어 디자인 엔지니어 :
복사 대화 상자가 왜 그렇게 끔찍한 견적을 제공합니까?
복사 대화 상자가 추측하기 때문입니다. 미래를 예측할 수는 없지만 시도해야합니다. 그리고 사본의 맨 처음에 갈만한 역사가 거의 없을 때 예측이 실제로 나쁠 수 있습니다.
다음과 같은 비유가 있습니다. 누군가가 "100으로 세고, 언제 할 것인지에 대한 지속적인 추정을해야한다"고 말합니다. 그들은 "하나, 둘, 셋 ..."으로 시작합니다. 당신은 그들이 초당 약 하나의 숫자로 가고 있음을 알 수 있습니다. 어, 이제 속도가 느려지고 있습니다. "4 ... ... ... 5 ... ... ..."이제 추정치를 200 초로 변경해야합니다. 이제 속도가 빨라집니다. "6-7-8"추정값을 다시 업데이트해야합니다.
블로그 게시물 위에 인용 한 몇 가지 흥미로운 의견이 문제의 긴 토론을 가지고 있습니다.
Raymond Chen은 전설적인 인물 인 "Microsoft의 척 노리스 (Chuck Norris)"입니다. 더 신뢰할만한 답변을 얻을 것이라고 생각하지 않습니다. 나는 그가 문제의 코드를 보았을 것이라고 확신한다.
명백한 이유는 전송 속도가 시간이 지남에 따라 변하기 때문에 평균도 변하고 예측도 변하기 때문입니다. 기술이 아닌 친구에게 이것을 설명하기 위해, 나는 비행기 여행과 관련된 비유를 사용했습니다. 당신은 대서양을 날아갈 것입니다. 출발 공항에서 택시로 도착하면 도착 예상 시간은 약 2 개월입니다. 지금까지의 평균 속도를 기준으로 도착 공항에서 하선하면 5 초 안에 친구의 집에 도착합니다.
그러나 동일한 디스크 내에서 파일을 복사하거나 두 개의 로컬 디스크간에 파일을 복사하는 것과 같이 예측 가능한 시나리오처럼 보일지라도 실제로 속도가 얼마나 달라질 수 있는지 알아야합니다. Windows 8에서 내가 좋아하는 새로운 기능 중 하나는 "자세한 정보"를 클릭하면 시간에 따른 속도를 그래프로 표시하는 기능입니다. Windows 8 시스템에 액세스 할 수없는 경우 Windows 8 사본 대화 상자의 이미지를 검색 하여 많은 예를보십시오. 대부분은 상당히 평평하지만, 하드 드라이브가 실제로 0으로 떨어질 때 하드 드라이브가 실제로 정상인지 궁금해하는 시점까지 혼란스럽게 울퉁불퉁합니다.
이러한 충돌 중 일부는 파일 크기의 변화로 인해 발생합니다. 필드가 작을수록 더 많은 액세스가 발생하여 읽기 헤드를 움직여 검색해야하는 기계식 하드 드라이브의 경우 속도가 느려집니다. 그러나 일부는 저렴한 드라이브 일 수 있습니다. 플래터의 손상을 방지하기 위해 약간의 접촉으로 멈 춥니 다.
ETA 예측 알고리즘이 더 좋고 나쁘지만 정확한 예측을 위해서는 컴퓨터가 모든 것을 알고 있어야합니다. 알고리즘을 "똑똑한"것으로 만들려는 위험은 예상치 못한 새로운 경우가 더 유쾌하게 잘못 될 수 있다는 것입니다.
파일 집합을 압축하는 데 걸리는 시간을 알 수있는 유일한 방법은 파일을 압축하는 것입니다. 때로는 Windows의 최선의 추측이 가깝고 때로는 잘못되었습니다. 이미 알고 있듯이 대량의 파일을 복사하는 경우에도 마찬가지입니다.
거의 정확한 정보를 쓸모없는 것으로 표시하는 것은 그리 버그가 아닙니다. 그것을 고치는 가장 좋은 방법은 눈을 감는 것입니다. 무시해. ;-)
아마도 파일을 복사 / 압축하고 완료되면 알람 소리를내는 프로그램이있을 것입니다. 정말 유용 할 것입니다. Windows가 집안 청소를 마칠 때까지 약간의 낮잠이있을 수 있습니다.
나는 그 이유가 Roald의 답변과 연결된 블로그 게시물 의 의견 중 하나에서 잘 설명되어 있다고 생각합니다 .
그것은 끔찍한 추정 알고리즘을 가지고 있습니다. 변명의 여지가 없습니다. 1000 개의 1KB 파일과 10 개의 1MB 파일을 복사해야하는 경우 1KB 파일과 마찬가지로 1MB 파일로 사용 중이라고 생각합니다.
그것이 끔찍한 추정을하는 이유는 그것이 잘 이루어지지 않았기 때문입니다. 분명히 100 % 정확할 수는 없지만 훨씬 더 나을 수 있습니다.
복사 프로세스를 신속하게 수행하기 위해 (복사 관련 작업을 수행하는 대신 예상 시간을 계산하는 데 너무 많은 시간을 소비하지 않음) 탐색기에 내장 된 Windows 복사 유틸리티는 이전 쓰기 작업이 얼마나 빨리 완료되었는지에 대한 정보를 제한적으로 유지합니다. 남은 시간을 계산해야 할 때마다 쓰기 작업에 걸린 평균 시간을 파악한 다음 남은 쓰기 작업 수를 곱합니다.
문제는 쓰기 작업을 수행하는 데 걸리는 시간이 일정하지 않다는 것입니다. 실제로는 크게 다를 수 있습니다. 결과적으로 시간 추정치에 상당한 변화가 발생합니다.
A
] 및 그 평균을 얻는 데 사용되는 데이터 포인트 수 [ n
]. 그런 다음 업데이트하려면의 경우입니다 (A*n + [New value])/[n+1]
. 또한 복사 작업은 거의 항상 CPU 바운드가 아닌 IO 바운드이므로 몇 초마다 간단한 계산은 아무 것도 아닙니다. 반면, 마지막 n
쓰기 의 평균을 유지 하려면 n
요소 의 배열 / 큐 / 스택이 필요 하므로 어떤 값을 제거해야하는지 알 수 있습니다.
고려해야 할 세 가지 요소가 있습니다.
숫자 1과 3은 전송 시간 계산에 가장 명백한 영향을 미치는 것처럼 보이지만 많은 사람들이 숫자 2를 고려하지 않습니다. 이는 전송 시간에 큰 영향을 줄 수 있으며 수량화하기가 어렵습니다.
기본적으로 파일을 작성할 때마다 파일 시스템은 파일에 대한 메타 데이터를 작성해야합니다. 소유권, 권한, 생성 / 수정 / 액세스 시간 등. 특정 파일 시스템에 따라이 정보는 파일이 작성되는 위치와 매우 '먼'디스크 부분에 기록 될 수 있습니다. 이 파일 시스템 오버 헤드는 단순하게 전송하는 데 시간이 오래 걸리거나 시간 추정치가 크게 변동될 수 있습니다.
예 : 하나의 큰 파일을 전송하면 추정치가 안정적으로 유지되지만 크기는 다르지만 총 크기는 동일하지만 수백 개의 파일을 전송하면 시간이 더 오래 걸리고 시간 추정치가 적합 할 수 있습니다.
대중의 믿음과는 달리 그들은 우리의 손을 내밀기에는 거의 어렵지 않습니다.
대부분의 사람들이 블로그를 작성하고 여기 사람들이 그 가능성을 알지 못하는 이유는 내가 공부와 학교의 폭 때문에 내가 알 수있는 가장 좋은 것입니다. [십억 달러 규모의 회사] 마이크로 소프트 [블로그 작성자보다 더 최근의 교육을받은 졸업생]에게는 겸손하지만 매우 편안한 치료가 가능해야합니다 .
나는 왜 그런지 대략 설명하려고 노력할 것이다.
1. 커널 범위를 벗어난 상황으로 인해 향후 IO로드를 안정적으로 예측할 수 없음
2. 유용한 수준의 IO 휴리스틱 을 추적하지 않습니다 . 사용률 은 디스크 / 네트워크 읽기 / 쓰기 속도보다 훨씬 넓은 개념 입니다.
가장 기본적인 IO 사용 정보를 추적하는 것 이상으로이 작업을 수행 할 필요가 거의 없습니다.
3. 그들은 추적 , 휴리스틱에 사용하지 않을 것
a, b 및 c는 각각 3 가지 상태를 갖습니다. 파일 관리자는 복사하기 전에 파일 (또는 메타 데이터)을 들여다보고 F * (bxc) + d는 값 비싼 계산이 아닙니다. 더 정확한 것을 원하면 더 많은 상태의 조회 테이블을 사용하십시오. 아무 계산도 거의 없습니다.
참고 : 여기의 치수는 플래터 용이며 SSD와는 다릅니다. 시작 / 중간 / 끝은 중요하지 않습니다.
지금까지 설명한 것과 이전에 구현 한 것의 주요 차이점은 간단히 말해서 디스크에서 파일 크기 및 파일 분산 / 엔트로피를 관찰하고 디스크 사용의 시간 요소를 정확하게 설명하는 데 사용하는 것입니다.
(특허는 독자의 연습으로 남겨둔다 ...)
시간이 얼마나 걸리는지 예측하려고 할 때 "알 수없는"변수가 많이 있습니다. 예를 들어, 프로그램은 3500 개의 파일이 있고 파일 크기가 3.5GB (3500MB)라는 것을 알고 있지만 각 파일이 1MB라는 것을 의미합니까? 반드시 그런 것은 아닙니다. 4KB 파일이 많고 100MB 파일이 많으며 그 사이에 다른 파일이있을 수 있습니다. 또한 파일이 어디에서 왔으며 어디로 가고 있는지 (예 : 미디어) 고려해야합니다. 가장 큰 병목 현상은 무엇입니까? VPN 터널을 통해 HDD에서 파일을 복사하려고 시도하는 방법은 무엇입니까? 최상의 시나리오를 제시 한 다음 실시간으로 카운터를 조정하십시오. 그렇기 때문에 진행률 표시기가 즉시 변경되는 것을 볼 수 있습니다.
수학적으로 올바른 모델은 실제로 순진한 평균화와 외삽 법을 수행하는 것입니다.
transfer speed = data copied / time elapsed
time remaining = data remaining / transfer speed
그 이유는 큰 숫자의 법칙에 따라 로컬 변동이 평균 전송 속도 에서 상쇄되어 가장 안정적인 결과를 얻을 수 있기 때문입니다.
Microsoft 가하는 일은 최신 시간 프레임에서 전송 속도 를 계산하는 것 입니다. 이는 각 지역 변동이 결과를 크게 변경한다는 것을 의미합니다.
There is some way to refine or correct this kind of "bug"?
Roald van Doorn이 말했듯이 기본적으로 추측입니다. 물론, 이것이 더 나은 추측이 될 수 없다는 것을 의미하지는 않습니다. 이를 계산하는 데 사용할 수있는 휴리스틱이 많이 있습니다.
분명히이 중 어느 것도 쉽게 구현할 수 없습니다. 파일 사본 만 언급했습니다. 모든 종류의 전송에 대해 유사한 작업을 수행해야합니다.
스스로 물어봐야 할 질문-마이크로 소프트가 더 나은 견적을 제공하는 데 시간을 투자하겠습니까, 아니면 파일을 더 빨리 전송하도록 하시겠습니까?
그러나 7-zip으로 무언가를 압축하면 창보다 추측하는 것이 훨씬 낫다는 것을 알 수 있습니다. 나는 그것이 다소 복잡한 추측을하고있는 것을 의심합니다.
요컨대, 계산은 현재 전송 속도를 기반으로합니다 .
예를 들어, Windows에서 많은 양의 작은 파일을 복사해야하기 때문에 전송 속도가 떨어지면 큰 파일의 경우 예상 시간이 선형으로 증가 하고 그 반대도 마찬가지 입니다.
파일 크기, CPU 사용량, 전송 오류 등과 같은 많은 요소에 의존하기 때문에 전체 전송 프로세스 에서 전송 속도 를 예측 하는 것은 거의 불가능합니다 .
MSDN 블로그 게시물에는 파일 관리 기본 사항 개선 : 복사, 이동, 이름 바꾸기 및 삭제 에 대한 흥미로운 답변 이 있습니다. 왜 어려운지에 관해서 :
예를 들어, 복사 작업 기간 동안 사용할 수있는 네트워크 대역폭의 양과 같이 예측할 수없고 제어 할 수없는 변수가 많기 때문에 복사를 완료하는 데 남은 시간을 예측하는 것은 거의 불가능합니다. 안티 바이러스 소프트웨어가 가동되어 파일 검색을 시작합니까? 다른 응용 프로그램이 하드 드라이브에 액세스해야합니까? 사용자가 다른 복사 작업을 시작합니까?
그들이 어떻게 개선하고 있는지
현재보다 약간 개선 된 낮은 신뢰도 추정값을 얻기 위해 많은 시간을 투자하는 대신, 우리는 우리가 확신하고있는 정보를 유용하고 설득력있게 제시하는 데 집중했습니다. 이를 통해 가장 신뢰할 수있는 정보가 제공되므로보다 정확한 결정을 내릴 수 있습니다.
즉, 주어진 견적 만 향상시키고 진행률 표시 줄을 그대로 유지하려면 Slashdot 주석 에서 제안 된 작업을 수행 할 수 있습니다 .
파일 시스템의 각 저장 장치에 대한 예상 속도 표를 유지하십시오. 파일 시스템 정보를 읽는 데 걸리는 시간을 기록하십시오. 장치를 장착 할 때 장치 유형에 적합한 경우 속도를 측정하여 중간과 끝을 찾으십시오. 여러 위치에서 읽기 및 쓰기 속도에 대한 대략적인 곡선을 얻고 향후 추정에 사용하십시오. 향후 읽기 및 쓰기 작업을 위해서는 위치와 속도를 기록하고 그에 따라 곡선을 조정하십시오.
작업이 시작되면 각 장치의 입력 및 출력 곡선을 확인하십시오. 목표 위치에 대한 예상 속도를 찾으십시오. 추정에 더 낮은 속도를 사용해야합니다.
총 파일 수는 PC에서 파일을 복사하는 데 가장 많은 시간이 걸리는 요소라는 점을 추가하고 싶었습니다. 나는 항상 어린 학생으로 기억할 수 있는데, 내용이없는 1 개의 파일로 시작하여 복사 한 다음 2 개의 파일을 선택하고 다시 복사하는 등의 방식으로 내 컴퓨팅 클래스에서 PC의 고장을 의도적으로 유도 할 수 있습니다. 파일이 약 1024 개가 지난 후에는 파일 헤더에 대한 정보 저장이 복사되지 않은 경우에도 무엇이든하기 위해 많은 시간이 걸렸습니다. 새로운 OS, 지수 파일 복사본에서도 직접 시도하면 어떤 일이 발생하는지 볼 수 있습니다. 생각할 거리.
USB HDD에서 메인 드라이브로 200GB를 복사했습니다. 약 130000 개의 파일이있었습니다
처음 4-5 분 후 나는 다음을 관찰했다.
처음에 창은 1 시간에서 5 시간 이상으로 추정을 변경 한 다음 다시 1 시간으로 변경했습니다. 결국 95 %에서와 마찬가지로 여전히 10 분에서 10 시간으로 추정값을 변경하고있었습니다. 따라서 정확도가 높아지는 대신 정확도가 떨어졌습니다.
간단한 수학 쇼 :
초당 100 개 파일에서 130,000 개 파일 = 22 분
200,000 에서 MB 70 초 당 = MB (47) 분
22 분-몇 킬로바이트 크기의 파일을 복사하는 탐색 시간이 줄었습니다. 47 분-검색 시간이없는 경우 실제 데이터를 전송하는 데 필요한 시간입니다.
22 분 + 47 분의 합은 가능한 최대 시간입니다.
그래서 분명히 추정치는 사이 어딘가에 있어야합니다 47 과 69 분 거리에 있습니다.
대화 상자에서 약 90 %로 표시되는 내용 : "작은 파일을 1MB / s로 복사하고 있으며 20GB 이상의 데이터가 있으며 완료하는 데 5:30 시간이 걸립니다.
몇 초 후 : "70MB / s에서 큰 파일을 복사하는 데 완료하는 데 4 분이 걸립니다.
실제로 동일한 대화 상자에서 사람이 보는 것 : 120,000 개의 파일과 180GB가 이미 40 분 동안 복사되었습니다. 나머지 10000 개 파일과 20GB는 약 5 분이 걸립니다.
이 대화 상자는 초당 더 정확한 계산을 수행 할 수있는 충분한 정보를 제공합니다. 작은 파일이 복사되는 속도를 알고 있습니다. 큰 파일이 어느 속도로 복사되는지 알고 있습니다. 또한 파일 수와 남은 바이트 수를 알고 있습니다.
상한과 하한을 설정해야만 정확한 가정을 할 수 있습니다.
대화 상자는 큰 파일이 작은 파일보다 앞에있는 경우에만보다 정확한 데이터를 표시합니다. 이 경우 40 분에 시작하고 30 분 후에 작은 파일을 복사하기 시작하고 "20 분 더 필요합니다"라고 표시됩니다.
그러나 처음에 작은 파일과 큰 파일이 끝날 때. 대화 상자는 실제로 작은 파일을 전송하는 "초당 파일 수"에 신경 쓰지 않습니다. 작은 파일 수는 무한대로 계산되며 영원히 작을 것입니다.