이 유용한 스레드 에서 답변을 겪었 지만 문제는 다른 것으로 보입니다 (적어도 sed
~).
다음과 같은 행이있는 큰 CSV 파일 (200 + GB)이 있습니다.
<alphanumerical_identifier>,<number>
<alphanumerical_identifier>
전체 파일에서 고유 한 위치 입니다. 나는 별도의 파일 생성하고자하는 인덱스에 의해 첫 번째 열을 대체 , 즉
<index>,<number>
우리가 얻을 수 있도록 :
1, <number>
2, <number>
3, <number>
awk
메모리에 전체 파일을로드하지 않고도 증가하는 인덱스를 생성 할 수 있습니까 ?
지수가 단조 증가하기 때문에 지수를 삭제하는 것이 더 좋습니다. 그 해결책이 다를까요?
<number>
<number>
<number>
이 솔루션의 가능성에 대해 잘 모르겠습니다. 그러나 별도의 파일로 CSV 파일에서와 같이 많은 수를 생성 한 다음 CSV 파일의 두 번째 열을 해당 파일에 추가하는 것은 어떻습니까?
—
Ramesh
@Ramesh 출력이 정확하다면 완벽합니다.
—
Amelio Vazquez-Reina
나는 내가 무언가를 오해하고 있다고 생각한다. 그렇지 않으면
—
G-Man, 'Reinstate
awk -F, '{print ++n, $2}'
작동합니다. 또는 awk -F, '{print $2}'
두 번째 변형입니다.
@ G-Man, 아마 그
—
하겠지만
FNR
뿐만 아니라 서비스를 제공 ++n
나는 당신이 정말로 그 Uniq Identifier를 제거 할 수 있는지 세 번 확인하고 ... 인덱스로 첫 번째 (3) 열을 추가하지만 식별자를 계속 유지하는 이유는 무엇입니까? 그 식별자가 다른 곳에서 사용되지 않습니까?
—
Olivier Dulac