이것은 큰 (50GB) 파일로 어떻게했는지입니다.
두 가지 방법으로 시도했습니다. 첫 번째는 파일을 메모리로 읽고 Regex Replace 또는 String Replace를 사용하는 것입니다. 그런 다음 전체 문자열을 임시 파일에 추가했습니다.
첫 번째 방법은 몇 가지 정규식 대체에 적합하지만 Regex.Replace 또는 String.Replace는 큰 파일에서 대체를 많이 수행하면 메모리 부족 오류가 발생할 수 있습니다.
두 번째는 임시 파일을 한 줄씩 읽고 StringBuilder를 사용하여 각 줄을 수동으로 작성하고 처리 된 각 줄을 결과 파일에 추가하는 것입니다. 이 방법은 매우 빠르다.
static void ProcessLargeFile()
{
if (File.Exists(outFileName)) File.Delete(outFileName);
string text = File.ReadAllText(inputFileName, Encoding.UTF8);
// EX 1 This opens entire file in memory and uses Replace and Regex Replace --> might cause out of memory error
text = text.Replace("</text>", "");
text = Regex.Replace(text, @"\<ref.*?\</ref\>", "");
File.WriteAllText(outFileName, text);
// EX 2 This reads file line by line
if (File.Exists(outFileName)) File.Delete(outFileName);
using (var sw = new StreamWriter(outFileName))
using (var fs = File.OpenRead(inFileName))
using (var sr = new StreamReader(fs, Encoding.UTF8)) //use UTF8 encoding or whatever encoding your file uses
{
string line, newLine;
while ((line = sr.ReadLine()) != null)
{
//note: call your own replace function or use String.Replace here
newLine = Util.ReplaceDoubleBrackets(line);
sw.WriteLine(newLine);
}
}
}
public static string ReplaceDoubleBrackets(string str)
{
//note: this replaces the first occurrence of a word delimited by [[ ]]
//replace [[ with your own delimiter
if (str.IndexOf("[[") < 0)
return str;
StringBuilder sb = new StringBuilder();
//this part gets the string to replace, put this in a loop if more than one occurrence per line.
int posStart = str.IndexOf("[[");
int posEnd = str.IndexOf("]]");
int length = posEnd - posStart;
// ... code to replace with newstr
sb.Append(newstr);
return sb.ToString();
}