Warum ist WC so langsam?

Question 1

Ich habe mir also die Quelle angesehen und es sieht so aus, als ob die Verlangsamung bei der Verarbeitung von Doppelbyte-Zeichen liegt. Im Wesentlichen muss für jedes eingelesene Zeichen ein Aufruf durchgeführt werden, um zu mbrtowc()versuchen, es in ein breites Zeichen umzuwandeln. Anschließend wird dieses breite Zeichen getestet, um festzustellen, ob es ein Worttrennzeichen, Zeilentrennzeichen usw. ist.

LANGWenn ich meine Gebietsschemavariable tatsächlich vom Standard ändere en_US.UTF-8(UTF-8 ist ein Mehrbyte-Zeichensatz) und sie auf " C" (einfacher Einzelbyte-Zeichensatz) setze, wckann ich Einzelbyte-Optimierungen verwenden, was den Vorgang erheblich beschleunigt und nur etwa ein Viertel der Zeit in Anspruch nimmt wie zuvor.

Außerdem muss es nur jedes Zeichen überprüfen, wenn es Wort- ( -w), Zeilenlängen- ( -L) oder Zeichenzählungen ( -m) durchführt. Wenn es nur Byte- und/oder Zeilenzählungen durchführt, kann es die Verarbeitung breiter Zeichen überspringen und läuft dann extrem schnell – schneller als md5sum.

Ich habe es durchlaufen lassen , und die Funktionen, die zum Verarbeiten der Multibyte-Zeichen ( , , , usw.) gprofverwendet werden, nehmen alleine etwa 30 % der Ausführungszeit in Anspruch, und der Code, der den Puffer durchläuft, ist viel komplexer, weil er Schritte variabler Größe durch den Puffer für Zeichen variabler Größe verarbeiten muss, sowie alle teilweise vervollständigten Zeichen, die den Puffer umfassen, wieder an den Anfang des Puffers zurückstopfen muss, damit sie beim nächsten Mal verarbeitet werden können.mymbsinit()mymbrtowc()myiswprint()

Nachdem ich nun weiß, wonach ich suchen muss, habe ich einige Posts gefunden, in denen die Langsamkeit von UTF-8 bei einigen Dienstprogrammen erwähnt wird:

https://stackoverflow.com/questions/13913014/grepping-a-huge-file-80gb-any-way-to-speed-it-up http://dtrace.org/blogs/brendan/2011/12/08/2000x-performance-win/

Answer

Ich habe mir also die Quelle angesehen und es sieht so aus, als ob die Verlangsamung bei der Verarbeitung von Doppelbyte-Zeichen liegt. Im Wesentlichen muss für jedes eingelesene Zeichen ein Aufruf durchgeführt werden, um zu mbrtowc()versuchen, es in ein breites Zeichen umzuwandeln. Anschließend wird dieses breite Zeichen getestet, um festzustellen, ob es ein Worttrennzeichen, Zeilentrennzeichen usw. ist.

LANGWenn ich meine Gebietsschemavariable tatsächlich vom Standard ändere en_US.UTF-8(UTF-8 ist ein Mehrbyte-Zeichensatz) und sie auf " C" (einfacher Einzelbyte-Zeichensatz) setze, wckann ich Einzelbyte-Optimierungen verwenden, was den Vorgang erheblich beschleunigt und nur etwa ein Viertel der Zeit in Anspruch nimmt wie zuvor.

Außerdem muss es nur jedes Zeichen überprüfen, wenn es Wort- ( -w), Zeilenlängen- ( -L) oder Zeichenzählungen ( -m) durchführt. Wenn es nur Byte- und/oder Zeilenzählungen durchführt, kann es die Verarbeitung breiter Zeichen überspringen und läuft dann extrem schnell – schneller als md5sum.

Ich habe es durchlaufen lassen , und die Funktionen, die zum Verarbeiten der Multibyte-Zeichen ( , , , usw.) gprofverwendet werden, nehmen alleine etwa 30 % der Ausführungszeit in Anspruch, und der Code, der den Puffer durchläuft, ist viel komplexer, weil er Schritte variabler Größe durch den Puffer für Zeichen variabler Größe verarbeiten muss, sowie alle teilweise vervollständigten Zeichen, die den Puffer umfassen, wieder an den Anfang des Puffers zurückstopfen muss, damit sie beim nächsten Mal verarbeitet werden können.mymbsinit()mymbrtowc()myiswprint()

Nachdem ich nun weiß, wonach ich suchen muss, habe ich einige Posts gefunden, in denen die Langsamkeit von UTF-8 bei einigen Dienstprogrammen erwähnt wird:

https://stackoverflow.com/questions/13913014/grepping-a-huge-file-80gb-any-way-to-speed-it-up http://dtrace.org/blogs/brendan/2011/12/08/2000x-performance-win/

Question 2

Nur eine Vermutung, aber Sie vergleichen gewissermaßen Äpfel mit Birnen, was das, wcwas geschieht, und das, was md5sumgeschieht, betrifft.

md5sums Aufgabe

Bei md5sumder Verarbeitung einer Datei wird die Datei einfach als Stream geöffnet und dann der Stream durch denMD5-Prüfsummenfunktiondas sehr wenig Speicher benötigt. Es ist im Wesentlichen an CPU und Festplatten-E/A gebunden.

WCs Aufgabe

Beim wcAusführen tut es viel mehr, als nur die Datei Zeichen für Zeichen zu analysieren. Es muss die Struktur der Datei tatsächlich Zeile für Zeile analysieren und feststellen, wo die Grenzen zwischen den Zeichen sind und ob es sich um eine Wortgrenze handelt oder nicht.

Beispiel

Denken Sie an die folgenden Zeichenfolgen und daran, wie sich jeder der Algorithmen beim Parsen durch sie bewegen müsste:

“Hello! Greg”
“Hello!Greg”
“Hello\nGreg”
“A.D.D.”
“Wow, how great!”
“wow     \n\n\n    great”
“it was a man-eating shark.”

Bei MD5 bewegt es sich trivial durch diese Zeichenfolgen, Zeichen für Zeichen. Denn wces muss entscheiden, was eine Wort- und Zeilengrenze ist, und die Anzahl der Vorkommen, die es sieht, im Auge behalten.

Weitere WC-Diskussionen

ich habe das gefundenProgrammier-Challenge von 2006in dem die Implementierung wcin .NET erläutert wird. Die Schwierigkeiten sind ziemlich offensichtlich, wenn Sie sich den Pseudocode ansehen. Dies könnte also helfen, Licht in die Frage zu bringen, warum es wcso viel langsamer zu sein scheint als andere Vorgänge.

Answer

Nur eine Vermutung, aber Sie vergleichen gewissermaßen Äpfel mit Birnen, was das, wcwas geschieht, und das, was md5sumgeschieht, betrifft.

md5sums Aufgabe

Bei md5sumder Verarbeitung einer Datei wird die Datei einfach als Stream geöffnet und dann der Stream durch denMD5-Prüfsummenfunktiondas sehr wenig Speicher benötigt. Es ist im Wesentlichen an CPU und Festplatten-E/A gebunden.

WCs Aufgabe

Beim wcAusführen tut es viel mehr, als nur die Datei Zeichen für Zeichen zu analysieren. Es muss die Struktur der Datei tatsächlich Zeile für Zeile analysieren und feststellen, wo die Grenzen zwischen den Zeichen sind und ob es sich um eine Wortgrenze handelt oder nicht.

Beispiel

Denken Sie an die folgenden Zeichenfolgen und daran, wie sich jeder der Algorithmen beim Parsen durch sie bewegen müsste:

“Hello! Greg”
“Hello!Greg”
“Hello\nGreg”
“A.D.D.”
“Wow, how great!”
“wow     \n\n\n    great”
“it was a man-eating shark.”

Bei MD5 bewegt es sich trivial durch diese Zeichenfolgen, Zeichen für Zeichen. Denn wces muss entscheiden, was eine Wort- und Zeilengrenze ist, und die Anzahl der Vorkommen, die es sieht, im Auge behalten.

Weitere WC-Diskussionen

ich habe das gefundenProgrammier-Challenge von 2006in dem die Implementierung wcin .NET erläutert wird. Die Schwierigkeiten sind ziemlich offensichtlich, wenn Sie sich den Pseudocode ansehen. Dies könnte also helfen, Licht in die Frage zu bringen, warum es wcso viel langsamer zu sein scheint als andere Vorgänge.

Warum ist WC so langsam?

Antwort1

Antwort2

md5sums Aufgabe

WCs Aufgabe

Beispiel

Weitere WC-Diskussionen

verwandte Informationen