為什麼 ls 排序會忽略非字母數字字元？

Question 1

編輯：新增了使用 LC_COLLATE=C 排序的資料的測試

預設整理順序將那些「標點類型」字元視為具有相同的值..Use LC_COLLATE=C以代碼點順序對待它們..

for i in 'a1' 'a_1' 'a-1' 'a,1' 'a.1' 'a2' 'a_2' 'a-2' 'a,2' 'a.2' ;do
  echo $i; 
done |LC_COLLATE=C sort

輸出

a,1
a,2
a-1
a-2
a.1
a.2
a1
a2
a_1
a_2

以下程式碼測試全部有效的基本多語言平面中的 UTF-8 字元（除了\x00和\x0a;為簡單起見）
它將已知（產生的）升序序列中的檔案與隨機排序的檔案進行比較，然後使用 LC_COLLATE=C 再次排序。結果表明，C序列與原始產生的序列相同。

{ i=0 j=0 k=0 l=0
  for i in {0..9} {A..F} ;do
  for j in {0..9} {A..F} ;do
  for k in {0..9} {A..F} ;do
  for l in {0..9} {A..F} ;do
     (( 16#$i$j$k$l == 16#0000 )) && { printf '.' >&2; continue; }
     (( 16#$i$j$k$l == 16#000A )) && { printf '.' >&2; continue; }
     (( 16#$i$j$k$l >= 16#D800    && 
        16#$i$j$k$l <= 16#DFFF )) && { printf '.' >&2; continue; }
     (( 16#$i$j$k$l >= 16#FFFE )) && { printf '.' >&2; continue; }
     echo 0x"$i$j$k$l" |recode UTF-16BE/x4..UTF-8 || { echo "ERROR at codepoint $i$j$k$l " >&2; continue; } 
     echo 
  done
  done
  done; echo -n "$i$j$k$l " >&2
  done; echo >&2
} >listGen

             sort -R listGen    > listRandom
LC_COLLATE=C sort    listRandom > listCsort 

diff <(cat listGen;   echo "last line of listOrig " ) \
     <(cat listCsort; echo "last line of listCsort" )
echo 
cmp listGen listCsort; echo 'cmp $?='$?

輸出：

63485c63485
< last line of listOrig 
---
> last line of listCsort

cmp $?=0

Answer

編輯：新增了使用 LC_COLLATE=C 排序的資料的測試

預設整理順序將那些「標點類型」字元視為具有相同的值..Use LC_COLLATE=C以代碼點順序對待它們..

for i in 'a1' 'a_1' 'a-1' 'a,1' 'a.1' 'a2' 'a_2' 'a-2' 'a,2' 'a.2' ;do
  echo $i; 
done |LC_COLLATE=C sort

輸出

a,1
a,2
a-1
a-2
a.1
a.2
a1
a2
a_1
a_2

以下程式碼測試全部有效的基本多語言平面中的 UTF-8 字元（除了\x00和\x0a;為簡單起見）
它將已知（產生的）升序序列中的檔案與隨機排序的檔案進行比較，然後使用 LC_COLLATE=C 再次排序。結果表明，C序列與原始產生的序列相同。

{ i=0 j=0 k=0 l=0
  for i in {0..9} {A..F} ;do
  for j in {0..9} {A..F} ;do
  for k in {0..9} {A..F} ;do
  for l in {0..9} {A..F} ;do
     (( 16#$i$j$k$l == 16#0000 )) && { printf '.' >&2; continue; }
     (( 16#$i$j$k$l == 16#000A )) && { printf '.' >&2; continue; }
     (( 16#$i$j$k$l >= 16#D800    && 
        16#$i$j$k$l <= 16#DFFF )) && { printf '.' >&2; continue; }
     (( 16#$i$j$k$l >= 16#FFFE )) && { printf '.' >&2; continue; }
     echo 0x"$i$j$k$l" |recode UTF-16BE/x4..UTF-8 || { echo "ERROR at codepoint $i$j$k$l " >&2; continue; } 
     echo 
  done
  done
  done; echo -n "$i$j$k$l " >&2
  done; echo >&2
} >listGen

             sort -R listGen    > listRandom
LC_COLLATE=C sort    listRandom > listCsort 

diff <(cat listGen;   echo "last line of listOrig " ) \
     <(cat listCsort; echo "last line of listCsort" )
echo 
cmp listGen listCsort; echo 'cmp $?='$?

輸出：

63485c63485
< last line of listOrig 
---
> last line of listCsort

cmp $?=0

Question 2

這與字符集無關。相反，是語言決定了排序規則。 libc 檢查$LC_COLLATE//$LC_ALL中呈現的語言$LANG並尋找其排序規則（例如/usr/share/i18n/locales/*GLibC）並按指示對文字進行排序。

Answer

這與字符集無關。相反，是語言決定了排序規則。 libc 檢查$LC_COLLATE//$LC_ALL中呈現的語言$LANG並尋找其排序規則（例如/usr/share/i18n/locales/*GLibC）並按指示對文字進行排序。

Question 3

我對 Debian 的預設排序選項遇到了完全相同的問題，對我來說，它忽略了一個逗號，這阻止了我有效地對 CSV 資料進行排序，從而對我的 AI 造成嚴重破壞。

解決方案是，sort我需要強制排序似乎是的預設行為，而不是單獨使用它-d, --dictionary-order。

運行命令：

sort -V

解決我的問題並考慮逗號。

Answer