我正在嘗試導入以下內容CSV資料集匯入Excel。我正在使用文字導入精靈來設定正確的分隔符號。到目前為止,我使用了“;”和“,”分隔符號。
這裡是結果迄今為止。資料集看起來很好,直到第 493 行。不再對齊。
以下是 Notepad++ 中發生的情況的快照:
我已經問過這個問題了這裡,但到目前為止這個問題還沒有解決。我也考慮過採納以下建議這超級用戶問題,但我認為我不能在這種情況下應用它,因為要使用的字元組合是“「,”,而Notepad++似乎無法辨識\R(?="";")
文件中的內容。
我現在正在考慮通過添加以“開頭的行來解決這個問題「,” 上一行的字元組合。
問題:我應該如何格式化這個 CSV 資料集,使所有行都以「開頭「,」放在各自之前的線路上? (在 Notepad++ 或 Excel 中。)
答案1
在我看來,這是一項資料清理任務原始文件從上面的下載連結。我的答案是基於這個文件!這與您問題中顯示的螢幕截圖不同。
除了從第 493 行開始的不同格式之外,還有一些特殊字符,例如長連字符和更多問題。請注意,資料集中還有控製字元(製表符),應將其刪除。
請注意,CSV 檔案不是 Windows 檔案格式:
\n
= LF(換行)→ 在 Unix/Mac OS X 中用作換行符\r\n
= CR + LF → 在 Windows 中用作換行符
請確保在開始之前複製您的文件,並使用 Notepad++ 進行一些手動工作來嘗試這個快速而骯髒的解決方案。
(1)設定特殊字元以供日後使用:
- Ctrl+H
- 找什麼:
\"\n
- 用。
\"#\n
- 查看 環繞
- 查看 正規表示式
- Replace all
(2)替換所有LF
- 找什麼:
\n
- 用。
LEAVE EMPTY
- 查看 環繞
- 查看 正規表示式
- Replace all
(3) 重設乾淨換行
- 找什麼:
\"#
- 用。
\"\n
- 查看 環繞
- 查看 正規表示式
- Replace all
(4) 搜尋行 尋找內容^","
並透過刪除換行手動編輯少於 20 行。
順便說一句 - 我注意到這些記錄是有地理參考的。 Excel 可能不太適合這個(請參閱下面的 QGIS 螢幕截圖)。