
我的電子郵件中有幾個月的 Google 快訊,我想在網路上的某個地方(例如在 MediaWiki wiki 上)分享它們。有沒有簡單的方法可以導出它們?
警報包含此類 HTML(從 Thunderbird 看到):
<div style="color:#fff;font-size:9px;letter-spacing:0.8px"> <div style="padding:3px 0px 4px 4px;background:rgb(255,255,255);background-color:rgba(0,0,0,0.5);width:96px">La Provincia di Biella</div> </div> <!--[if gte mso 9]></div><![endif]--> </td> </tr> </table> </a> <div> <span style="padding:0px 6px 0px 0px"> <a href="https://www.google.com/url?rct=j&sa=t&url=http://www.laprovinciadibiella.it/web/castelletto-cervo-nei-siti-cluniacensi-9458&ct=ga&cd=CAEYACoTMzc2NjcxMzA4NDYzNjc4NjUwMjIZZThjOGE1NjBlZjA5ZDRkMDppdDppdDpJVA&usg=AFQjCNEW4QKACEvE_AbGrMGOBJ2y4dFSIw" style="color:#427fed;display:inline;text-decoration:none;font-size:16px;line-height:20px">Castelletto Cervo nei siti cluniacensi</a> </span> <div> <div style="padding:2px 0px 8px 0px"> <div style="color:#737373;font-size:12px"> <a style="text-decoration:none;color:#737373">La Provincia di Biella</a> </div>
答案1
這為我工作:
- 從 Thunderbird 目錄中的電子郵件下載警報;
- 安裝 ImportExportTools 外掛程式並將整個目錄匯出為 HTML;
- 轉到導出目錄並運行:
find * -print0 | xargs -0 -I § bash -c 'NAME="§"; DATE="{{#time:j F Y| ${NAME:0:8} }}"; grep --text -Eo "ru=([^&]+)&" "§" | sed "s,ru=,;$DATE:,g" | sed "s,&,,g" ; ' | sort -ru
我使用;$DATE:
每個 URL 作為前綴,因為這是有意義的維基文本,解析器函數允許輕鬆轉換匯出檔案使用的“AAAAMDD”格式。你可以用任何東西代替。
更聰明的版本可以將 URL 傳送到 Zotero 或 Citoid 以獲取正確的引用,或者可以解析原始 HTML 以提取更多資訊。 2014 年 1 月 18 日之前的警報的 HTML 格式似乎有所不同。
使用 GNU findutils 4.5.12、bash 4.3.42 進行測試。
TODO:下載「查看更多文章」連結並解析它們。在繁忙的日子裡,電子郵件僅包含隨機選擇的「熱門」新聞。