Я использую DownThemAll и немного регулярных выражений для извлечения файлов с веб-страницы.
Мой фильтр DownThemAll настроен следующим образом:/\.(?:pdf|doc|docx|xls|xlsx|ppt|zip)$/i
Однако каждая страница также включает файл WBSDictionary.xls, который я хотел бы исключить.
Я пробовал, /(?!WBSDictionary)\.(?:pdf|doc|docx|xls|xlsx|ppt|zip)$/i
но безрезультатно. Я делаю это неправильно, или реализация регулярных выражений DTA просто не поддерживает это?
Я новичок в регулярных выражениях.
решение1
Попробуйте включить файлы с расширениями pdf|doc|docx|xls|xlsx|ppt|zip
, исключив файлWBSDictionary.xls
/^(?!.*WBSDictionary\.xls$).*\.(pdf|doc|docx|xls|xlsx|ppt|zip)$/i
надеюсь, это поможет