
Итак, у меня есть этот огромный текстовый файл. И я пытаюсь удалить все события после дат.
Пример
1900 Sigmund Freud published 'Interpretation of Dreams' marking the beginning of Psychoanalytic Thought.
Результат :
1900
//Документ охватывает период с 1550 г. до н.э. по 2015 г.
решение1
Если год всегда состоит из 4 цифр в начале строки, как в вашем примере, то вы можете зафиксировать его с помощью следующего регулярного выражения:
^([0-9]{1,4}( BCE)?)