Майнинг простого текста

Question 1

Давайте разобьем процесс (поиска) на более мелкие части.

Сначала нам нужно получить список файлов, в которых вы хотите выполнить поиск, например, в текущем каталоге ( .) все файлы с расширением txt ( -name "*.txt"), которые, безусловно, являются файлами ( -type f):

find . -name "*.txt" -type f

Этот результат можно использовать в качестве входных данных для grepпоиска somethingвнутри этих файлов, включая номер строки и имя файла в вывод, игнорируя регистр ( -nHi), +в конечном итоге это гарантирует, что все файлы будут просмотрены за одно выполнение (а не по одному за раз):

find . -name "*.txt" -type f -exec grep -nHi 'something' {} +

Если количество файлов слишком велико (> $ARG_MAX), вам следует заменить+с \;.

Вывод предыдущей команды выглядит примерно так:

./some/dir/somewhere/songs.txt:128:But had me believing it was always something that I'd done
./some/dir/somewhere/songs.txt:883:Was never something I pursued
./some/dir/somewhere/songs.txt:2905:I know something about love 
./some/dir/somewhere/songs_other.txt:11780:will come across something like this:  F (Dshape).

Таким образом, если разделить эти строки, то :получится 3 компонента: имя файла, номер строки, в которой было найдено совпадение, и сама строка.

Теперь, если вы сохраните эту информацию для каждого совпавшего файла, вы можете выполнить поиск следующих терминов и суммировать расстояние соответствия, чтобы найти файлы, в которых искомые термины находятся ближе всего.

Для вашего примера текста, если вы ищете ваши 3 термина ( personality, clear thought, victim), вы получили соответствующие номера строк 1, 5 и 2, поэтому расстояние для этого файла (начиная с первого термина)

abs(1-5) + abs(1-2) = 5

Таким образом, вы можете сортировать файлы в зависимости от того, содержат ли они все термины и находятся ли они ближе всего к данному файлу.

Конечно, это не полная картина, например, некоторые файлы содержат один и тот же термин несколько раз, и этому алгоритму приходится принимать некоторые решения о том, как вычислять расстояния, но я думаю, что вышеизложенное — это то, с чего можно начать.

Answer

Давайте разобьем процесс (поиска) на более мелкие части.

Сначала нам нужно получить список файлов, в которых вы хотите выполнить поиск, например, в текущем каталоге ( .) все файлы с расширением txt ( -name "*.txt"), которые, безусловно, являются файлами ( -type f):

find . -name "*.txt" -type f

Этот результат можно использовать в качестве входных данных для grepпоиска somethingвнутри этих файлов, включая номер строки и имя файла в вывод, игнорируя регистр ( -nHi), +в конечном итоге это гарантирует, что все файлы будут просмотрены за одно выполнение (а не по одному за раз):

find . -name "*.txt" -type f -exec grep -nHi 'something' {} +

Если количество файлов слишком велико (> $ARG_MAX), вам следует заменить+с \;.

Вывод предыдущей команды выглядит примерно так:

./some/dir/somewhere/songs.txt:128:But had me believing it was always something that I'd done
./some/dir/somewhere/songs.txt:883:Was never something I pursued
./some/dir/somewhere/songs.txt:2905:I know something about love 
./some/dir/somewhere/songs_other.txt:11780:will come across something like this:  F (Dshape).

Таким образом, если разделить эти строки, то :получится 3 компонента: имя файла, номер строки, в которой было найдено совпадение, и сама строка.

Теперь, если вы сохраните эту информацию для каждого совпавшего файла, вы можете выполнить поиск следующих терминов и суммировать расстояние соответствия, чтобы найти файлы, в которых искомые термины находятся ближе всего.

Для вашего примера текста, если вы ищете ваши 3 термина ( personality, clear thought, victim), вы получили соответствующие номера строк 1, 5 и 2, поэтому расстояние для этого файла (начиная с первого термина)

abs(1-5) + abs(1-2) = 5

Таким образом, вы можете сортировать файлы в зависимости от того, содержат ли они все термины и находятся ли они ближе всего к данному файлу.

Конечно, это не полная картина, например, некоторые файлы содержат один и тот же термин несколько раз, и этому алгоритму приходится принимать некоторые решения о том, как вычислять расстояния, но я думаю, что вышеизложенное — это то, с чего можно начать.

Question 2

Простая однострочная команда Perl может выполнить эту работу. Следующий код выведет имя файла, за которым последует «found», если все ключевые слова (т. е. personalityи clear thoughtи victimприсутствуют в файле).

perl -0777 -ane 'print "$ARGV: found\n" if /^(?=.*personality)(?=.*clear thought)(?=.*victim)/s' file.txt

Выход:

file.txt: found

Объяснение:

-0777       # slurp mode
-ane        # read the file ans execute the following
print "$ARGV: found\n"      # print,$ARGV contains the current filename
if                          # if
  /                         # regex delimiter
    ^                       # begining of file
      (?=.*personality)     # positive lookahead, make sure we have "personality"
      (?=.*clear thought)   # positive lookahead, make sure we have "clear thought"
      (?=.*victim)          # positive lookahead, make sure we have "victim"
  /s                        # regex delimiter, s = dot matches newline

Если вы хотите искать во всех txt-файлах, используйтеperl ...... *.txt

Answer

Простая однострочная команда Perl может выполнить эту работу. Следующий код выведет имя файла, за которым последует «found», если все ключевые слова (т. е. personalityи clear thoughtи victimприсутствуют в файле).

perl -0777 -ane 'print "$ARGV: found\n" if /^(?=.*personality)(?=.*clear thought)(?=.*victim)/s' file.txt

Выход:

file.txt: found

Объяснение:

-0777       # slurp mode
-ane        # read the file ans execute the following
print "$ARGV: found\n"      # print,$ARGV contains the current filename
if                          # if
  /                         # regex delimiter
    ^                       # begining of file
      (?=.*personality)     # positive lookahead, make sure we have "personality"
      (?=.*clear thought)   # positive lookahead, make sure we have "clear thought"
      (?=.*victim)          # positive lookahead, make sure we have "victim"
  /s                        # regex delimiter, s = dot matches newline

Если вы хотите искать во всех txt-файлах, используйтеperl ...... *.txt

Майнинг простого текста

решение1

решение2

Связанный контент