Use o PowerShell para extrair string do formulário PDF e enviar para arquivo

Use o PowerShell para extrair string do formulário PDF e enviar para arquivo

Eu tenho esse código onde o objetivo é encontrar todos os arquivos PDF dentro de uma pasta que foram modificados em x dias (conforme entrada do usuário).

[void][Reflection.Assembly]::LoadWithPartialName('Microsoft.VisualBasic')
$title = 'PDF Last Modified'
$msg   = 'Days prior:'
$text = [Microsoft.VisualBasic.Interaction]::InputBox($msg, $title)
$headers = @{Expression={$_.CreationTime};Label="File Created";width=25}, `
@{Expression={$_.LastWriteTime};Label="File Edited";width=25}, `
@{Expression={"{0}" -f $_.FullName.Split("\")[-2]};Label="Folder";width=30}, `
@{Expression={$_.Name};Label="File Name";width=50}
Get-ChildItem -Path ..\ -Recurse -Filter *.pdf | Where-Object {$_.lastwritetime -gt (Get-Date).AddDays(-$text)} | sort LastWriteTime -descending | format-table $headers  |  out-file PDFOutput-$(get-date -f yyyy-MM-dd).txt -width 300

Há duas melhorias que eu gostaria de fazer.

  1. Cada um desses arquivos PDF é na verdade um formulário e, na parte inferior desse formulário, há uma sequência de números que identifica onde o formulário precisa ir. Eu sei que preciso usar itextsharp.dll para analisar o arquivo PDF; Gostaria de incluir no arquivo de saída após "Nome do arquivo" um cabeçalho "Destino" e incluir essa string do formulário PDF.

  2. Na janela inicial do VB-Input, ele pergunta quantos dias antes o script deve pesquisar. Gostaria de adicionar uma segunda entrada que solicite quaisquer parâmetros de pesquisa para o título, portanto, se o usuário inserir, por exemplo, "recibo", o script encontrará qualquer arquivo intituladorecibo.pdf (curingas de cada lado, para encontrar laptop-receipt-2015-11-17.pdf).

Qualquer ajuda muito apreciada!

Responder1

Não vejo muito esforço em concretizar seus planos.

  • Como Get-ChildItem não fornece uma propriedade, Destinationvocê mesmo deve adicioná-la com uma propriedade calculada.
  • salve os resultados do gci em uma variável e itere-a para executarseucódigo para obter o destino em cada arquivo.
  • modifique a tabela hash $headers para atender às suas necessidades (o rótulo/expressão pode ser abreviado)

Não há tempo para desenvolver o código itextsharp.dll crucial para você.

## Q:\Test\2019\03\23\SU_1416552.ps1
$Folder = (Get-Item ..).FullName

[void][Reflection.Assembly]::LoadWithPartialName('Microsoft.VisualBasic')

$title = 'PDF Last Modified'
$msg   = 'Days prior:'
$DaysPrior = [Microsoft.VisualBasic.Interaction]::InputBox($msg, $title)

$title = 'PDF Name Part'
$msg   = 'String:'
$Namepart = [Microsoft.VisualBasic.Interaction]::InputBox($msg, $title)

$PdfFiles = Get-ChildItem (Join-Path $Folder ("*{0}*" -f $NamePart)) -Recurse -File  -Filter *.pdf| 
    Where-Object LastWriteTime -gt (Get-Date).AddDays(-$DaysPrior) | 
    Sort-Object  LastWriteTime -descending | 
    Select-Object -Property FullName,Name,CreationTime,LastWriteTime,
                            @{L='Destination';E={$Null}}

foreach ($PdfFile in $PdfFiles){
    ##
    ## Insert **your** code to get FormField Destination
    ##
    $PdfFile.Destination = "string of numbers"
}

$headers = @{L="File Created";width=25;E={$_.CreationTime}},
           @{L="File Edited" ;width=25;E={$_.LastWriteTime}},
           @{L="Folder"      ;width=30;E={$_.FullName.Split("\")[-2]}},
           @{L="File Name"   ;width=50;E={$_.Name}},
           @{L="Destination" ;width=30;E={$_.Destination}}

$PdfFiles | Format-Table $headers  |  
   Out-File PDFOutput-$(get-date -f yyyy-MM-dd).txt -width 300

informação relacionada