Como posso copiar esta citação do PDF?

Como posso copiar esta citação do PDF?

Possível duplicata:
PDF tem texto distorcido ao copiar e colar

Estou lendo umCópia em PDFdo artigo de Jerome H. Friedman "Data Mining and Statistics: What's the Connection?" usando o Google Chrome.

Ele contém uma citação divertida que desejo copiar e colar no meu blog.

Usei o mouse para selecionar o texto da citação e pressionei CTRL+ Cpara copiar o texto. O documento fica assim:

Uma citação destacada do artigo de Jerome.

Quando colo o texto no Bloco de Notas, Stack Overflow ou em qualquer outro lugar, o produto é um jargão semelhante ao Wingdings:

➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣ ➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔ ❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇ P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶ ✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦ ✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇ ➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏

O texto deveria ficar assim:

Uma diferença entre estatísticos e cientistas da computação nesta área parece ser que quando um estatístico tem uma ideia, ele escreve um artigo; um cientista da computação abre uma empresa.

Tive que digitar esse texto manualmente. Isso é viável para uma cotação tão pequena, mas como copio o que vejo?

É algo incomum no PDF, no navegador, no plugin ou em alguma combinação dos três?

Responder1

A maneira mais confiável de fazer isso é usando OCR.

Mas como uma solução suja e rápida você pode usar o GoogleOlhada rápidaderesultado da pesquisapara o seu link, na opção de uso de visualização rápidaVer > HTML simples.

Ele ainda contém algum texto distorcido e é bastanteilegívelmas uma grande quantidade de texto está correta e copiável. A pesquisa funciona aqui para que você possa usá-la para localizar o texto de destino e copiá-lo sem qualquer texto distorcido.


Exemplo detalhado aqui:
Os resultados de pesquisa do Google para URL incluem o link Quick View.
Em seguida, use a opção ExibirHTML simples.
A Visualização Rápida possui opções para visualizar o documento como HTML.
No GoogleVersão HTML, você pode pesquisar e selecionar o texto equivalente assim:
Pesquise a versão HTML para encontrar e selecionar a cotação relevante.
Colar no Bloco de Notas produz esta saída:

Uma diferença entre estatísticos e cientistas da computação nesse campo parece ser que, quando um estatístico tem uma ideia, ele escreve um artigo; um cientista da computação abre uma empresa.

Não exatamente como exibido, mas próximo o suficiente para que você possa trabalhar com ele.

Responder2

Você terá que descartar o texto corrompido que já está associado ao PDF antes de poder refazê-lo com OCR. A maneira mais fácil de fazer isso é salvá-lo no formato TIFF, abri-lo com o Acrobat e refazê-lo com OCR. Quando fiz isso, funcionou para mim.

Responder3

Parece um PDF com codificação incorreta. Veja os seguintes tópicos:

Tente imprimir o PDF usandoPDF fofoe veja se o PDF resultante é melhor.

informação relacionada