
Possível duplicata:
PDF tem texto distorcido ao copiar e colar
Estou lendo umCópia em PDFdo artigo de Jerome H. Friedman "Data Mining and Statistics: What's the Connection?" usando o Google Chrome.
Ele contém uma citação divertida que desejo copiar e colar no meu blog.
Usei o mouse para selecionar o texto da citação e pressionei CTRL+ Cpara copiar o texto. O documento fica assim:
Quando colo o texto no Bloco de Notas, Stack Overflow ou em qualquer outro lugar, o produto é um jargão semelhante ao Wingdings:
➣✍❺❼⑤➭✸❸❊➁❥❸❊⑥▼❽❾❸✘➎✳❸❾②❘➊➥❸❊❸❊⑥❦⑨❘②③✇▲➆ ②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥▼⑨❏✇➄⑥▼❺➌❽❾❻➀➍♣ ➂⑦❶❼②❥❸❊➁❷⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②③⑨✘⑤⑥☎②❥➇⑦⑤⑩⑨ ➔ ❸❊➅⑩❺➌⑨❹❸❊❸❊➍P⑨①②❥❻ ➎✳❸❏②❥➇▼✇▲②➟➊❚➇⑦❸❊⑥✆✇ P⑨❘②③✇▲②❥⑤⑩⑨❘②❥⑤⑩❽❾⑤⑩✇➄⑥❦➇▼✇➀⑨↔✇➄⑥❦⑤⑩❺❼❸✶ ✇♣➇⑦❸❷❻➀➁↔⑨❹➇⑦❸❷➊❚➁❥⑤②❥❸✶⑨ ✇❨➂▼✇➄➂✳❸❊➁✶Þ⑦ ✇♣❽❾❻➀➍♣➂⑦❶❼②❥❸❊➁➟⑨❥❽❾⑤❸❊⑥✗②❥⑤⑩⑨❘②↔⑨❘②③✇ ➄➁❹②③⑨❚✇♣❽❾❻➀➍♣➂▼✇➄⑥☛➧➀➏
O texto deveria ficar assim:
Uma diferença entre estatísticos e cientistas da computação nesta área parece ser que quando um estatístico tem uma ideia, ele escreve um artigo; um cientista da computação abre uma empresa.
Tive que digitar esse texto manualmente. Isso é viável para uma cotação tão pequena, mas como copio o que vejo?
É algo incomum no PDF, no navegador, no plugin ou em alguma combinação dos três?
Responder1
A maneira mais confiável de fazer isso é usando OCR.
Mas como uma solução suja e rápida você pode usar o GoogleOlhada rápidaderesultado da pesquisapara o seu link, na opção de uso de visualização rápidaVer > HTML simples.
Ele ainda contém algum texto distorcido e é bastanteilegívelmas uma grande quantidade de texto está correta e copiável. A pesquisa funciona aqui para que você possa usá-la para localizar o texto de destino e copiá-lo sem qualquer texto distorcido.
Exemplo detalhado aqui:

Em seguida, use a opção ExibirHTML simples.

No GoogleVersão HTML, você pode pesquisar e selecionar o texto equivalente assim:

Colar no Bloco de Notas produz esta saída:
Uma diferença entre estatísticos e cientistas da computação nesse campo parece ser que, quando um estatístico tem uma ideia, ele escreve um artigo; um cientista da computação abre uma empresa.
Não exatamente como exibido, mas próximo o suficiente para que você possa trabalhar com ele.
Responder2
Você terá que descartar o texto corrompido que já está associado ao PDF antes de poder refazê-lo com OCR. A maneira mais fácil de fazer isso é salvá-lo no formato TIFF, abri-lo com o Acrobat e refazê-lo com OCR. Quando fiz isso, funcionou para mim.
Responder3
Parece um PDF com codificação incorreta. Veja os seguintes tópicos:
Tente imprimir o PDF usandoPDF fofoe veja se o PDF resultante é melhor.