Por que os PDFs gerados no MS Word são tão grandes?

Por que os PDFs gerados no MS Word são tão grandes?

Criei um documento simples do MS Word contendo apenas esta frase:

Este é um pequeno documento.

Nada mais. Então salvei este documento como DOCX e PDF. Aqui estão os tamanhos dos arquivos:

DOCX:12kB
PDF:89kB

Essa diferença éenorme, tecnicamente, e isso realmente começa a me incomodar quando principalmente documentos textuais que sãodezenas de kBem DOCX comece a gerar PDFs que sãocentenas de KBgrande. O que há de tão ineficiente no formato PDF? Ou apenas o Word está usando algum algoritmo de saída terrível?

Aliás, as configurações de saída do PDF foram definidas para criar o menor arquivo possível:

Opções de saída de PDF

Responder1

Se você abrir o PDF no notepad++, encontrará:

9 0 obj
<</Filter/FlateDecode/Length 79100/Length1 171804>>
stream
xœì}    XTGºvÕ9½/t7Ðl
..... many more bytes  ...   ëH|  
endstream
endobj
10 0 obj

e esse objeto é referenciado aqui no final da instrução /FontFile2:

6 0 obj
<</Type/FontDescriptor/FontName/ABCDEE+Calibri/Flags 32/ItalicAngle 0/Ascent 750/Descent -250/CapHeight 750/AvgWidth 521/MaxWidth 1743/FontWeight 400/XHeight 250/StemV 52/FontBBox[ -503 -250 1240 750] /FontFile2 9 0 R>>
endobj

As fontes usadas pelo documento do Word são incorporadas ao PDF para que o PDF seja independente.

eu useiesta apresentação de slidespara decifrar as instruções do PDF.

Se você quiser evitar que as fontes sejam incorporadas no arquivo PDF, certifique-se de que seu documento do Word use um dos 14 tipos de letra padrão disponíveis nos visualizadores de PDF, (fonteWikipédia)

  • Times New Roman > Times (v3) (em regular, itálico, negrito e negrito itálico)
  • Courier New > Courier (em regular, oblíquo, negrito e negrito oblíquo)
  • Arial > Helvetica (v3) (em regular, oblíquo, negrito e negrito oblíquo)
  • Símbolo > Símbolo
  • Wingdings > Zapf Dingbats

Responder2

Isso já aconteceu comigo muitas vezes no Microsoft Word ao tentar exportar um manuscrito simples para PDF. Um documento Word de 5 a 8 páginas, com tamanho aproximado de 50 KB, terminará como um arquivo PDF com mais de 10 MB, que é grande demais para ser enviado por e-mail a alguém.

A resposta de Renéestá no caminho certo – o problema é que as fontes são incorporadas ao documento – mas apenas usar uma das fontes padrão não resolverá necessariamente o problema.

Todos os meus documentos estavam em Times New Roman, usando nada mais sofisticado do que negrito e itálico. Ou assim pensei. Acontece que eu tenho automáticokerningativado no meu modelo padrão (pararazões óbvias). Ao exportar para PDF, o Word estava na verdade incorporando cada uma dessas ligaduras como um objeto de fonte separado no documento, inchando-o além de qualquer crença.

A correção é simples, você só precisa se lembrar de fazer isso sempre:

  1. Selecione todo o texto do documento.
  2. Formatar → Fonte → Avançado
  3. Desmarque "Kerning para fontes"

Curiosamente, você pode deixar ligaduras, alternativas contextuais e outros recursos tipográficos avançados ativados; eles não têm efeito perceptível no tamanho do PDF resultante.

Exporte novamente o documento como PDF e ele terá cerca de cem KB. Infelizmente, o kerning é inferior, então eu não recomendaria imprimir dessa forma, mas funciona bem para enviar um documento por e-mail.

Responder3

Para dar uma resposta menos técnica que pode ajudar é que os PDFs usam vetores (ou seja: equações matemáticas) para descrever tudo o que você vê. Todas as curvas e linhas são definidas por equações matemáticas, e por isso haverá necessariamente muita informação para reter, principalmente quando você tem imagens em seus documentos.

A vantagem disso é que, teoricamente, você pode ampliar infinitamente sem perder qualquer resolução ou detalhe, porque as linhas e curvas não têm largura, portanto podem ser dimensionadas com o seu zoom.

Assim como a recente mudança de fonte do Google reduziu o tamanho do logotipo de aproximadamente 14 KB para aproximadamente 300B, fontes mais simples provavelmente ajudarão a reduzir o tamanho do arquivo.

informação relacionada