sexta-feira, setembro 29, 2023

Limpeza Word apos Conversao PDF

 

Ao fazer a conversão de arquivos PDF para Word, ocorre que internamente são inseridos muitos caracteres que acabam gerando uma apresentação não muito agradável em parte do texto. A seguir são apresentadas algumas formas de melhorar esta apresentação com base em experiências pessoais.

 Vale ressaltar que as informações aqui apresentadas são técnicas, e visa uma orientação para quem já tem conhecimento prévio do que se trata.

Espaço negativo

Um dos problemas apresentados na conversão é a geração de espaços em negativo, o que faz com que as palavras fiquem sobrepostas em algum dos trechos do texto.

A melhor solução apresentada é editar XML arquivo original DOCx.

Após a descompactação, encontre o XML principal e edite as seguintes tags exemplificadas abaixo

 <w:rPr><w:spacing w:val="-64"/></w:rPr>

<w:rPr><w:spacing w:val="-2"/></w:rPr>

<w:rPr><w:spacing w:val="-31"/></w:rPr>

 

Usando regular expression, alterar para espaço em branco

<w:rPr><w:spacing w:val="-\d\d"\/><\/w:rPr>

 

 

 

del.icio.us