Incorrect spacing in pdftotext output.
(Note: unless otherwise stated, the commands below are run on Linux)
The attached PDF (created with Abbyy 15, saved as PDF/A-3a), when run through poppler's pdftotext (pdftotext version 0.62.0), yields the following text:
$> pdftotext -enc UTF-8 -raw test-img-3a.pdf -
achter een pseudoniem verbergt Maar
er is vóór het pseudoniem toch veel te
zeggen. Er is misschien nog meer te
zeggen voor het anoniem, de lege
schrijversnaam opgebouwd uit twaalf
spaties. De besprekingen in de Times
Literary Supplement warenvroegerano <-- WRONG
niem. Na veel geduw en getrek zijn ze
nu ondertekend. Een van de argumen
ten was: het eindeloos geraai naar de
schrijvers. Nu zijn er al weer recensies
in de T.L.S. die onder pseudoniem zijn
geschreven.
Waarom pseudoniem, en waarom ano
niem, schrijven?
There's obviously something wrong with the spacing on that line that starts wit 'Literary'.
When saving this pdf as text (under Windows 10) in Acrobat Reader, the spacing of that line is correct.
Also, I investigated xpdf's version of pdftotext. I inspected output from xpdf pdftotext versions 3.02, 3.04, 4.01 and 4.02. Interestingly enough, up until version 4.01 (inclusive), it rendered exactly the same error as poppler's pdftotext.
Version 4.02 however rendered the correct spacing; apparently a path was made in xpdf pdftotext 4.02 that causes this text to be rendered correctly:
$> pdftotext -enc UTF-8 -raw test-img-3a.pdf -
achter een pseudoniem verbergt Maar
er is vóór het pseudoniem toch veel te
zeggen. Er is misschien nog meer te
zeggen voor het anoniem, de lege
schrijversnaam opgebouwd uit twaalf
spaties. De besprekingen in de Times
Literary Supplement waren vroeger ano <-- CORRECT
niem. Na veel geduw en getrek zijn ze
nu ondertekend. Een van de argumen
ten was: het eindeloos geraai naar de
schrijvers. Nu zijn er al weer recensies
in de T.L.S. die onder pseudoniem zijn
geschreven.
Waarom pseudoniem, en waarom ano
niem, schrijven?
Clearly, poppler's version of pdftotext incorrectly deviates from Acrobat's and xpdf's version of pdftotext. I am marking this as a bug.