<html xmlns:v="urn:schemas-microsoft-com:vml" xmlns:o="urn:schemas-microsoft-com:office:office" xmlns:w="urn:schemas-microsoft-com:office:word" xmlns:m="http://schemas.microsoft.com/office/2004/12/omml" xmlns="http://www.w3.org/TR/REC-html40"><head><meta http-equiv=Content-Type content="text/html; charset=utf-8"><meta name=Generator content="Microsoft Word 15 (filtered medium)"><style><!--
/* Font Definitions */
@font-face
        {font-family:"Cambria Math";
        panose-1:2 4 5 3 5 4 6 3 2 4;}
@font-face
        {font-family:Calibri;
        panose-1:2 15 5 2 2 2 4 3 2 4;}
/* Style Definitions */
p.MsoNormal, li.MsoNormal, div.MsoNormal
        {margin:0in;
        font-size:11.0pt;
        font-family:"Calibri",sans-serif;}
a:link, span.MsoHyperlink
        {mso-style-priority:99;
        color:blue;
        text-decoration:underline;}
span.EmailStyle19
        {mso-style-type:personal-reply;
        font-family:"Calibri",sans-serif;
        color:windowtext;}
.MsoChpDefault
        {mso-style-type:export-only;
        font-size:10.0pt;}
@page WordSection1
        {size:8.5in 11.0in;
        margin:1.0in 1.0in 1.0in 1.0in;}
div.WordSection1
        {page:WordSection1;}
--></style><!--[if gte mso 9]><xml>
<o:shapedefaults v:ext="edit" spidmax="1026" />
</xml><![endif]--><!--[if gte mso 9]><xml>
<o:shapelayout v:ext="edit">
<o:idmap v:ext="edit" data="1" />
</o:shapelayout></xml><![endif]--></head><body lang=EN-US link=blue vlink=purple style='word-wrap:break-word'><div class=WordSection1><p class=MsoNormal>Jack,<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>It is quite common in bank statement PDF’s to have transactions be formatted like this (I hope the alignment works, I will format as fixed-font to try to help):<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal><span style='font-family:"Courier New"'>MM/DD/YY   Payee Name                 Amount paid          Running balance<o:p></o:p></span></p><p class=MsoNormal><span style='font-family:"Courier New"'>           Additional info about payment<o:p></o:p></span></p><p class=MsoNormal><span style='font-family:"Courier New"'>           Can be multiple lines<o:p></o:p></span></p><p class=MsoNormal><span style='font-family:"Courier New"'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-family:"Courier New"'>MM/DD/YY   Next Payee Name            Amount Paid          Running balance<o:p></o:p></span></p><p class=MsoNormal><span style='font-family:"Courier New"'><o:p> </o:p></span></p><p class=MsoNormal><span style='font-family:"Courier New"'>MM/DD/YY   DEPOSIT                    Amount deposited      Running Balance<o:p></o:p></span></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>So when the PDF is translated to text, those “additional info” line(s) appear as separate physical lines without the MM/DD/YY header or any money amounts following.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Depending heavily on the PDF construction, I have also (but rarely) seen the money amounts (paid or deposited and balance) show up on the SECOND line after conversion of the PDF to text.  The pdftotext “-layout” switch has improved over time to where I seldom see this any more, but it can happen.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Like I said, it can get complicated.<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><p class=MsoNormal>Peter<o:p></o:p></p><p class=MsoNormal><o:p> </o:p></p><div style='border:none;border-left:solid blue 1.5pt;padding:0in 0in 0in 4.0pt'><div><div style='border:none;border-top:solid #E1E1E1 1.0pt;padding:3.0pt 0in 0in 0in'><p class=MsoNormal><b>From:</b> KMyMoney <kmymoney-bounces@kde.org> <b>On Behalf Of </b>Jack<br><b>Sent:</b> Thursday, December 31, 2020 3:14 PM<br><b>To:</b> kmymoney@kde.org<br><b>Subject:</b> Re: More pdf2kmymoney (overflos/wrapping lines)<o:p></o:p></p></div></div><p class=MsoNormal><o:p> </o:p></p><div><p class=MsoNormal>I started this yesterday, and I know there have been additional posts since, but I think this particular point hasn't been resolved.<o:p></o:p></p></div><div><p class=MsoNormal><o:p> </o:p></p></div><div><p class=MsoNormal>On 12/30/20 8:59 PM, <a href="mailto:pjfarley3@earthlink.net">pjfarley3@earthlink.net</a> wrote:<o:p></o:p></p></div><blockquote style='margin-top:5.0pt;margin-bottom:5.0pt'><p class=MsoNormal>In my experience pdftotext does not “overflow lines”.  That is probably “extra information” (i.e., “Memo” field data) related to the transaction on the previous line.  That is quite common in bank statements.  You have to expect such lines and be prepared to attach them  to the prior transaction.   I do it as the “Memo” field in my output. <o:p></o:p></p></blockquote><p class=MsoNormal>Aaron would have to confirm, but I suspect he refers to a case where a single table row as shown in the PDF has two rows of text in each cell, becuase there is just too much text for one line.  Because PDF knows only about where exactly on the page any text is, but  not why it is there (no information about things like tables) the text output would have two lines.  The first would have the first line of text from each cell, and the send would have the second line of text from each cell.  Putting them back together is theoretically possible, but only if there is some way to know that the second line is not a new row (missing header info?) or part of a manually controlled cleanup phase of the conversion. <o:p></o:p></p></div></div></body></html>