<html>
 <body>
  <div style="font-family: Verdana, Arial, Helvetica, Sans-Serif;">
   <table bgcolor="#f9f3c9" width="100%" cellpadding="8" style="border: 1px #c9c399 solid;">
    <tr>
     <td>
      This is an automatically generated e-mail. To reply, visit:
      <a href="http://git.reviewboard.kde.org/r/101857/">http://git.reviewboard.kde.org/r/101857/</a>
     </td>
    </tr>
   </table>
   <br />





<blockquote style="margin-left: 1em; border-left: 2px solid #d0d0d0; padding-left: 10px;">
 <p style="margin-top: 0;">On August 6th, 2011, 4:35 p.m., <b>Sebastian Sauer</b> wrote:</p>
 <blockquote style="margin-left: 1em; border-left: 2px solid #d0d0d0; padding-left: 10px;">
  <pre style="white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;">1. Please test loading with ODT/ODS/ODP files produced with Words/Tables/Stage. OO.org does save all the content in one line and therefore has no additional spaces in front. For me it looks like those produced documents would fail now cause we are handling spaces wrong (that's also why the unittests are failing).

2. Note that it's perfect legal in ODF to have tons of spaces in front. Per specs multiple spaces are compressed to one space. To preserve spaces text:s elements need to be used. I fail to see why we now need to preserve spaces if they *NEED* to be thrown away again later.

3. I fear that this has in impact on performance cause now we handle spaces which we just skipped before (and later throw them away again). So, even if my point 1. above isn't true then we still need to analyse performance before vs after. So, it would be useful if you can remove debug-code from the patch like those "node->dump();"
</pre>
 </blockquote>







</blockquote>

<pre style="white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;">Guess I wasn't clear enough with point 2; spaces at the beginning and end are *always* removed. Multiple spaces between text are compressed to one space. That means that something like "<text:p>   Hello   World   </text:p>" becomes "<text:p>Hello World  </text:p>" in ODF. See here the normalizeWhitespace function in calligra/libs/libs/kotext/opendocument/KoTextLoader_p.h. That code-path is performance-critical.
</pre>
<br />








<p>- Sebastian</p>


<br />
<p>On August 6th, 2011, 10:56 a.m., Jaime Torres Amate wrote:</p>






<table bgcolor="#fefadf" width="100%" cellspacing="0" cellpadding="8" style="background-image: url('http://git.reviewboard.kde.org/media/rb/images/review_request_box_top_bg.png'); background-position: left top; background-repeat: repeat-x; border: 1px black solid;">
 <tr>
  <td>

<div>Review request for Calligra.</div>
<div>By Jaime Torres Amate.</div>


<p style="color: grey;"><i>Updated Aug. 6, 2011, 10:56 a.m.</i></p>




<h1 style="color: #575012; font-size: 10pt; margin-top: 1.5em;">Description </h1>
<table width="100%" bgcolor="#ffffff" cellspacing="0" cellpadding="10" style="border: 1px solid #b8b5a0">
 <tr>
  <td>
   <pre style="margin: 0; padding: 0; white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;">Quoting the w3 consortium:
[Definition: All text that is not markup constitutes the character data of the document.]

And in section
http://www.w3.org/TR/REC-xml/#sec-white-space

In editing XML documents, it is often convenient to use "white space" (spaces, tabs, and blank lines) to set apart the markup for greater readability. 
Such white space is typically not intended for inclusion in the delivered version of the document. 
On the other hand, "significant" white space that should be preserved in the delivered version is common, for example in poetry and source code.

An XML processor MUST always pass all characters in a document that are not markup through to the application. 
A  validating XML processor MUST also inform the application which of these characters constitute white space appearing in element content.

[Definition: An element type has mixed content when elements of that type may contain character data, optionally interspersed with child elements.] 
------------------
The attached patch modifies the xml parser to return the spaces between > and < as text elements.

I needed to change the TestXmlReader to remove all the additional spaces between nodes.
(I'll need to modify the patch to remove all the additional spaces I've introduced).</pre>
  </td>
 </tr>
</table>


<h1 style="color: #575012; font-size: 10pt; margin-top: 1.5em;">Testing </h1>
<table width="100%" bgcolor="#ffffff" cellspacing="0" cellpadding="10" style="border: 1px solid #b8b5a0">
 <tr>
  <td>
   <pre style="margin: 0; padding: 0; white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;">The modified TestXmlReader test is OK.
There are only 2 regressions in the tests that I do not know how to fix:
        147 - krita-ui-KisKraLoaderTest (Failed)
        148 - krita-ui-KisKraSaverTest (Failed)

Also, I've been able to read with calligrawords and calligrastage all the .od* that I have without problems.
</pre>
  </td>
 </tr>
</table>




<h1 style="color: #575012; font-size: 10pt; margin-top: 1.5em;">Diffs</b> </h1>
<ul style="margin-left: 3em; padding-left: 0;">

 <li>libs/odf/KoXmlReader.cpp <span style="color: grey">(ad5e9d2)</span></li>

 <li>libs/odf/KoXmlReaderForward.h <span style="color: grey">(4ca9a74)</span></li>

 <li>libs/odf/tests/TestXmlReader.cpp <span style="color: grey">(6631b64)</span></li>

</ul>

<p><a href="http://git.reviewboard.kde.org/r/101857/diff/" style="margin-left: 3em;">View Diff</a></p>




  </td>
 </tr>
</table>








  </div>
 </body>
</html>