<html>
 <body>
  <div style="font-family: Verdana, Arial, Helvetica, Sans-Serif;">
   <table bgcolor="#f9f3c9" width="100%" cellpadding="12" style="border: 1px #c9c399 solid; border-radius: 6px; -moz-border-radius: 6px; -webkit-border-radius: 6px;">
    <tr>
     <td>
      This is an automatically generated e-mail. To reply, visit:
      <a href="https://git.reviewboard.kde.org/r/130013/">https://git.reviewboard.kde.org/r/130013/</a>
     </td>
    </tr>
   </table>
   <br />





<blockquote style="margin-left: 1em; border-left: 2px solid #d0d0d0; padding-left: 10px;">
 <p style="margin-top: 0;">On Март 15th, 2017, 4:13 д.п. UTC, <b>Anthony Fieroni</b> wrote:</p>
 <blockquote style="margin-left: 1em; border-left: 2px solid #d0d0d0; padding-left: 10px;">
  <pre style="white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;">Ship It!</pre>
 </blockquote>




 <p>On Март 15th, 2017, 8:49 д.п. UTC, <b>Anthony Fieroni</b> wrote:</p>
 <blockquote style="margin-left: 1em; border-left: 2px solid #d0d0d0; padding-left: 10px;">
  <pre style="white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;"><p style="padding: 0;text-rendering: inherit;margin: 0;line-height: inherit;white-space: inherit;">Can you verify, https://git.reviewboard.kde.org/r/129703/ it is needed to limit CPU usage or to discard it?</p></pre>
 </blockquote>





 <p>On Март 16th, 2017, 8:52 д.п. UTC, <b>Igor Poboiko</b> wrote:</p>
 <blockquote style="margin-left: 1em; border-left: 2px solid #d0d0d0; padding-left: 10px;">
  <pre style="white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;"><p style="padding: 0;text-rendering: inherit;margin: 0;line-height: inherit;white-space: inherit;">I didn't see much performance issues; and from what can I see, DB size didn't change much after reindexing, so there is no redundant extractors as far as I can see.
Concerning performance - I don't believe there is much overhead too much I think we should instead use profilers to find bottlenecks. I don't think it is one of them.</p></pre>
 </blockquote>





 <p>On Март 16th, 2017, 9:24 д.п. UTC, <b>Anthony Fieroni</b> wrote:</p>
 <blockquote style="margin-left: 1em; border-left: 2px solid #d0d0d0; padding-left: 10px;">
  <pre style="white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;"><p style="padding: 0;text-rendering: inherit;margin: 0;line-height: inherit;white-space: inherit;">One more test, if i'm not too cheeky, please consider to have files like epub or svg i.e. complex mime types. For this types we have surely more than one extractor who can reflect on db size and cpu time.</p></pre>
 </blockquote>








</blockquote>

<pre style="white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;"><p style="padding: 0;text-rendering: inherit;margin: 0;line-height: inherit;white-space: inherit;">Funny thing: I didn't manage to find any type with more than one extractor. SVG is matched only by PlainTextExtractor (apparently, the only extractor working with images is Exiv2Extractor, which doesn't support svg), and EPUB is matched only by EPubExtractor (apparently, internally it is zip-archive and there is no extractors working with archives).</p>
<p style="padding: 0;text-rendering: inherit;margin: 0;line-height: inherit;white-space: inherit;">Anyways, if two extractors got the same DocTerm some file, Baloo won't save it twice, it saves only unique terms. 
And if they extract different terms - well, it gives more chances to match users search, which is even better!</p>
<p style="padding: 0;text-rendering: inherit;margin: 0;line-height: inherit;white-space: inherit;">I also tried indexing whole /usr/share/icons directory, with lots of svg icons - well, I didn't see a change (again, subjectively: I didn't use profilers). Apparently, extraction takes considerably much more time that iterating over bunch of mimetypes per file (~100?).</p></pre>
<br />










<p>- Igor</p>


<br />
<p>On Март 16th, 2017, 8:33 п.п. UTC, Igor Poboiko wrote:</p>








<table bgcolor="#fefadf" width="100%" cellspacing="0" cellpadding="12" style="border: 1px #888a85 solid; border-radius: 6px; -moz-border-radius: 6px; -webkit-border-radius: 6px;">
 <tr>
  <td>

<div>Review request for KDE Frameworks and Anthony Fieroni.</div>
<div>By Igor Poboiko.</div>


<p style="color: grey;"><i>Updated Март 16, 2017, 8:33 п.п.</i></p>









<div style="margin-top: 1.5em;">
 <b style="color: #575012; font-size: 10pt;">Repository: </b>
kfilemetadata
</div>


<h1 style="color: #575012; font-size: 10pt; margin-top: 1.5em;">Description </h1>
 <table width="100%" bgcolor="#ffffff" cellspacing="0" cellpadding="10" style="border: 1px solid #b8b5a0">
 <tr>
  <td>
   <pre style="margin: 0; padding: 0; white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;"><p style="padding: 0;text-rendering: inherit;margin: 0;line-height: inherit;white-space: inherit;">After commit 7c7e985a4678fef5f5d0dd8faa9b9cb42e3844b4 (see https://git.reviewboard.kde.org/r/129720/), PlainTextExtractor no longer matches ANY of the text/ mimetypes.
This broke completely Baloo indexing e.g. simple plain text files.
Introduced check however allows to provide "text/plain" as supported mimetype for the extractor and hope that everything containing plain text will be inherited from it.</p></pre>
  </td>
 </tr>
</table>


<h1 style="color: #575012; font-size: 10pt; margin-top: 1.5em;">Testing </h1>
<table width="100%" bgcolor="#ffffff" cellspacing="0" cellpadding="10" style="border: 1px solid #b8b5a0">
 <tr>
  <td>
   <pre style="margin: 0; padding: 0; white-space: pre-wrap; white-space: -moz-pre-wrap; white-space: -pre-wrap; white-space: -o-pre-wrap; word-wrap: break-word;"><p style="padding: 0;text-rendering: inherit;margin: 0;line-height: inherit;white-space: inherit;">KFileMetaData compiles.
Baloo indexes plain text files.
Everybody is happy.</p></pre>
  </td>
 </tr>
</table>


<h1 style="color: #575012; font-size: 10pt; margin-top: 1.5em;">Diffs</b> </h1>
<ul style="margin-left: 3em; padding-left: 0;">

 <li>autotests/CMakeLists.txt <span style="color: grey">(5ab742b)</span></li>

 <li>autotests/extractorcollectiontest.cpp <span style="color: grey">(PRE-CREATION)</span></li>

 <li>src/externalextractor.cpp <span style="color: grey">(05f0645)</span></li>

 <li>src/extractors/plaintextextractor.cpp <span style="color: grey">(26e1247)</span></li>

</ul>

<p><a href="https://git.reviewboard.kde.org/r/130013/diff/" style="margin-left: 3em;">View Diff</a></p>






  </td>
 </tr>
</table>







  </div>
 </body>
</html>