<table><tr><td style="">poboiko created this revision.<br />poboiko added reviewers: Baloo, bruns, ngraham.<br />Herald added projects: Frameworks, Baloo.<br />poboiko requested review of this revision.
</td><a style="text-decoration: none; padding: 4px 8px; margin: 0 8px 8px; float: right; color: #464C5C; font-weight: bold; border-radius: 3px; background-color: #F7F7F9; background-image: linear-gradient(to bottom,#fff,#f1f0f1); display: inline-block; border: 1px solid rgba(71,87,120,.2);" href="https://phabricator.kde.org/D23787">View Revision</a></tr></table><br /><div><strong>REVISION SUMMARY</strong><div><p>First of all, not all plain text-based mimetypes starts with <tt style="background: #ebebeb; font-size: 13px;">text/</tt>:<br />
i.e. <tt style="background: #ebebeb; font-size: 13px;">application/sql</tt> for SQL dumps (already handled in FileExcludeFilters),<br />
or <tt style="background: #ebebeb; font-size: 13px;">application/postscript</tt> for PS images. There are most likely to be more.<br />
Alternative solution would be using <tt style="background: #ebebeb; font-size: 13px;">QMimeType::inherits</tt> instead.</p>

<p>Secondly, not all extractors are bad with large files: for example, if it is<br />
a PS image, then PostScriptDSExtractor still might extract useful information.<br />
Issues are mostly caused by PlainTextExtractor, which generates just too much<br />
terms.</p>

<p>This patch aims at tackling both issues: it just skips PlaintextExtractor for<br />
large files, utilizing extractor metadata introduced in <a href="https://phabricator.kde.org/D19109" style="background-color: #e7e7e7;
          border-color: #e7e7e7;
          border-radius: 3px;
          padding: 0 4px;
          font-weight: bold;
          color: black;text-decoration: line-through;">D19109: [Extractor] Add metadata to extractors</a>.</p></div></div><br /><div><strong>TEST PLAN</strong><div><ol class="remarkup-list">
<li class="remarkup-list-item">Create large <tt style="background: #ebebeb; font-size: 13px;">.txt</tt> file (>10Mb)</li>
<li class="remarkup-list-item"><tt style="background: #ebebeb; font-size: 13px;">baloo_file_extractor</tt> still skips it.</li>
</ol></div></div><br /><div><strong>REPOSITORY</strong><div><div>R293 Baloo</div></div></div><br /><div><strong>BRANCH</strong><div><div>improve-large-text-files (branched from master)</div></div></div><br /><div><strong>REVISION DETAIL</strong><div><a href="https://phabricator.kde.org/D23787">https://phabricator.kde.org/D23787</a></div></div><br /><div><strong>AFFECTED FILES</strong><div><div>src/file/extractor/app.cpp</div></div></div><br /><div><strong>To: </strong>poboiko, Baloo, bruns, ngraham<br /><strong>Cc: </strong>kde-frameworks-devel, Baloo, lots0logs, LeGast00n, fbampaloukas, GB_2, domson, ashaposhnikov, michaelh, astippich, spoorun, ngraham, bruns, abrahams<br /></div>