<table><tr><td style="">poboiko edited the summary of this revision. <a href="https://phabricator.kde.org/transactions/detail/PHID-XACT-DREV-tvpl7rscazk26qk/">(Show Details)</a>
</td><a style="text-decoration: none; padding: 4px 8px; margin: 0 8px 8px; float: right; color: #464C5C; font-weight: bold; border-radius: 3px; background-color: #F7F7F9; background-image: linear-gradient(to bottom,#fff,#f1f0f1); display: inline-block; border: 1px solid rgba(71,87,120,.2);" href="https://phabricator.kde.org/D23787">View Revision</a></tr></table><br /><div><strong>CHANGES TO REVISION SUMMARY</strong><div><div style="white-space: pre-wrap; color: #74777D;"><span style="padding: 0 2px; color: #333333; background: rgba(251, 175, 175, .7);">First of all, not</span><span style="padding: 0 2px; color: #333333; background: rgba(151, 234, 151, .6);">Not</span> all plain text-based mimetypes starts with `text/`:<br />
i.e. `application/sql` for SQL dumps (already handled in FileExcludeFilters),<span style="padding: 0 2px; color: #333333; background: rgba(251, 175, 175, .7);"><br />
or `application/postscript` for PS images. There are most likely to be more.</span><br />
<span style="padding: 0 2px; color: #333333; background: rgba(251, 175, 175, .7);">Alternative solution would be using `QMimeType::inherits` instead.<br />
<br />
Secondly, not all extractors are bad with large files: for example</span><span style="padding: 0 2px; color: #333333; background: rgba(151, 234, 151, .6);">or `application/postscript` for PS images (also handled by PostscriptDSCExtractor). <br />
However</span>, <span style="padding: 0 2px; color: #333333; background: rgba(251, 175, 175, .7);">if it is<br />
a PS image, then PostScriptDSExtractor still might extract useful information.<br />
Issues are mostly caused by PlainTextExtractor</span><span style="padding: 0 2px; color: #333333; background: rgba(151, 234, 151, .6);">there are most likely to be more. <br />
<br />
This patch aims at handling the issue in more generic way: <br />
it just skips PlaintextExtractor for any large file</span>, <span style="padding: 0 2px; color: #333333; background: rgba(251, 175, 175, .7);">which generates just too much<br />
terms</span><span style="padding: 0 2px; color: #333333; background: rgba(151, 234, 151, .6);">utilizing extractor metadata introduced in {D19109}</span>.<br />
<br />
<span style="padding: 0 2px; color: #333333; background: rgba(251, 175, 175, .7);">This patch aims at tackling both issues: it just skips PlaintextExtractor for<br />
large files, utilizing extractor metadata introduced in {D19109}</span><span style="padding: 0 2px; color: #333333; background: rgba(151, 234, 151, .6);">Alternative solution would be using `QMimeType::inherits` instead</span>.</div></div></div><br /><div><strong>REPOSITORY</strong><div><div>R293 Baloo</div></div></div><br /><div><strong>REVISION DETAIL</strong><div><a href="https://phabricator.kde.org/D23787">https://phabricator.kde.org/D23787</a></div></div><br /><div><strong>To: </strong>poboiko, Baloo, bruns, ngraham<br /><strong>Cc: </strong>davidedmundson, broulik, kde-frameworks-devel, Baloo, hurikhan77, lots0logs, LeGast00n, fbampaloukas, GB_2, domson, ashaposhnikov, michaelh, astippich, spoorun, ngraham, bruns, abrahams<br /></div>