<div>Hi,</div><div><br></div>Actually this is the information stored in Nepomuk using text files indexer:<div><ul><li>nao:characterCount</li><li>nie:contentSize</li><li>nfo:lineCount</li><li>nie:plainTextContent</li><li>nfo:wordCount</li>


</ul><div>to add more ontologies text analyzer must be modified, this indexer is available in libstreamanalyzers git repository.</div><div><br></div><div>Ontologies information it's available here: <a href="http://oscaf.sourceforge.net/" target="_blank">http://oscaf.sourceforge.net/</a></div>


<div><br></div><div>There is an example about fetching information for tv series available called nepomuktvnamer and could be useful to you. You could locate the git repository, and other repositories related to Nepomuk, here: <a href="http://quickgit.kde.org/" target="_blank">http://quickgit.kde.org/</a></div>


<div><br></div><br><div class="gmail_quote">On Wed, Jul 18, 2012 at 2:42 PM, Dean Perry <span dir="ltr"><<a href="mailto:happy.heyoka@gmail.com" target="_blank">happy.heyoka@gmail.com</a>></span> wrote:<br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">


<u></u>
<div style="font-family:'Arial';font-size:14pt;font-weight:400;font-style:normal">
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px">Hi,</p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px"> </p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px"><span style="font-style:italic;color:#008080">I originally posted this here : <<a href="http://forum.kde.org/viewtopic.php?f=43&t=106919" target="_blank">http://forum.kde.org/viewtopic.php?f=43&t=106919</a>></span></p>



<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px"> </p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px"><span style="font-style:italic;color:#008080">but the forum admin said I should try you directly... if you feel like answering, post to the forum or mail me and I'll copy it there; I can't be the only one who has wondered about this: </span></p>



<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px"> </p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px">I have an idea for an application to automatically categorise and tag documents based on their contents.</p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px"><br>To do this I need a frequency distribution of the words in the document.<br></p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px">I have played around with the nepomuk examples and have a few clues about the tagging and rdf storage.<br></p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px">I can't find much info on a per-document word list though - nepsak, nepoogle don't appear to show it, so maybe it's not stored in virtuoso?<br>


</p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px">Is there a word list stored (eg: inverted vector index)? How does the full text search in Dolphin do its thing?<br></p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px">Do I need to produce this list myself using libstreamanalyzer? I'd prefer not to do a second indexing pass.</p>
<p style="margin-top:0px;margin-bottom:0px;margin-left:0px;margin-right:0px;text-indent:0px"> </p></div><br>_______________________________________________<br>
Nepomuk mailing list<br>
<a href="mailto:Nepomuk@kde.org" target="_blank">Nepomuk@kde.org</a><br>
<a href="https://mail.kde.org/mailman/listinfo/nepomuk" target="_blank">https://mail.kde.org/mailman/listinfo/nepomuk</a><br>
<br></blockquote></div><br><br clear="all"><div><br></div>-- <br>Best wishes,<div>Ignacio</div><div><br></div><br>
</div>