<p>Den 14 maj 2012 12:44 skrev "C. Boemann" <<a href="mailto:cbo@boemann.dk">cbo@boemann.dk</a>>:<br>
><br>
> On Monday 14 May 2012 12:29:01 <a href="mailto:matus.uzak@gmail.com">matus.uzak@gmail.com</a> wrote:<br>
> > Hi,<br>
> ><br>
> > I don't think that a grammar checker based entirely on a Bayes<br>
> > classifier is logically sound.<br>
> ><br>
> > Simplified:<br>
> ><br>
> > In order to detect textual spam, the Bayes classifier is first trained<br>
> > on examples of spam (training set).<br>
> > The classifier quality depends on the training set being<br>
> > representative enough, the textual data representation (input to the<br>
> > classifier)<br>
> > and parameters of the training algm.  The trained classifier is then a<br>
> > set S of (mean value, variance) pairs in input space which represent<br>
> > known spam.<br>
> > If a previously unknown input falls into the variance range of any of<br>
> > the members of S, then it's labeled as spam.<br>
> ><br>
> > A grammar checker should have the language grammar represented<br>
> > exactly, by a formal grammar usually.  Again a feasible representation<br>
> > of the textual data is required. Then you check if a sentence can be<br>
> > generated by the formal grammar.  The answer is in {yes, not}.<br>
> ><br>
> > Lightproof seems to be rule based. And rule based systems have strong<br>
> > maintainability drawbacks.<br>
> ><br>
> > A combination of a rule based system with Bayes sounds promising. That<br>
> > would enable something like context based grammar checking.<br>
> ><br>
> > br,<br>
> ><br>
> > -matus uzak<br>
> The trouble with rules is that it's hard to codify a language grammar in a way<br>
> that wont give false warnings. Also as you said it is hard to maintain, not to<br>
> say it requires manual work to define new languages.<br>
><br>
> Bayes may not be the best match, but something that is adaptive and can learn<br>
> by giving it a corpus, sounds very promising to me.<br>
><br>
> From Elvis Stansvik I got the following link which I've passed on to garima<br>
> already:<br>
><br>
> <a href="http://doras.dcu.ie/16776/1/jw_binder_2012-01-10.pdf">http://doras.dcu.ie/16776/1/jw_binder_2012-01-10.pdf</a><br>
><br>
> Now this may be what link grammar does already. I just read back and the link<br>
> grammar page on the Abisource site does mention tree-bank and statistical<br>
> which is what the paper talks about too. There may be differences, but not sure<br>
> it's worth it to make us do something on our own.<br>
><br>
> So I've maybe changed my mind again and would favour the link grammar<br>
><br>
> Right now I'm just waiting for garima to reply with some analysis. He was<br>
> going to read the paper.</p>
<p>That's quite ambitious of him; it's not just a paper but a 200+ page dissertation :)</p>
<p>><br>
> Boemann<br>
> _______________________________________________<br>
> calligra-devel mailing list<br>
> <a href="mailto:calligra-devel@kde.org">calligra-devel@kde.org</a><br>
> <a href="https://mail.kde.org/mailman/listinfo/calligra-devel">https://mail.kde.org/mailman/listinfo/calligra-devel</a><br>
</p>