<div class="gmail_quote">2012/6/21 Antoni Bella Pérez <span dir="ltr"><<a href="mailto:antonibella5@orange.es" target="_blank">antonibella5@orange.es</a>></span><br><blockquote class="gmail_quote" style="margin:0 0 0 .8ex;border-left:1px #ccc solid;padding-left:1ex">
<br>
Hola llista<br>
<br>
M'ha sorprès que encara no hi hagi res fet amb fonts lliures per al català i<br>
em proposo crear un corpus i tot el que calgui per a que el nostre idioma<br>
arribi a ser funcional. Dit en altres paraules. Fàcil d'utilitzar.<br>
<br>
L'usuari disposarà de paraules semblants amb els fonemes correctes. La corba<br>
d'aprenentatge es veurà significativament reduïda.<br>
<br>
Vet aquí això (model de pronunciació -les paraules són poques i no em<br>
semblen gaire catalanes-):<br>
<a href="http://spirit.blau.in/simon/2012/05/08/ralfs-catalan-speech-model/" target="_blank">http://spirit.blau.in/simon/2012/05/08/ralfs-catalan-speech-model/</a><br>
<br>
Carregar el corpus en català com a diccionari ombra seria una bona base:<br>
<a href="http://docs.kde.org/development/ca/extragear-" target="_blank">http://docs.kde.org/development/ca/extragear-</a><br>
accessibility/simon/vocabulary.html#import_dictionary<br>
<br>
A la Universitat de Barcelona hi ha un "corpus sorprenent" (encara no hi he<br>
accedit) amb 488.389 paraules i 16.591 frases (AnCora Catalan 2.0.0).<br>
<a href="http://clic.ub.edu/corpus/ancora-descarregues" target="_blank">http://clic.ub.edu/corpus/ancora-descarregues</a><br>
<a href="http://clic.ub.edu/ca/contacte" target="_blank">http://clic.ub.edu/ca/contacte</a><br>
<br>
El fet és que no he trobat informació quant a llicència i abans de preguntar<br>
prefereixo comentar-ho a la llista per si algú ha estat -o no- universitari a<br>
la UB i/o li interessaria col·laborar amb el projecte.<br>
<br>
1.- Si s'agafa aquesta base de dades ja hi ha molt de fet.<br>
2.- Passar-la al format de Simon amb un script (el mateix per a la traducció<br>
del KDE)<br>
3.- Crear un script que apliqui els fonemes (el format haurà de ser sense<br>
números ni caràcters especials)<br>
4.- Agafar unes crispetes una bona quantitat d'aigua i editar els fonemes<br>
per assegurar la seva correcció (en el format anteriorment esmentat)<br>
<br>
Si tenim obstacles l'altra opció seria que proposeu recursos de texts GPL de<br>
qualitat amb temàtiques variades.<br>
<br>
Què en penseu?<br>
<br>
Atentament<br>
Toni<br>
_______________________________________________<br>
kde-i18n-ca mailing list<br>
<a href="mailto:kde-i18n-ca@kde.org">kde-i18n-ca@kde.org</a><br>
<a href="https://mail.kde.org/mailman/listinfo/kde-i18n-ca" target="_blank">https://mail.kde.org/mailman/listinfo/kde-i18n-ca</a><br>
</blockquote></div><br><div>La veritat és que estaria molt bé disposar d'eines per poder implementar Simon en català.</div><div><br></div><div>Tècnicament no sé com funciona, i no he pogut mirar què ofereixen perquè demanen que et registris. El que sí que podria ser interessant, potser, és que ens poséssim en contacte amb aquesta gent des de KDE Espanya per tal que es pugui arribar a adoptar. Si creieu que així us podem ajudar, no dubteu en fer-nos-ho saber i mirem què s'expliquen.</div>
<div><br></div><div>Molta sort!</div><div><br></div><div>Aleix</div>