[kdecat] Afegir contingut al simon (UB - Universitat de Barcelona)
Antoni Bella Pérez
antonibella5 at orange.es
Thu Jun 21 19:03:30 UTC 2012
Hola llista
M'ha sorprès que encara no hi hagi res fet amb fonts lliures per al català i
em proposo crear un corpus i tot el que calgui per a que el nostre idioma
arribi a ser funcional. Dit en altres paraules. Fàcil d'utilitzar.
L'usuari disposarà de paraules semblants amb els fonemes correctes. La corba
d'aprenentatge es veurà significativament reduïda.
Vet aquí això (model de pronunciació -les paraules són poques i no em
semblen gaire catalanes-):
http://spirit.blau.in/simon/2012/05/08/ralfs-catalan-speech-model/
Carregar el corpus en català com a diccionari ombra seria una bona base:
http://docs.kde.org/development/ca/extragear-
accessibility/simon/vocabulary.html#import_dictionary
A la Universitat de Barcelona hi ha un "corpus sorprenent" (encara no hi he
accedit) amb 488.389 paraules i 16.591 frases (AnCora Catalan 2.0.0).
http://clic.ub.edu/corpus/ancora-descarregues
http://clic.ub.edu/ca/contacte
El fet és que no he trobat informació quant a llicència i abans de preguntar
prefereixo comentar-ho a la llista per si algú ha estat -o no- universitari a
la UB i/o li interessaria col·laborar amb el projecte.
1.- Si s'agafa aquesta base de dades ja hi ha molt de fet.
2.- Passar-la al format de Simon amb un script (el mateix per a la traducció
del KDE)
3.- Crear un script que apliqui els fonemes (el format haurà de ser sense
números ni caràcters especials)
4.- Agafar unes crispetes una bona quantitat d'aigua i editar els fonemes
per assegurar la seva correcció (en el format anteriorment esmentat)
Si tenim obstacles l'altra opció seria que proposeu recursos de texts GPL de
qualitat amb temàtiques variades.
Què en penseu?
Atentament
Toni
More information about the kde-i18n-ca
mailing list