[kdecat] Afegir contingut al simon (UB - Universitat de Barcelona)

Antoni Bella Pérez antonibella5 at orange.es
Thu Jun 21 19:03:30 UTC 2012


  Hola llista

  M'ha sorprès que encara no hi hagi res fet amb fonts lliures per al català i 
em proposo crear un corpus i tot el que calgui per a que el nostre idioma 
arribi a ser funcional. Dit en altres paraules. Fàcil d'utilitzar.

  L'usuari disposarà de paraules semblants amb els fonemes correctes. La corba 
d'aprenentatge es veurà significativament reduïda. 

  Vet aquí això (model de pronunciació -les paraules són poques i no em 
semblen gaire catalanes-):
http://spirit.blau.in/simon/2012/05/08/ralfs-catalan-speech-model/

  Carregar el corpus en català com a diccionari ombra seria una bona base:
http://docs.kde.org/development/ca/extragear-
accessibility/simon/vocabulary.html#import_dictionary

  A la Universitat de Barcelona hi ha un "corpus sorprenent" (encara no hi he 
accedit) amb 488.389 paraules i 16.591 frases (AnCora Catalan 2.0.0). 
http://clic.ub.edu/corpus/ancora-descarregues
http://clic.ub.edu/ca/contacte

  El fet és que no he trobat informació quant a llicència i abans de preguntar 
prefereixo comentar-ho a la llista per si algú ha estat -o no- universitari a 
la UB i/o li interessaria col·laborar amb el projecte.

  1.- Si s'agafa aquesta base de dades ja hi ha molt de fet.
  2.- Passar-la al format de Simon amb un script (el mateix per a la traducció 
del KDE)
  3.- Crear un script que apliqui els fonemes (el format haurà de ser sense 
números ni caràcters especials)
  4.- Agafar unes crispetes una bona quantitat d'aigua i editar els fonemes 
per assegurar la seva correcció (en el format anteriorment esmentat)

  Si tenim obstacles l'altra opció seria que proposeu recursos de texts GPL de 
qualitat amb temàtiques variades.

  Què en penseu? 

  Atentament
  Toni



More information about the kde-i18n-ca mailing list