[Kde-l10n-es] Fwd: [kdecat] Afegir contingut al simon (UB - Universitat de Barcelona)
Eloy Cuadra
ecuadra en eloihr.net
Mie Ago 15 10:22:15 UTC 2012
Hola:
Reenvío este mensaje de Aleix Pol por si hubiera alguien interesado en
colaborar en este proyecto.
El sábado pasado intenté darme de alta para tener acceso al corpus de la UB,
pero mi solicitud está todavía pendiente de aprobación administrativa :-)
Si hay alguien interesado y no entiende algo, que pregunte :-D
Añado que el corpus de la Universitat de Barcelona también contiene más de
500.000 palabras en castellano, de ahí la propuesta que nos hace Aleix.
También hay que aclarar que para lo más importante no hace falta ningún
conocimiento de programación ;-)
Un saludo,
--
Eloy Cuadra
Traducción del mensaje (por si alguien se pierde leyendo catalán):
Me ha sorprendido que todavía no haya nada hecho con fuentes libres para el
catalán y me propongo a crear un corpus y todo lo que haga falta para que
nuestro idioma llegue a ser funcional. Dicho en otras palabras: fácil de
utilizar.
El usuario dispondrá de palabras parecidas con los fonemas correctos. La curva
de aprendizaje se verá significativamente reducida.
Aquí está esto (modelo de pronunciación ─las palabras son pocas y no me
parecen muy catalanas):
http://spirit.blau.in/simon/2012/05/08/ralfs-catalan-speech-model/
Cargar el corpus en catalán como un diccionario sombra sería una buena base:
http://docs.kde.org/development/ca/extragear-
accessibility/simon/vocabulary.html#import_dictionary
En la Universitat de Barcelona hay un «corpus sorprendente» (todavía no he
accedido) con 488.389 palabras y 16.591 frases (AnCora Catalan 2.0.0).
http://clic.ub.edu/corpus/ancora-descarregues
http://clic.ub.edu/ca/contacte
El hecho es que no he encontrado información en cuanto a la licencia y antes
de preguntar prefiero comentarlo en la lista por si alguien ha sido ─o no─
universitario en la UB y/o le interesaría colaborar con el proyecto.
1.- Si se coge esta base de datos ya hay mucho hecho.
2.- Pasarla al formato de Simon con un script (el mismo para la traducción de
KDE)
3.- Crear un script que aplique los fonemas (el formato tendría que ser sin
números ni caracteres especiales)
4.- Coger unas palomitas (de maíz) y una buena cantidad de agua y editar los
fonemas para asegurar su corrección (en el formato anteriormente citado)
Si tenemos obstáculos, la otra opción sería que alguien propusiera recursos de
textos GPL de calidad con temáticas variadas.
¿Qué pensáis?
------------ próxima parte ------------
An embedded message was scrubbed...
From: Aleix Pol <aleixpol en kde.org>
Subject: Fwd: [kdecat] Afegir contingut al simon (UB - Universitat de Barcelona)
Date: Fri, 10 Aug 2012 11:57:25 +0200
Size: 5272
URL: <http://mail.kde.org/pipermail/kde-l10n-es/attachments/20120815/6c9324d7/attachment-0001.mht>
Más información sobre la lista de distribución Kde-l10n-es