[Kde-l10n-es] Fwd: [kdecat] Afegir contingut al simon (UB - Universitat de Barcelona)

Eloy Cuadra ecuadra en eloihr.net
Mie Ago 15 10:22:15 UTC 2012


Hola:

Reenvío este mensaje de Aleix Pol por si hubiera alguien interesado en 
colaborar en este proyecto.

El sábado pasado intenté darme de alta para tener acceso al corpus de la UB, 
pero mi solicitud está todavía pendiente de aprobación administrativa :-)

Si hay alguien interesado y no entiende algo, que pregunte :-D

Añado que el corpus de la Universitat de Barcelona también contiene más de 
500.000 palabras en castellano, de ahí la propuesta que nos hace Aleix. 
También hay que aclarar que para lo más importante no hace falta ningún 
conocimiento de programación ;-)

Un saludo,
-- 
Eloy Cuadra



Traducción del mensaje (por si alguien se pierde leyendo catalán):

Me ha sorprendido que todavía no haya nada hecho con fuentes libres para el 
catalán y me propongo a crear un corpus y todo lo que haga falta para que 
nuestro idioma llegue a ser funcional. Dicho en otras palabras: fácil de 
utilizar.

El usuario dispondrá de palabras parecidas con los fonemas correctos. La curva 
de aprendizaje se verá significativamente reducida.

Aquí está esto (modelo de pronunciación ─las palabras son pocas y no me 
parecen muy catalanas):
http://spirit.blau.in/simon/2012/05/08/ralfs-catalan-speech-model/

Cargar el corpus en catalán como un diccionario sombra sería una buena base:
http://docs.kde.org/development/ca/extragear-
accessibility/simon/vocabulary.html#import_dictionary

En la Universitat de Barcelona hay un «corpus sorprendente» (todavía no he 
accedido) con 488.389 palabras y 16.591 frases (AnCora Catalan 2.0.0).
http://clic.ub.edu/corpus/ancora-descarregues
http://clic.ub.edu/ca/contacte

El hecho es que no he encontrado información en cuanto a la licencia y antes 
de preguntar prefiero comentarlo en la lista por si alguien ha sido ─o no─ 
universitario en la UB y/o le interesaría colaborar con el proyecto.

1.- Si se coge esta base de datos ya hay mucho hecho.
2.- Pasarla al formato de Simon con un script (el mismo para la traducción de 
KDE)
3.- Crear un script que aplique los fonemas (el formato tendría que ser sin 
números ni caracteres especiales)
4.- Coger unas palomitas (de maíz) y una buena cantidad de agua y editar los 
fonemas para asegurar su corrección (en el formato anteriormente citado)

Si tenemos obstáculos, la otra opción sería que alguien propusiera recursos de 
textos GPL de calidad con temáticas variadas.

¿Qué pensáis?
------------ próxima parte ------------
An embedded message was scrubbed...
From: Aleix Pol <aleixpol en kde.org>
Subject: Fwd: [kdecat] Afegir contingut al simon (UB - Universitat de Barcelona)
Date: Fri, 10 Aug 2012 11:57:25 +0200
Size: 5272
URL: <http://mail.kde.org/pipermail/kde-l10n-es/attachments/20120815/6c9324d7/attachment-0001.mht>


Más información sobre la lista de distribución Kde-l10n-es