viernes, 13 de febrero de 2015

Corpus de aprendices de español como lengua extranjera (CAES) España, Instituto Cervantes


Logotipo Cervantes


En lingüística, se entiende por corpus un conjunto, más o menos amplio, de textos en formato electrónico que han sido reunidos en una aplicación informática, según un determinado diseño, para facilitar el estudio de la lengua o variedad lingüística de la que esos textos han sido extraídos. Entre los muchos tipos y subtipos de corpus existentes en la actualidad, los llamados 'corpus de aprendices' contienen textos producidos por personas que están aprendiendo una determinada lengua con diferentes lenguas iniciales o familiares, que denominaremos L1 y distintos grados de conocimiento de la lengua objeto.

El Corpus de aprendices de español como lengua extranjera (CAES) es un conjunto de textos escritos producidos por estudiantes de español con diferentes grados de dominio lingüistico (niveles A1 a C1 del Marco común europeo de referencia, aplicado al español en el Plan curricular del Instituto Cervantes. Niveles de referencia para el español) y procedentes de seis L1: árabe, chino mandarín, francés, inglés, portugués y ruso. Se trata de una herramienta que permite a los profesionales del campo de ELE (profesores, investigadores, evaluadores, autores de materiales didácticos, responsables y equipos de centros e instituciones lingüísticas, etc.) llevar a cabo investigaciones aplicadas sobre la base de datos sólidos y objetivos, ya que puede proporcionar información sobre dificultades de aprendizaje, errores más comunes, vocabulario más o menos empleado, etc. que se podrá aplicar con facilidad en las aulas o integrar en los textos. Sin negar la importancia que tienen otros proyectos de corpus de este tipo, el CAES viene a cubrir un vacío importante en el área específica de corpus de aprendices de lenguas en la línea de proyectos similares como el ICLE (International Corpus of Learner English) de la Universidad de Lovaina.

En su versión actual (1.0, de octubre de 2014), el CAES comprende casi 575 000 elementos lingüísticos, con una distribución que atiende a todos los niveles adquiridos y lenguas L1 incluidas en esta fase del proyecto. Ha sido construido mediante la recogida de muestras en distintos centros del Instituto Cervantes y universidades de un gran número de países, en un período que va desde octubre de 2011 hasta septiembre de 2013. Aunque las pruebas recogidas fueron más, una vez filtradas las correspondientes a lenguas L1 distintas de las previstas o inservibles por diferentes razones, esta versión de CAES contiene muestras producidas por 1 423 estudiantes, que escribieron dos o tres textos cada uno (según los niveles aprobados), lo cual arroja un total de 3 878 tareas integradas en 1 423 pruebas.

La recogida de muestras se ha realizado de acuerdo con unos criterios unitarios y un protocolo común de actuación mediante una aplicación informática diseñada a tales efectos. Los textos producidos por los estudiantes han recibido anotación morfosintáctica automática y posteriormente han sido desambiguados manualmente de acuerdo con lo previsto en un sistema de categorías y subcategoríasespecialmente desarrollado por el equipo de la USC y adaptado a este tipo de textos. Por último, el resultado de la anotación y desambiguación se ha volcado en una aplicación informática de fácil manejo que permite realizar gran cantidad de consultas simples y combinadas con variables lingüísticas, personales y sociales.

El proyecto, promovido y financiado por el Instituto Cervantes, ha sido diseñado y desarrollado íntegramente por un equipo de investigación de la Universidad de Santiago de Compostela gracias a la colaboración inestimable de un gran número de profesores de diferentes centros del Instituto Cervantes y muy diversas universidades de todo el mundo.

No hay comentarios :

Publicar un comentario

Muchas gracias por comunicarse. GABY

Related Posts Plugin for WordPress, Blogger...

ARGENTINA PORTAL

NOTA

. Las imágenes en el Blog que no son propias son elegidas, en su mayoría, de Google Imágenes. Se agradece la posibilidad de poder utilizarlas con fines educativos y de difusión cultural.
. Los artículos publicados provienen de elaboración propia, de los autores y las páginas WEB mencionadas en cada uno de ellos. Nuevamente se agradece la posibilidad de poder utilizarlos con fines educativos y culturales.
. Las opiniones vertidas en el blog son responsabilidad de quienes las emiten.
. Se autoriza a utilizar información contenida en este blog siempre que se mencione la fuente.

IBSN

IBSN: Internet Blog Serial Number 2012-11-20-12

LICENCIA CREATIVE COMMONS

Licencia Creative Commons
El docente profesional por Gaby Bibliotecaria de Argentina se encuentra bajo una Licencia Creative Commons Atribución-NoComercial-SinDerivadas 3.0 Unported.
Basada en una obra en http://eldocenteprofesional.blogspot.com.ar/.