Recursos en lingüística de corpus

A continuación ofrecemos una serie de recursos relacionados con el desarrollo de corpus lingüísticos de carácter histórico y desarrollados en el ámbito de la Red CHARTA y del Grupo de Investigación de Textos para la Historia del Español.

Desarrollo digital de los corpus


La Red CHARTA ha optado por la plataforma TEITOK para la implementación técnica de sus corpus. Con el objetivo de facilitar su desarrollo, GITHE pone a disposición de los investigadores una serie de recursos. Han sido desarrollados en el marco de los proyectos «CHARTA 3.0: de la edición digital a la web semántica» y «HERES: patrimonio textual ibérico y novohispano. Recuperación y memoria». Para más información puede contactar con victorcaballero@usal.es.

  • Interfaz de la plataforma
    • main.tpl (versión 1.0)
    • Es necesario sustituir todas las apariciones de la palabra "ejemplo" por el nombre del corpus (tal y como aparece en la ruta de la web).
    • Esta plantilla se ofrece únicamente como ejemplo y pueden realizarse en ella tantos cambios como se deseen.
  • Script para la conversión a XML/TEI
    • charta_teitok_def2.pl (versión 1.0)
    • Este script incluye todas las anotaciones presentes en los criterios de edición de la Red CHARTA.
    • Pueden incluirse en él todas las marcas complementarias que sean necesarias.
  • Diccionario para la automatización de la presentación crítica
  • Diccionario para la automatización de la modernización
    • mformtreat.pl
    • moderniza.vrt (versión 1.0)
    • El diccionario se ha realizado a partir de los inventarios léxicos del corpus CODEA, realizados por Pedro Sánchez-Prieto Borja e Hiroto Ueda.
    • Actúa sobre el atributo @mform, por lo que debe ser añadido como forma editable en los xmlfiles.
    • Se encuentra en estado de revisión, cualquier anomalía detectada puede ser comunicada a victorcaballero@usal.es.
    • Última actualización: 06/02/2024.
  • Diccionario para la automatización del etiquetado gramatical
    • postreat.pl
    • pos.vrt (versión 2.0)
    • El diccionario se ha realizado a partir de los diccionarios de FreeLing y de los inventarios léxicos del corpus CODEA, realizados por Pedro Sánchez-Prieto Borja e Hiroto Ueda. Con el nuevo diccionario (versión 2.0) se facilita al editor la labor de desambiguación.
    • Se encuentra en estado de revisión, cualquier anomalía detectada puede ser comunicada a victorcaballero@usal.es.
    • Última actualización: 18/09/2024.
  • Diccionario para automatizar la lematización
    • lemmatreat.pl
    • lemma.vrt (versión 2.0)
    • El diccionario se ha realizado a partir de los diccionarios de FreeLing y de los inventarios léxicos del corpus CODEA, realizados por Pedro Sánchez-Prieto Borja e Hiroto Ueda. Con el nuevo diccionario (versión 2.0) se facilita al editor la labor de desambiguación.
    • Se encuentra en estado de revisión, cualquier anomalía detectada puede ser comunicada a victorcaballero@usal.es.
    • Última actualización: 16/09/2024.
  • Incorporación de scripts en settings.xml

<scripts>
<item key="charta_teitok_def2" action="perl Scripts/charta_teitok_def2_EGPA.pl [fn]" display="TP (CHARTA 3.0)" recond="\{(\d|[a-z])" type="perl"/>
<item key="nformtreat" action="perl Scripts/nformtreat.pl [fn]" display="PC (CHARTA 3.0/EGPA)"/>
<item key="mformtreat" action="perl Scripts/mformtreat.pl [fn]" display="Modernización (EGPA)"/>
<item key="lemmatreat" action="perl Scripts/lemmatreat.pl [fn]" display="Lematización (EGPA)"/>
<item key="postreat" action="perl Scripts/postreat.pl [fn]" display="Etiquetado POS (EGPA)"/>
</scripts>

  • Hoja de cálculo para generar el elemento teiHeader

Criterios de edición de la Red CHARTA


Análisis cuantitativo de recursos digitales


  • Recuperación de archivos XML/EAD (PARES)