Presentan a "versión 4.0" do Corpus de Referencia do Galego Actual

A ferramenta presentouse en Compostela e abarca, cronoloxicamente, desde 1975 até a actualidade.
Presentación da versión 4.0 do Corpus de Referencia do Galego Actual, en Compostela, esta quinta feira (Foto: Xunta da Galiza).
photo_camera Presentación da versión 4.0 do Corpus de Referencia do Galego Actual, en Compostela, esta quinta feira (Foto: Xunta da Galiza).

A versión 4.0 do Corpus de Referencia do Galego Actual (Corga) presentouse esta pasada quinta feira no Pazo de San Roque, en Compostela, coa intención de ser unha ferramenta que achegue datos para o estudo do galego actual desde múltiples perspectivas: léxica, morfolóxica, sintáctica, fraseolóxica, terminolóxica e comunicativa, entre outras. 

No acto participou o secretario xeral de Política Lingüística, Valentín García, acompañado pola dirección do proxecto, María Sol López Martínez e Guillermo Rojo; a coordinadora lingüística, Eva María Domínguez; o vicerreitor da Universidade de Santiago (USC), Ernesto González; e o doutor en computación e coordinador de NLPgo Tecnologies, Francisco Mario Barcala.

Para Valentín García "este recurso, un dos máis destacados do Centro Ramón Piñeiro, é unha ferramenta que continuará avanzando para pór a disposición das e dos lingüistas que se ocupan do galego, novas funcionalidades que permitan facer estudos cada vez máis amplos e variados".

Desde 1975 até a actualidade

O Corpus nesta versión 4.0 enmárcase, tal e como explicou a Consellaría de Cultura nun comunicado, no convenio entre o Centro Ramón Piñeiro para a Investigación en Humanidades -que conta con el en aberto na súa páxina web- e a USC. Abarca, cronoloxicamente, desde 1975 até a actualidade e está enriquecido automaticamente coa etiquetaxe morfosintáctica dos seus textos.

Contén  agora mesmo  un total de 43.162.364 palabras ortográficas (51.451.088 elementos gramaticais) pertencentes, na súa maior parte, a distintos tipos de textos escritos, representativos do galego actual. Inclúe, ademais, case 45 horas de transcricións de contidos sonoros, sobre todo programas de radio, nas que se aliña o texto coa voz. 

Recoñecemento automático

Entre as novas ferramentas que contén esta nova versión 4.0 que agora se presentou, destacan a recuperación de información pola modalidade de inventario, o recoñecemento automático mediante regras lingüísticas dos apreciativos en '-iño', os relativos en '-ísimo' e "unha boa parte das formas con gheada", así como a posibilidade de realizar estudos desde a perspectiva de xénero, "con grafías innovadoras para a linguaxe inclusiva ou atendendo, mesmo, á discriminación dos resultados en función do sexo do autor".

Comentarios