Skip to content

hitz-zentroa/EuMediCS-IKERGAZTE-2025

Folders and files

NameName
Last commit message
Last commit date

Latest commit

 

History

7 Commits
 
 
 
 
 
 
 
 

Repository files navigation

EuMediCS - IKERGAZTE 2025: Euskarazko Medikuntzaren Domeinuko Corpus Sintetikoa: Itzultzaile Automatikoen Ekarpena

Egileak: Ane García Domingo-Aldama1, Irune Palacios1, Maitane Urruela, Iker De la Iglesia, Ander Barrena, Josu Goikoetxea

Itzultzailetan erabilitako datuak

Terminologia

  • ICD-10: Banakako esaldien bilduma, guztiak arlo medikoari dagozkionak.
  • SNOMED: Esaldi osoak izan beharrean, gaixotasunak, prozedurak, egitura anatomikoak eta beste hainbat termino mediko biltzen dituen datu-multzoa.

Domeinuko testuak

  • elhuyar_med: Ingelesezko liburu eta dokumentu medikoak, euskarara itzuliak.
  • elhuyar_kimika: elhuyar med-en antzekoa, baina jatorrizko dokumentuetatik ateratako iragazki gabeko esaldiak ez ditu barne hartzen. Medikuntzarekin zuzenean lotuta ez badago ere, biokimikaren terminologia espezifikoa biltzen du.

Esaldi orokorrak

  • Datu-multzo orokorra: Espainieratik eta ingelesetik euskarara itzulitako esaldiak biltzen dituen datu-multzo ez-espezializatua.

Aurreprozesamendua

  1. Corpus bilketa eta kateamendua
  2. Bifixer erabilita corpus paraleloen garbiketa orokorra burutu eta corpus elebidunen kalitatea hobetzen da.
  3. Esaldien filtraketa burutzen da LaBSE similarity aplikatuz, errepresentazio bektorialak erabiliz esaldi paralelo pareak identifikatuz → LAaBSE_similarity_batches.py
  4. Esaldi duplikatuak kentzen dira → remove_duplicates.perl

Entrenamendua

Ereduak entrenatzeko, MarianMT erabili da, Transformer arkitekturan oinarritua. Hurrengo komandoa erabili da:

  marian \
    --model en-eu/model/model.npz --type transformer \
    --train-sets train_clean.en train_clean.eu \
    --vocabs en-eu/model/vocab.eneu.spm en-eu/model/vocab.eneu.spm \
    --dim-vocabs 8000 8000 --mini-batch-fit -w $WORKSPACE --maxi-batch 1000 \
    --valid-freq 500 --save-freq 500 --disp-freq 100 --valid-mini-batch 64 \
    --valid-metrics cross-entropy perplexity ce-mean-words bleu-detok \
    --valid-sets Flores-dev.en Flores-dev.eu \
    --early-stopping 5 --max-length 200 --overwrite --keep-best \
    --log en-eu/model/train.log --valid-log en-eu/model/valid.log \
    --tempdir en-eu/model --transformer-heads 8 \
    --enc-depth 6 --dec-depth 6 --tied-embeddings-all \
    --transformer-dropout 0.1 --label-smoothing 0.1 \
    --learn-rate 0.0003 --lr-warmup 16000 --lr-decay-inv-sqrt 16000 --lr-report \
    --optimizer-params 0.9 0.98 1e-09 --clip-norm 5 \
    --sync-sgd --exponential-smoothing \
    --normalize=0.6 --beam-size=6 --quiet-translation \
    --devices 0 1

Itzultzaileak

Entrenatutako hiru itzultzaileak HuggingFace webgunean eskegita daude haien atzipena errazteko. Sortutako modeloak PyTorch-era moldatu dira haien erabilpena errazteko.

Itzulpenak

Itzulpenak ereduekin egin ahal izateko translate.py script-a baliatu da, eredu ezberdinak zuzenean HuggingFace-etik atxikituz.

Kontaktua

Egilea Posta elektronikoa
Ane García Domingo-Aldama ane.garciad@ehu.eus
Irune Palacios ipalacios017@ikasle.ehu.eus
Maitane Urruela murruela002@ikasle.ehu.eus
Iker De la Iglesia iker.delaiglesia@ehu.eus
Ander Barrena ander.barrena@ehu.eus
Josu Goikoetxea josu.goikoetxea@ehu.eus

Footnotes

  1. Pareko ekarpena. 2

About

No description, website, or topics provided.

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published

Contributors 4

  •  
  •  
  •  
  •