EuMediCS - IKERGAZTE 2025: Euskarazko Medikuntzaren Domeinuko Corpus Sintetikoa: Itzultzaile Automatikoen Ekarpena
Egileak: Ane García Domingo-Aldama1, Irune Palacios1, Maitane Urruela, Iker De la Iglesia, Ander Barrena, Josu Goikoetxea
- ICD-10: Banakako esaldien bilduma, guztiak arlo medikoari dagozkionak.
- SNOMED: Esaldi osoak izan beharrean, gaixotasunak, prozedurak, egitura anatomikoak eta beste hainbat termino mediko biltzen dituen datu-multzoa.
- elhuyar_med: Ingelesezko liburu eta dokumentu medikoak, euskarara itzuliak.
- elhuyar_kimika: elhuyar med-en antzekoa, baina jatorrizko dokumentuetatik ateratako iragazki gabeko esaldiak ez ditu barne hartzen. Medikuntzarekin zuzenean lotuta ez badago ere, biokimikaren terminologia espezifikoa biltzen du.
- Datu-multzo orokorra: Espainieratik eta ingelesetik euskarara itzulitako esaldiak biltzen dituen datu-multzo ez-espezializatua.
- Corpus bilketa eta kateamendua
- Bifixer erabilita corpus paraleloen garbiketa orokorra burutu eta corpus elebidunen kalitatea hobetzen da.
- Esaldien filtraketa burutzen da LaBSE similarity aplikatuz, errepresentazio bektorialak erabiliz esaldi paralelo pareak identifikatuz →
LAaBSE_similarity_batches.py
- Esaldi duplikatuak kentzen dira →
remove_duplicates.perl
Ereduak entrenatzeko, MarianMT erabili da, Transformer arkitekturan oinarritua. Hurrengo komandoa erabili da:
marian \
--model en-eu/model/model.npz --type transformer \
--train-sets train_clean.en train_clean.eu \
--vocabs en-eu/model/vocab.eneu.spm en-eu/model/vocab.eneu.spm \
--dim-vocabs 8000 8000 --mini-batch-fit -w $WORKSPACE --maxi-batch 1000 \
--valid-freq 500 --save-freq 500 --disp-freq 100 --valid-mini-batch 64 \
--valid-metrics cross-entropy perplexity ce-mean-words bleu-detok \
--valid-sets Flores-dev.en Flores-dev.eu \
--early-stopping 5 --max-length 200 --overwrite --keep-best \
--log en-eu/model/train.log --valid-log en-eu/model/valid.log \
--tempdir en-eu/model --transformer-heads 8 \
--enc-depth 6 --dec-depth 6 --tied-embeddings-all \
--transformer-dropout 0.1 --label-smoothing 0.1 \
--learn-rate 0.0003 --lr-warmup 16000 --lr-decay-inv-sqrt 16000 --lr-report \
--optimizer-params 0.9 0.98 1e-09 --clip-norm 5 \
--sync-sgd --exponential-smoothing \
--normalize=0.6 --beam-size=6 --quiet-translation \
--devices 0 1
Entrenatutako hiru itzultzaileak HuggingFace webgunean eskegita daude haien atzipena errazteko. Sortutako modeloak PyTorch-era moldatu dira haien erabilpena errazteko.
- Eleaniztun eredua (ingelesetik zein gaztelaniatik euskerarako itzultzailea): HiTZ/medical_enes-eu
- Gaztelaniatik euskerarako itzultzailea: HiTZ/medical_es-eu
- Ingelesetik euskerarako itzultzailea: HiTZ/medical_en-eu
Itzulpenak ereduekin egin ahal izateko translate.py
script-a baliatu da, eredu ezberdinak zuzenean HuggingFace-etik atxikituz.
Egilea | Posta elektronikoa |
---|---|
Ane García Domingo-Aldama | ane.garciad@ehu.eus |
Irune Palacios | ipalacios017@ikasle.ehu.eus |
Maitane Urruela | murruela002@ikasle.ehu.eus |
Iker De la Iglesia | iker.delaiglesia@ehu.eus |
Ander Barrena | ander.barrena@ehu.eus |
Josu Goikoetxea | josu.goikoetxea@ehu.eus |