Difference between revisions of "Kaingang and Portuguese"
From LING073
(→kgp-por pair) |
(→Additions) |
||
Line 113: | Line 113: | ||
'''kgp-por output: ''' #Nós por #alguém #estar com medo #sarar então #nós #ele, #ele atrás #ele #mexer #tendo ido; #nós por #ele #enganar #é. | '''kgp-por output: ''' #Nós por #alguém #estar com medo #sarar então #nós #ele, #ele atrás #ele #mexer #tendo ido; #nós por #ele #enganar #é. | ||
− | ==Additions== | + | ==Additions for "Polished RBMT System" assignment== |
− | *Added 103 words to the bilingual dictionary | + | *Added 103 words to the bilingual dictionary |
+ | *Added 6 disambiguation rules | ||
+ | |||
==Final evaluation== | ==Final evaluation== | ||
===kgp transducer=== | ===kgp transducer=== |
Revision as of 12:53, 29 April 2019
Resources for machine translation between Kaingang and Portuguese. [1]
Contents
External Resources
kgp → por Evaluation
Coverage (number of forms analysed) of Kaingang transducer on kgp.sentences.txt file
$ aq-covtest ling073-kgp-por-corpus/kgp.sentences.txt ling073-kgp/kgp.automorf.bin Number of tokenised words in the corpus: 32669 Coverage: 89.98% Top unknown words in the corpus: 160 há 60 kaga 52 mẽg 47 sĩ 46 si 44 nĩn 43 kanẽ 42 Ka 40 ka 39 ké 37 fe 34 pẽn 33 rá 30 nĩm 27 vég 27 panh 26 jafã 26 isóg 24 jagy 24 Jesus Translation time: 0.08736515045166016 seconds
Coverage of Kaingang-Portuguese transducer (xyz-abc.automorf.hfst) on the same file
$ aq-covtest ling073-kgp-por-corpus/kgp.sentences.txt ling073-kgp-por/kgp-por.automorf.bin Number of tokenised words in the corpus: 34281 Coverage: 58.82% Top unknown words in the corpus: 739 vỹ 300 ki 287 fi 280 to 198 há 189 sóg 188 vẽnh 182 tũ 171 tá 145 nĩgtĩ 135 tĩg 134 ha 127 mẽ 121 pẽ 114 kar 114 mág 111 nén 111 kã 105 jẽ 102 kri Translation time: 0.06977176666259766 seconds
10 sentences
- Original sentence: Ag mỹ tóg, e tĩ.
Intended Portuguese translation: Ficaram surpresos. kgp-por-biltrans output: ^Ag<prn><pes>/Eles<prn><tn><pes>/Deles<prn><tn><pes>$ ^mỹ<cir>/para<pr>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^e<v><iv>/fazer<vblex>/causar<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^.<sent>/.<sent>$ kgp-por output: #Eles para #ele, #fazer #tendo ido.
- Original sentence: Ti mré ke ag vẽ.
Intended Portuguese translation: São os seus companheiros. kgp-por-biltrans output: ^Ti<prn><pes>/Ele<prn><tn><pes>/Lhe<prn><tn><pes>/Seu<prn><tn><pes>/Dele<prn><tn><pes>$ ^mré ke<mod>/parente<n><m>$ ^ag<prn><pes>/eles<prn><tn><pes>/deles<prn><tn><pes>$ ^vẽ<a>/é<vblex>/era<vblex>/ser<vblex>$^.<sent>/.<sent>$^.<sent>/.<sent>$ kgp-por output: #Ele #parente #eles #é.
- Original sentence: Kã’ég ũ tóg sá nĩ, ũ tóg kusũg nĩ, ũ tóg tánh nĩ, ũ tóg kógnár nĩ, e ti nỹtĩ.
Intended Portuguese translation: Algumas araras são pretas, outras vermelhas, outras verdeazuis, outras pintadas, há muitas variedades. kgp-por-biltrans output: ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^sá<mod>/preto<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^,<cm>/,<cm>$ ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^kusũg<mod>/vermelho<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^,<cm>/,<cm>$ ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^tánh<mod>/azul<adj>/verde<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^,<cm>/,<cm>$ ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^kógnár<mod>/pintado<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^,<cm>/,<cm>$ ^e<v><iv>/fazer<vblex>/causar<vblex>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^nỹtĩ<v><iv><pl>/existir<vblex>$^.<sent>/.<sent>$ kgp-por output: #Arara #alguém #ele #preto #sentar, #alguém #ele #vermelho #sentar, #alguém #ele #azul #sentar, #alguém #ele #pintado #sentar, #fazer #ele #existir
- Original sentence: Tãnh jũn kym ẽg tĩ, kỹ ẽg tóg, ti fár tar ẽn vãvãm tĩ, jó ẽg ti fár tãnãj ẽn mré ti kãtá ke ẽn ko tĩ, tãnh kaju ti.
Intended Portuguese translation: Cortamos o palmito, jogamos fora a casca dura e comemos a casca mole com o coração. kgp-por-biltrans output: ^jũn<n>/palmito<n><m>$ ^kym<v><tv><sg>/cortar<vblex>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^fár<n>/pele<n><f>/casca<n><f>$ ^*tar/*tar$ ^ẽn<prn><dem>/aquele<prn><tn><dem>$ ^vãvãm<v><tv><pl>/vender<vblex>/descartar<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^jó<cir>/antes<adv>/em frente<adv>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^fár<n>/pele<n><f>/casca<n><f>$ ^tãnãj<n>/mole<adj><mf>$ ^ẽn<prn><dem>/aquele<prn><tn><dem>$ ^mré<cir>/com<pr>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^*kãtá/*kãtá$ ^ke<n>/sobra<n><f>/resto<n><m>$ ^ẽn<prn><dem>/aquele<prn><tn><dem>$ ^ko<v><tv>/usar<vblex>/comer<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^tãnh<n>/palmeira<n><f>$ ^kaju<v>/empurrar<vblex>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$^.<sent>/.<sent>$^.<sent>/.<sent>$ kgp-por output: #Palmeira #palmito #cortar #nós #tendo ido, então #nós #ele, #ele #pele *tar #aquele #vender #tendo ido, #antes #nós #ele #pele #mole #aquele com #ele *kãtá #sobra #aquele #usar #tendo ido, #palmeira #empurrar #ele.
- Original sentence: Kejẽn ũ tóg ẽg pãnĩ tá ẽg jé prẽr tĩ, kỹ ẽg tóg, vĩrĩn ke kỹ ti mĩ ẽvãnh kỹ, ti mré vĩ mũ sir.
Intended Portuguese translation: Às vezes alguém nos chama nas nossas costas, aí nós nos viramos para olhá-lo e falar com ele. kgp-por-biltrans output: ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^pãnĩ tá<cir>/atrás<adv>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^jé prẽr<v><sv>/chamar<vblex><sv>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^vĩrĩn ke<v><iv>/virar-se<vblex>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^mĩ<cir>/dentro<adv>$ ^ẽvãnh<v><iv>/enxergar<vblex>/observar<vblex>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$^,<cm>/,<cm>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^mré<cir>/com<pr>$ ^vĩ<n>/palavra<n><f>/discurso<n><m>$ ^mũ<a>/fazendo<vblex>$ ^sir<o>/daí<cnjadv>/então<adv>/assim<adv>$^.<sent>/.<sent>$^.<sent>/.<sent>$ kgp-por output: Às vezes #alguém #ele #nós atrás #nós #chamar #tendo ido, então #nós #ele, #virar-se então #ele dentro #enxergar então, #ele com #palavra #fazendo daí.
- Original sentence: Kejẽn ẽg tóg, re ra kutẽ tĩ, ẽg tỹ ĩn kãkã nĩ ra, kỹ ẽg tóg, jãnkã nón kỹ króm ke tĩ sir.
Intended Portuguese translation: Às vezes quando saímos para fora da casa abrimos a porta e saímos. kgp-por-biltrans output: ^Kejẽn<cir>/Às vezes<adv>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^re<n>/fora<adv>/grama<n><f>/campo<n><m>$ ^ra<cir>/para<pr>/apesar do<cnjadv>$ ^kutẽ<v><iv><sg>/cair<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tỹ<cir>/por<pr>/com<pr>$ ^ĩn<n>/casa<n><f>$ ^kãkã<v><tv>/cavoucar<vblex>/revistar<vblex>/vasculhar<vblex>$ ^nĩ<v><iv><sg>/sentar<vblex>$ ^ra<cir>/para<pr>/apesar do<cnjadv>$^,<cm>/,<cm>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^jãnkã<n>/porta<n><f>$ ^nón<cir>/após<pr>/atrás<adv>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^króm ke<v><iv>/sair<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$ ^sir<o>/daí<cnjadv>/então<adv>/assim<adv>$^.<sent>/.<sent>$^.<sent>/.<sent>$ kgp-por output: Às vezes #nós #ele, fora para #cair #tendo ido, #nós por #casa #cavoucar #sentar para, então #nós #ele, #porta após então #sair #tendo ido daí.
- Original sentence: Kejẽn ẽg japry tóg jonjor sag tĩ, kỹ ẽg tóg ti rãgfãn tĩ, ẽg tỹ vẽnhrã hã ti tĩn jé.
Intended Portuguese translation: Às vezes o nosso caminho tem muitas curvas, então nós o endireitamos para ficar mais reto. kgp-por-biltrans output: ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^japry<n>/caminho# de algo<n><m>/caminho# de alguém<n><m>$ ^tóg<su>/ele<prn><tn>$ ^jonjor<n>/curvas<n><f>/ziguezague<n><m>$ ^sag<v><tv>/atar<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^rãgfãn<v><tv>/endireitar<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tỹ<cir>/por<pr>/com<pr>$ ^vẽnh rã hã<cir>/perto<adv>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^tĩn<v><tv>/fazer andar<vblex>/passar por cima de<vblex>$ ^jé<n>/reza<n><f>$^.<sent>/.<sent>$^.<sent>/.<sent>$ kgp-por output: Às vezes #nós #caminho# de algo #ele #curvas #atar #tendo ido, então #nós #ele #ele #endireitar #tendo ido, #nós por perto #ele #fazer andar #reza.
- Original sentence: “Inh kã’u ã,” he tóg. “Inh mỹ ã tóg tỹ, ũ nĩ ven nĩ vẽ, hã ra ã tóg tỹ, ã hã nĩ”, he tóg.
Intended Portuguese translation: “Você me assustou, pensei que você era um outro mas é você mesmo”, ele falou para mim. kgp-por-biltrans output: “^Inh<prn><pes>/Eu<prn><tn><pes>/Meu<prn><tn><pes>/De mim<prn><tn><pes>$ ^kã’u<v><tv>/assustar<vblex>$ ^ã<prn>/tu<prn><tn>/teu<prn><tn>/seu<prn><tn>/você<prn><tn>/de ti<prn><tn>/de você<prn><tn>$^,<cm>/,<cm>$” ^he<intj>/sim<adv>/aceito<adj>/vou fazer<vblex>$ ^tóg<su>/ele<prn><tn>$^.<sent>/.<sent>$ “^Inh<prn><pes>/Eu<prn><tn><pes>/Meu<prn><tn><pes>/De mim<prn><tn><pes>$ ^mỹ<cir>/para<pr>$ ^ã<prn>/tu<prn><tn>/teu<prn><tn>/seu<prn><tn>/você<prn><tn>/de ti<prn><tn>/de você<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^tỹ<cir>/por<pr>/com<pr>$^,<cm>/,<cm>$ ^ũ<prn>/alguém<prn><tn>$ ^nĩ<v><iv><sg>/sentar<vblex>$ ^ven<v><tv><sg>/mostrar<vblex>$ ^nĩ<v><iv><sg>/sentar<vblex>$ ^vẽ<a>/é<vblex>/era<vblex>/ser<vblex>$^,<cm>/,<cm>$ ^hã<o>/igual<adj>/parecido<adj>$ ^ra<cir>/para<pr>/apesar do<cnjadv>$ ^ã<prn>/tu<prn><tn>/teu<prn><tn>/seu<prn><tn>/você<prn><tn>/de ti<prn><tn>/de você<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^tỹ<cir>/por<pr>/com<pr>$^,<cm>/,<cm>$ ^ã<prn>/tu<prn><tn>/teu<prn><tn>/seu<prn><tn>/você<prn><tn>/de ti<prn><tn>/de você<prn><tn>$ ^hã<o>/igual<adj>/parecido<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$”^,<cm>/,<cm>$ ^he<intj>/sim<adv>/aceito<adj>/vou fazer<vblex>$ ^tóg<su>/ele<prn><tn>$^.<sent>/.<sent>$^.<sent>/.<sent>$ kgp-por output: “#Eu #assustar #tu,” sim #ele. “#Eu para #tu #ele por, #alguém #sentar #mostrar #sentar #é, #igual para #tu #ele por, #tu #igual #sentar”, sim #ele.
- Original sentence: Kyfé tỹ ag tóg, jagnẽ mĩ tỹ kririn ke ja nĩ.
Intended Portuguese translation: Eles haviam se riscado um ao outro com uma faca. kgp-por-biltrans output: ^tỹ<cir>/por<pr>/com<pr>$ ^ag<prn><pes>/eles<prn><tn><pes>/deles<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^jagnẽ<prn>/si mesmo<prn>$ ^mĩ<cir>/dentro<adv>$ ^tỹ<cir>/por<pr>/com<pr>$ ^kririn ke<v><iv>/riscar<vblex>$ ^ja<mod>/feito<adj>/terminado<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^.<sent>/.<sent>$^.<sent>/.<sent>$ kgp-por output: #Faca por #eles #ele, #si mesmo dentro por #riscar #feito #sentar.
- Original sentence: Ẽg tỹ ũ mũmẽg han kỹ ẽg tóg, ti pãnĩ tá ti vóg tĩ; ẽg tỹ ti vatánh vẽ.
Intended Portuguese translation: Quando queremos dar um susto em alguém, nós o pegamos por trás, assim nós o assustamos. kgp-por-biltrans output: ^Ẽg<prn><pes>/Nós<prn><tn><pes>/Nosso<prn><tn><pes>$ ^tỹ<cir>/por<pr>/com<pr>$ ^ũ<prn>/alguém<prn><tn>$ ^mũmẽg<v><iv>/estar com medo<vblex>$ ^han<v><iv><sg>/sarar<vblex>/melhorar<vblex>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^pãnĩ tá<cir>/atrás<adv>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^vóg<v><tv>/mexer<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^;<sent>/;<sent>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tỹ<cir>/por<pr>/com<pr>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^vatánh<v><tv>/enganar<vblex>/assustar<vblex>/contrariar<vblex>$ ^vẽ<a>/é<vblex>/era<vblex>/ser<vblex>$^.<sent>/.<sent>$^.<sent>/.<sent>$ kgp-por output: #Nós por #alguém #estar com medo #sarar então #nós #ele, #ele atrás #ele #mexer #tendo ido; #nós por #ele #enganar #é.
Additions for "Polished RBMT System" assignment
- Added 103 words to the bilingual dictionary
- Added 6 disambiguation rules
Final evaluation
kgp transducer
- Precision and recall against annotated.basic corpus:
$ precisionRecall ../ling073-kgp-corpus/kgp.annotated.basic.txt ../ling073-kgp-corpus/kgp.annotated.basic.txt Totals: 139 forms, 427 tp, 0 fp, 0 tn, 0 fn Precision: 100.00000% Recall: 100.00000%
- Coverage over the large corpus:
$ aq-covtest ling073-kgp-corpus/kgp.corpus.large.txt ling073-kgp/kgp.automorf.bin Number of tokenised words in the corpus: 406588 Coverage: 91.99% Top unknown words in the corpus: 726 nĩn 716 Cristo 609 vég 549 venh 480 nỹtĩn 470 Senhor 428 nĩm 392 hẽn 385 kuprĩg 377 jafã 375 cidade 350 henh 340 Paulo 334 jyvẽn 331 pir 308 mũꞌ 307 nĩꞌ 307 Pedro 289 régre 271 vin Translation time: 1.0561802387237549 seconds
- The number of words in the large corpus: 366,209
- The number of stems in the transducer: 2,299
kgp-por pair
- WER over longer corpus:
- PER over longer corpus:
- Proportion of stems translated correctly in the longer corpus:
- Trimmed coverage over longer and large corpora:
- The number of tokens in longer corpora:
- The number of tokens in large corpora: 406,588