Difference between revisions of "Kaingang and Portuguese"

From LING073
Jump to: navigation, search
(kgp-por pair)
(Additions)
Line 113: Line 113:
 
  '''kgp-por output: ''' #Nós por #alguém #estar com medo #sarar então #nós #ele, #ele atrás #ele #mexer #tendo ido; #nós por #ele #enganar #é.
 
  '''kgp-por output: ''' #Nós por #alguém #estar com medo #sarar então #nós #ele, #ele atrás #ele #mexer #tendo ido; #nós por #ele #enganar #é.
  
==Additions==
+
==Additions for "Polished RBMT System" assignment==
*Added 103 words to the bilingual dictionary for "Polished RBMT System" assignment
+
*Added 103 words to the bilingual dictionary  
 +
*Added 6 disambiguation rules
 +
 
 
==Final evaluation==
 
==Final evaluation==
 
===kgp transducer===
 
===kgp transducer===

Revision as of 12:53, 29 April 2019

Resources for machine translation between Kaingang and Portuguese. [1]

External Resources

kgp → por Evaluation

Coverage (number of forms analysed) of Kaingang transducer on kgp.sentences.txt file

$ aq-covtest ling073-kgp-por-corpus/kgp.sentences.txt ling073-kgp/kgp.automorf.bin
Number of tokenised words in the corpus: 32669
Coverage: 89.98%
Top unknown words in the corpus:
160	 há
60	 kaga
52	 mẽg
47	 sĩ
46	 si
44	 nĩn
43	 kanẽ
42	 Ka
40	 ka
39	 ké
37	 fe
34	 pẽn
33	 rá
30	 nĩm
27	 vég
27	 panh
26	 jafã
26	 isóg
24	 jagy
24	 Jesus
Translation time: 0.08736515045166016 seconds

Coverage of Kaingang-Portuguese transducer (xyz-abc.automorf.hfst) on the same file

$ aq-covtest ling073-kgp-por-corpus/kgp.sentences.txt ling073-kgp-por/kgp-por.automorf.bin 
Number of tokenised words in the corpus: 34281
Coverage: 58.82%
Top unknown words in the corpus:
739	 vỹ
300	 ki
287	 fi
280	 to
198	 há
189	 sóg
188	 vẽnh
182	 tũ
171	 tá
145	 nĩgtĩ
135	 tĩg
134	 ha
127	 mẽ
121	 pẽ
114	 kar
114	 mág
111	 nén
111	 kã
105	 jẽ
102	 kri
Translation time: 0.06977176666259766 seconds

10 sentences

  • Original sentence: Ag mỹ tóg, e tĩ.
Intended Portuguese translation:  Ficaram surpresos.
kgp-por-biltrans output:  ^Ag<prn><pes>/Eles<prn><tn><pes>/Deles<prn><tn><pes>$ ^mỹ<cir>/para<pr>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^e<v><iv>/fazer<vblex>/causar<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^.<sent>/.<sent>$
kgp-por output:  #Eles para #ele, #fazer #tendo ido.
  • Original sentence: Ti mré ke ag vẽ.
Intended Portuguese translation:  São os seus companheiros.
kgp-por-biltrans output:  ^Ti<prn><pes>/Ele<prn><tn><pes>/Lhe<prn><tn><pes>/Seu<prn><tn><pes>/Dele<prn><tn><pes>$ ^mré ke<mod>/parente<n><m>$ ^ag<prn><pes>/eles<prn><tn><pes>/deles<prn><tn><pes>$ ^vẽ<a>/é<vblex>/era<vblex>/ser<vblex>$^.<sent>/.<sent>$^.<sent>/.<sent>$
kgp-por output:  #Ele #parente #eles #é.
  • Original sentence: Kã’ég ũ tóg sá nĩ, ũ tóg kusũg nĩ, ũ tóg tánh nĩ, ũ tóg kógnár nĩ, e ti nỹtĩ.
Intended Portuguese translation:  Algumas araras são pretas, outras vermelhas, outras verdeazuis, outras pintadas, há muitas variedades.
kgp-por-biltrans output:  ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^sá<mod>/preto<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^,<cm>/,<cm>$ ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^kusũg<mod>/vermelho<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^,<cm>/,<cm>$ ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^tánh<mod>/azul<adj>/verde<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^,<cm>/,<cm>$ ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^kógnár<mod>/pintado<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^,<cm>/,<cm>$ ^e<v><iv>/fazer<vblex>/causar<vblex>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^nỹtĩ<v><iv><pl>/existir<vblex>$^.<sent>/.<sent>$
kgp-por output:  #Arara #alguém #ele #preto #sentar, #alguém #ele #vermelho #sentar, #alguém #ele #azul #sentar, #alguém #ele #pintado #sentar, #fazer #ele #existir
  • Original sentence: Tãnh jũn kym ẽg tĩ, kỹ ẽg tóg, ti fár tar ẽn vãvãm tĩ, jó ẽg ti fár tãnãj ẽn mré ti kãtá ke ẽn ko tĩ, tãnh kaju ti.
Intended Portuguese translation:   Cortamos o palmito, jogamos fora a casca dura e comemos a casca mole com o coração.
kgp-por-biltrans output:  ^jũn<n>/palmito<n><m>$ ^kym<v><tv><sg>/cortar<vblex>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^fár<n>/pele<n><f>/casca<n><f>$ ^*tar/*tar$ ^ẽn<prn><dem>/aquele<prn><tn><dem>$ ^vãvãm<v><tv><pl>/vender<vblex>/descartar<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^jó<cir>/antes<adv>/em frente<adv>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^fár<n>/pele<n><f>/casca<n><f>$ ^tãnãj<n>/mole<adj><mf>$ ^ẽn<prn><dem>/aquele<prn><tn><dem>$ ^mré<cir>/com<pr>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^*kãtá/*kãtá$ ^ke<n>/sobra<n><f>/resto<n><m>$ ^ẽn<prn><dem>/aquele<prn><tn><dem>$ ^ko<v><tv>/usar<vblex>/comer<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^tãnh<n>/palmeira<n><f>$ ^kaju<v>/empurrar<vblex>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$^.<sent>/.<sent>$^.<sent>/.<sent>$
kgp-por output:  #Palmeira #palmito #cortar #nós #tendo ido, então #nós #ele, #ele #pele *tar #aquele #vender #tendo ido, #antes #nós #ele #pele #mole #aquele com #ele *kãtá #sobra #aquele #usar #tendo ido, #palmeira #empurrar #ele.
  • Original sentence: Kejẽn ũ tóg ẽg pãnĩ tá ẽg jé prẽr tĩ, kỹ ẽg tóg, vĩrĩn ke kỹ ti mĩ ẽvãnh kỹ, ti mré vĩ mũ sir.
Intended Portuguese translation:  Às vezes alguém nos chama nas nossas costas, aí nós nos viramos para olhá-lo e falar com ele.
kgp-por-biltrans output:  ^ũ<prn>/alguém<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^pãnĩ tá<cir>/atrás<adv>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^jé prẽr<v><sv>/chamar<vblex><sv>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^vĩrĩn ke<v><iv>/virar-se<vblex>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^mĩ<cir>/dentro<adv>$ ^ẽvãnh<v><iv>/enxergar<vblex>/observar<vblex>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$^,<cm>/,<cm>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^mré<cir>/com<pr>$ ^vĩ<n>/palavra<n><f>/discurso<n><m>$ ^mũ<a>/fazendo<vblex>$ ^sir<o>/daí<cnjadv>/então<adv>/assim<adv>$^.<sent>/.<sent>$^.<sent>/.<sent>$
kgp-por output:  Às vezes #alguém #ele #nós atrás #nós #chamar #tendo ido, então #nós #ele, #virar-se então #ele dentro #enxergar então, #ele com #palavra #fazendo daí.
  • Original sentence: Kejẽn ẽg tóg, re ra kutẽ tĩ, ẽg tỹ ĩn kãkã nĩ ra, kỹ ẽg tóg, jãnkã nón kỹ króm ke tĩ sir.
Intended Portuguese translation:  Às vezes quando saímos para fora da casa abrimos a porta e saímos.
kgp-por-biltrans output:  ^Kejẽn<cir>/Às vezes<adv>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^re<n>/fora<adv>/grama<n><f>/campo<n><m>$ ^ra<cir>/para<pr>/apesar do<cnjadv>$ ^kutẽ<v><iv><sg>/cair<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tỹ<cir>/por<pr>/com<pr>$ ^ĩn<n>/casa<n><f>$ ^kãkã<v><tv>/cavoucar<vblex>/revistar<vblex>/vasculhar<vblex>$ ^nĩ<v><iv><sg>/sentar<vblex>$ ^ra<cir>/para<pr>/apesar do<cnjadv>$^,<cm>/,<cm>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^jãnkã<n>/porta<n><f>$ ^nón<cir>/após<pr>/atrás<adv>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^króm ke<v><iv>/sair<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$ ^sir<o>/daí<cnjadv>/então<adv>/assim<adv>$^.<sent>/.<sent>$^.<sent>/.<sent>$
kgp-por output: Às vezes #nós #ele, fora para #cair #tendo ido, #nós por #casa #cavoucar #sentar para, então #nós #ele, #porta após então #sair #tendo ido daí.
  • Original sentence: Kejẽn ẽg japry tóg jonjor sag tĩ, kỹ ẽg tóg ti rãgfãn tĩ, ẽg tỹ vẽnhrã hã ti tĩn jé.
Intended Portuguese translation:  Às vezes o nosso caminho tem muitas curvas, então nós o endireitamos para ficar mais reto.
kgp-por-biltrans output:  ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^japry<n>/caminho# de algo<n><m>/caminho# de alguém<n><m>$ ^tóg<su>/ele<prn><tn>$ ^jonjor<n>/curvas<n><f>/ziguezague<n><m>$ ^sag<v><tv>/atar<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^rãgfãn<v><tv>/endireitar<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^,<cm>/,<cm>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tỹ<cir>/por<pr>/com<pr>$ ^vẽnh rã hã<cir>/perto<adv>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^tĩn<v><tv>/fazer andar<vblex>/passar por cima de<vblex>$ ^jé<n>/reza<n><f>$^.<sent>/.<sent>$^.<sent>/.<sent>$
kgp-por output:  Às vezes #nós #caminho# de algo #ele #curvas #atar #tendo ido, então #nós #ele #ele #endireitar #tendo ido, #nós por perto #ele #fazer andar #reza.
  • Original sentence: “Inh kã’u ã,” he tóg. “Inh mỹ ã tóg tỹ, ũ nĩ ven nĩ vẽ, hã ra ã tóg tỹ, ã hã nĩ”, he tóg.
Intended Portuguese translation:  “Você me assustou, pensei que você era um outro mas é você mesmo”, ele falou para mim.
kgp-por-biltrans output:  “^Inh<prn><pes>/Eu<prn><tn><pes>/Meu<prn><tn><pes>/De mim<prn><tn><pes>$ ^kã’u<v><tv>/assustar<vblex>$ ^ã<prn>/tu<prn><tn>/teu<prn><tn>/seu<prn><tn>/você<prn><tn>/de ti<prn><tn>/de você<prn><tn>$^,<cm>/,<cm>$” ^he<intj>/sim<adv>/aceito<adj>/vou fazer<vblex>$ ^tóg<su>/ele<prn><tn>$^.<sent>/.<sent>$ “^Inh<prn><pes>/Eu<prn><tn><pes>/Meu<prn><tn><pes>/De mim<prn><tn><pes>$ ^mỹ<cir>/para<pr>$ ^ã<prn>/tu<prn><tn>/teu<prn><tn>/seu<prn><tn>/você<prn><tn>/de ti<prn><tn>/de você<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^tỹ<cir>/por<pr>/com<pr>$^,<cm>/,<cm>$ ^ũ<prn>/alguém<prn><tn>$ ^nĩ<v><iv><sg>/sentar<vblex>$ ^ven<v><tv><sg>/mostrar<vblex>$ ^nĩ<v><iv><sg>/sentar<vblex>$ ^vẽ<a>/é<vblex>/era<vblex>/ser<vblex>$^,<cm>/,<cm>$ ^hã<o>/igual<adj>/parecido<adj>$ ^ra<cir>/para<pr>/apesar do<cnjadv>$ ^ã<prn>/tu<prn><tn>/teu<prn><tn>/seu<prn><tn>/você<prn><tn>/de ti<prn><tn>/de você<prn><tn>$ ^tóg<su>/ele<prn><tn>$ ^tỹ<cir>/por<pr>/com<pr>$^,<cm>/,<cm>$ ^ã<prn>/tu<prn><tn>/teu<prn><tn>/seu<prn><tn>/você<prn><tn>/de ti<prn><tn>/de você<prn><tn>$ ^hã<o>/igual<adj>/parecido<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$”^,<cm>/,<cm>$ ^he<intj>/sim<adv>/aceito<adj>/vou fazer<vblex>$ ^tóg<su>/ele<prn><tn>$^.<sent>/.<sent>$^.<sent>/.<sent>$
kgp-por output:  “#Eu #assustar #tu,” sim #ele. “#Eu para #tu #ele por, #alguém #sentar #mostrar #sentar #é, #igual para #tu #ele por, #tu #igual #sentar”, sim #ele.
  • Original sentence: Kyfé tỹ ag tóg, jagnẽ mĩ tỹ kririn ke ja nĩ.
Intended Portuguese translation:  Eles haviam se riscado um ao outro com uma faca.
kgp-por-biltrans output:  ^tỹ<cir>/por<pr>/com<pr>$ ^ag<prn><pes>/eles<prn><tn><pes>/deles<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^jagnẽ<prn>/si mesmo<prn>$ ^mĩ<cir>/dentro<adv>$ ^tỹ<cir>/por<pr>/com<pr>$ ^kririn ke<v><iv>/riscar<vblex>$ ^ja<mod>/feito<adj>/terminado<adj>$ ^nĩ<v><iv><sg>/sentar<vblex>$^.<sent>/.<sent>$^.<sent>/.<sent>$
kgp-por output:  #Faca por #eles #ele, #si mesmo dentro por #riscar #feito #sentar.
  • Original sentence: Ẽg tỹ ũ mũmẽg han kỹ ẽg tóg, ti pãnĩ tá ti vóg tĩ; ẽg tỹ ti vatánh vẽ.
Intended Portuguese translation:  Quando queremos dar um susto em alguém, nós o pegamos por trás, assim nós o assustamos.
kgp-por-biltrans output:  ^Ẽg<prn><pes>/Nós<prn><tn><pes>/Nosso<prn><tn><pes>$ ^tỹ<cir>/por<pr>/com<pr>$ ^ũ<prn>/alguém<prn><tn>$ ^mũmẽg<v><iv>/estar com medo<vblex>$ ^han<v><iv><sg>/sarar<vblex>/melhorar<vblex>$ ^kỹ<conj>/então<adv>/por causa de<n><f>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tóg<su>/ele<prn><tn>$^,<cm>/,<cm>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^pãnĩ tá<cir>/atrás<adv>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^vóg<v><tv>/mexer<vblex>$ ^tĩ<a>/tendo ido<vblex>/habitualmente<adv>$^;<sent>/;<sent>$ ^ẽg<prn><pes>/nós<prn><tn><pes>/nosso<prn><tn><pes>$ ^tỹ<cir>/por<pr>/com<pr>$ ^ti<prn><pes>/ele<prn><tn><pes>/lhe<prn><tn><pes>/seu<prn><tn><pes>/dele<prn><tn><pes>$ ^vatánh<v><tv>/enganar<vblex>/assustar<vblex>/contrariar<vblex>$ ^vẽ<a>/é<vblex>/era<vblex>/ser<vblex>$^.<sent>/.<sent>$^.<sent>/.<sent>$
kgp-por output:  #Nós por #alguém #estar com medo #sarar então #nós #ele, #ele atrás #ele #mexer #tendo ido; #nós por #ele #enganar #é.

Additions for "Polished RBMT System" assignment

  • Added 103 words to the bilingual dictionary
  • Added 6 disambiguation rules

Final evaluation

kgp transducer

  • Precision and recall against annotated.basic corpus:
$ precisionRecall ../ling073-kgp-corpus/kgp.annotated.basic.txt ../ling073-kgp-corpus/kgp.annotated.basic.txt
Totals: 139 forms, 427 tp, 0 fp, 0 tn, 0 fn
Precision: 100.00000%
Recall: 100.00000%
  • Coverage over the large corpus:
$ aq-covtest ling073-kgp-corpus/kgp.corpus.large.txt ling073-kgp/kgp.automorf.bin
Number of tokenised words in the corpus: 406588
Coverage: 91.99%
Top unknown words in the corpus:
726	 nĩn
716	 Cristo
609	 vég
549	 venh
480	 nỹtĩn
470	 Senhor
428	 nĩm
392	 hẽn
385	 kuprĩg
377	 jafã
375	 cidade 
350	 henh
340	 Paulo
334	 jyvẽn
331	 pir
308	 mũꞌ
307	 nĩꞌ
307	 Pedro
289	 régre
271	 vin
Translation time: 1.0561802387237549 seconds
  • The number of words in the large corpus: 366,209
  • The number of stems in the transducer: 2,299

kgp-por pair

  • WER over longer corpus:
  • PER over longer corpus:
  • Proportion of stems translated correctly in the longer corpus:
  • Trimmed coverage over longer and large corpora:
  • The number of tokens in longer corpora:
  • The number of tokens in large corpora: 406,588