Llengua

El traductor de Google incorpora l'occità entre 110 idiomes nous

La companyia aspira a arribar a les mil llengües gràcies a les noves eines d'IA que ha desenvolupat

2 min
La nova eina de Google

BarcelonaGoogle Translate, el traductor de Google, ha incorporat 110 noves llengües. En concret, ha passat de tenir 133 llengües a tenir-ne 243. Entre les noves llengües hi ha l’occità, el bretó, el tibetà, el sicilià i el venecià. L'objectiu de la companyia és arribar a les mil llengües.

Inscriu-te a la newsletter Llengua En català i sense complexos
Inscriu-t’hi

El 2022, Google ja va anunciar la incorporació de 24 llengües gràcies a Zero-Shot Machine Translation, un sistema capaç de traduir entre dos idiomes encara que no els hagués vist mai. Per exemple, podia traduir entre coreà i japonès sense tenir-ne exemples i sense que li haguessin ensenyat a fer-ho. En aquest nou pas que ha donat ara, amb la incorporació de més d'un centenar de llengües, Google ha utilitzat el sistema PaLM2, l'acrònim de Pathways Language Model. Es tracta d'un model de llenguatge basat en transformadors de 540.000 milions de paràmetres. Segons Google, pot raonar, explicar acudits, generar codis i traduir.

Aquesta IA, segons explica Google a la seva pàgina web, és especialment hàbil relacionant llengües i captant-ne les diferents varietats. Les llengües són molt diverses i tenen varietats regionals, dialectes o diferents maneres de pronunciar les paraules. "Moltes llengües no tenen una forma estàndard i, per tant, és complicat escollir la varietat correcta. Per tant, la nostra manera d'aproximar-nos-hi és prioritzant les formes més comunes. Per exemple, el romaní té molts dialectes arreu d'Europa. Les nostres traduccions s'aproximen al romaní vlax, que es parla sobretot al sud-est d'Europa, però també incorpora elements vlax del nord d'Europa i de les variants balcàniques", afirma Google. Una quarta part de les noves incorporacions provenen de l’Àfrica, la qual cosa representa l’expansió més gran de llengües africanes fins ara, amb la incorporació d'idiomes com ara el fon, el kikongo, el luo, el ga, el swati, el venda i el wòlof.

Les noves incorporacions representen més de 614 milions de parlants, és a dir, un 8% de la població mundial. Algunes, com el cantonès, són entre les principals llengües del món, amb més de cent milions de parlants, i algunes altres gairebé no tenen parlants nadius però, segons Google, hi ha diferents iniciatives que intenten recuperar-les, com ara el gaèlic manx que es parla a Man, una petita illa de l'Arxipèlag de les Illes Britàniques, que es va considerar pràcticament extint amb la mort del seu últim parlant nadiu, el 1974. Tanmateix, gràcies a tot un moviment que hi va haver per reviure l'idioma, com una ràdio i un centre d'estudis, ara té milers de parlants.

Les noves llengües que ha incorporat Google Translate:

  • Abkhaz
  • Acehnese
  • Acholi
  • Afar
  • Alur
  • Avar
  • Awadhi
  • Balinese
  • Baluchi
  • Baoulé
  • Bashkir
  • Batak Karo
  • Batak Simalungun
  • Batak Toba
  • Bemba
  • Betawi
  • Bikol
  • Bretó
  • Buryat
  • Cantonès
  • Chamorro
  • Chechen
  • Chuukese
  • Chuvash
  • Crimean Tatar
  • Dari
  • Dinka
  • Dombe
  • Dyula
  • Dzongkha
  • Feroès
  • Fijian
  • Fon
  • Friülà
  • Fulani
  • Ga
  • Hakha Chin
  • Hiligaynon
  • Hunsrik
  • Iban
  • Jamaican Patois
  • Jingpo
  • Kalaallisut
  • Kanuri
  • Kapampangan
  • Khasi
  • Kiga
  • Kikongo
  • Kituba
  • Kokborok
  • Komi
  • Latgalian
  • Ligurià
  • Limburgish
  • Llombard
  • Luo
  • Madurese
  • Makassar
  • Malai (Jawi)
  • Mam
  • Manx
  • Marshallese
  • Marwadi
  • Mauritian Creole
  • Meadow Mari
  • Minang
  • Nàhuatl (Eastern Huasteca)
  • Ndau
  • Ndebele (South)
  • Nepalbhasa (Newari)
  • NKo
  • Nuer
  • Occità
  • Ossetià
  • Pangasinan
  • Papiamento
  • Portuguès (Portugal)
  • Panjabi (Shahmukhi)
  • Q'eqchi'
  • Romaní
  • Rundi
  • Sami (North)
  • Sango
  • Santali
  • Seychellois Creole
  • Shan
  • Sicilià
  • Silesià
  • Susu
  • Swati
  • Tahitià
  • Tamazight
  • Tamazight (Tifinagh)
  • Tetum
  • Tibetà
  • Tiv
  • Tok Pisin
  • Tongan
  • Tswana
  • Tulu
  • Tumbuka
  • Tuvan
  • Udmurt
  • Venda
  • Venecià
  • Waray
  • Wòlof
  • Yakut
  • Yucatec Maya
  • Zapotec
stats