A Google Translate-ből, a Siri-ből és a Wikipedia-ból hiányzó nyelveket beszélő emberek a jövőben komoly problémákkal szembesülhetnek, ha katasztrófahelyzetben a segélyszervezetek nehezen tudják megszólítani őket.

Az internet korában, amikor nyelvi akadályokba ütközünk, számos internetes eszköz létezik ennek leküzdésére: fordítási alkalmazások, online szótárok, a Wikipedia különböző nyelvű verziói és a web böngészők egyszerű “kattintson fordításhoz” lehetőségei. De manapság körülbelül 7000 nyelvet beszélnek világszerte. A tíz leggyakoribb nyelvet több száz millió ember beszéli, míg az alsó harmadban levőket 1000 vagy annál kevesebb ember használja csak.

De a nyelvek homályos középtartományában is több száz olyan található, melyeken milliók beszélnek egymással. Ezeket a közepes méretű nyelveket még mindig meglehetősen széles körben beszélik, ám az online támogatásuk rendkívül hiányos. Például a svéd nyelv, amelyet 9,6 millióan használnak, a harmadik legnagyobb Wikipedia nyelv, több mint 3 millió cikkel, emellett a Google Translate, a Bing Translate, a Facebook, a Siri, a YouTube feliratok mind-mind támogatják. Ugyanakkor például az Odia, az indiai Odisha állam hivatalos nyelve, amelyet 38 millióan beszélnek, nem található meg a Google Translateben. A Oromo nyelvnek pedig, amelyet mintegy 34 millió ember beszél, leginkább Etiópiában, mindössze 772 Wikipedia cikke cikke van.

Miért van a görög, a cseh, a magyar és a svéd nyelvnek – amelyeket 8–13 millió ember beszél –  Google Translate támogatása és robusztus Wikipedia bemutatása, miközben az azonos méretű vagy náluk nagyobb nyelvek, mint például Bhojpuri (51 millió), Fula (24 millió), Sylheti (11 millió), Quechua (9 millió) és Kirundi (9 millió) a technológiai homályban maradnak?

Ennek egyik oka az, hogy a görög, a cseh, a magyar és a svéd az Európai Unió 24 hivatalos nyelve közé tartozik, ami azt jelenti, hogy egy tolmácsokból álló csapat évente sok európai parlamenti hivatalos dokumentumot lefordítA valódi ember által lefordított dokumentumok nagyszerű alapot teremtenek ahhoz, amit a nyelvészek párhuzamos korpusznak hívnak – ez egy nagy szövegtömeg, amely mondatról mondatra több nyelven egyenértékű. A gépi fordítómotorok párhuzamos korpuszokat használnak a nyelvek közötti rendszeres megfelelések kiszámítására: ha a “regering” vagy “κυβέρνηση”, vagy a “kormány” vagy a “vláda” gyakran megjelennek párhuzamosan a “kormányzattal”, akkor a gép arra a következtetésre jut, hogy ezek a szavak egyenértékűek.

Az ésszerű hatékonyság érdekében a gépi fordításnál minden nyelvhez hatalmas párhuzamos korpusz szükséges. Ideális esetben ez a korpusz különféle műfajokból származó dokumentumokat tartalmaz, nem csupán a parlamenti eljárásokról, hanem a hírlevelekről, regényekről, filmforgatókönyvekről és így tovább egyaránt. A gépek nem tudják pontosan lefordítani az informális közösségi médiabejegyzéseket, ha csak formális jogi dokumentumokon képzik magukat. Sok nyelven a legnagyobb párhuzamosan lefordított szöveg a Biblia, ami néha olyan sajátos helyzetekhez vezet, amikor a Google az értelmetlen szótagokat végzetes próféciákká alakítja.

Az EU-dokumentumokon kívül a svéd, a görög, a magyar és a cseh nyelv is rengeteg nyelvi forrással rendelkezik, amelyek évszázadok óta emberek írtak. Ezek a teljes nemzetállam nyelvei, nemzeti TV és rádiófelvételekkel, amelyek a szöveg-beszéd modellek alapját képezhetik. E nyelveken beszélők olyan jövedelemmel rendelkeznek, ami már megéri a médiavállalatok számára, hogy lefordítsák a népszerű regényeket, feliratozzanak külföldi filmeket és TV-műsorokat. Olyan országokban élnek, amelyekben a technológiai cégek potenciális ügyfeleket látnak bennük. Ezek az országok sok látogatót is vonzanak, így tehát érdemes lokalizálni a különböző interfészeket és biztosítani fordítási lehetőséget is. E nyelvek rendezett helyesírási rendszerekkel és szótárakkal rendelkeznek, amelyek helyesírás-ellenőrző és prediktív szöveges modellekké formálhatók. Nagyszámú, képzett nyelvhasználóval rendelkeznek, akik megfelelő internet-hozzáféréssel hozzájárulhatnak olyan projektekhez, mint a Wikipedia.

A nyelvi források nem maguktól jönnek létre. Az embereknek döntenek a létrehozásukról, és ezeket az embereket etetni és itatni, oktatni, elhelyezni és támogatni kell, akár kormányok, akár vállalatok, vagy olyan személyes vagyon révén, amely lehetőséget teremt az egyének időigényes intellektuális hobbijára. A párhuzamos korpuszok és más nyelvi erőforrások létrehozása éveket vesznek igénybe, ha egyáltalán létrejönnek, miközben nyelvenként több tízmillió dolláros költséggel járnak.

Sajnos tudjuk, hogy időszakonként világszerte katasztrófák történnek: földrengések, árvizek, hurrikánok, ciklonok, betegségek, éhínségek vagy akár tüzek. Néhány katasztrófa azokon a területeken törhet majd ki a jövőben, ahol az emberek jelentős támogatással bíró nyelvet beszélnek, és így a segélyszervezetek könnyen siethetnek a segítségükre. De jó eséllyel néhány jövőbeni válság ott történik majd, ahol az emberek egy gyengén támogatott, közepes méretű nyelvet beszélnek. Ezekben az esetekben a segélyszervezetek és a kormányok súlyos nyelvi akadályokkal szembesülhetnek majd.

A probléma az, hogy nem tudjuk, melyik nyelv lesz a világ figyelmének középpontjában legközelebb. Amikor a Haitit 2010-ben földrengés sújtotta, a nemzetközi szervezetek hirtelen szükségük volt a haiti kreol erőforrásokra. Az Ebola-járványoknál Nyugat-Afrikában olyan nyelveket beszéltek, mint a szuahéli , a Nande, a Mbuba, a Krio , a Mende és a Themne. A közép-amerikai menedékkérők gyakran a Zapotec , a Q’anjob’al, a K’iche és a Mam nyelveket beszélik. Ezek az emberek nem ideális vásárlók a nagy technológiai vállalatok számára. Nincs szabadidejük a Wikipedia szerkesztéséhez. Lehet, hogy írástudatlanul nem is tudnak anyanyelvükön szöveges üzenettel kommunikálni, e helyett hangjegyzettel üzengetnek. De amikor válsághelyzet van, az internetkommunikációs eszközök kulcsfontosságúakká válnak.

A Darpa, a Védelmi Haladó Kutatási Projektek Ügynökségének kutatói úgy döntöttek, hogy a problémát úgy kezelik, hogy újragondolják a nyelvek fordításának módját. A nyelvspecifikus eszközök létrehozása helyett a Darpa megpróbál olyan nyelv-független eszközöket építeni, amelyek majd válsághelyzetben is bevethetők. Ezek az eszközök kis átalakítással bármilyen nyelvre  átültethetők még akkor is, ha csak a közösségi médiából származó egynyelvű szövegeket használnak a gondosan lefordított párhuzamos korpuszok helyett.

A célokon is változtattak. Dr. Boyan Onyshkevych, a Darpa Információs Innovációs Iroda programmenedzsere szerint túl nehéz a teljesen gépi fordítókhoz fordulni, amelyek idiomatikus prózát készítenek. Ehelyett inkább úgy döntöttek, hogy könnyebben kezelhető feladatokat végeznek, például összekapcsolják az összes megfelelő főnevet egy szakaszban az azok megfelelőivel egy szélesebb körben beszélt nyelven. Az entitások ilyen módon történő automatikus azonosítása segítséget nyújthat az általános vészhelyzetekben – mondjuk, melyik folyók áradnak, melyik falut érint egy járvány, vagy mely emberek tűntek el.

A Darpa éveken át több tucat egyetemen és társaságnál finanszíroz kutatókat; majd évente kétszer egy-egy “nyelvi válságszimulációs” eseményen teszteli őket, ahol a kutatók csapata a képzeletbeli katasztrófajelentéseket egy meglepő misztikus nyelvre fordítja le. Az első fordulóban a csapatoknak 24 órája van arra, hogy a lehető legtöbb hasznos információt kikeressék a közösségi médiából, a blogokból és a hírjelentésekből, néhány erőforrás, például egy alapszótár és egy anyanyelvi emberrel eltöltött egy órás beszélgetés segítségével. Ezután a Darpa még több közösségi média adatot ad hozzá és még több időt ad egy anyanyelvi forráshoz, majd a csapatok ismét munkának látnak. Később az ilyen szimulációk eredményeit és adatkészleteit online is közzéteszik, így azokat a Siri-hez vagy a Google Translate-hez hasonló eszközökbe is implementálhatják.

Ezekkel a módszerek az internet-kor forrásait használják fel az internet-kor problémáinak megoldására. A kisebb nyelveken nem áll rendelkezésre kiterjedt könyv vagy parlamenti nyilvántartás a nyelvfeldolgozók rendszerek fejlesztésére, és ezeknek a nyelveknek nem túl sok professzionális fordítójuk van. De sok ezer vagy több millió e nyelveken beszélő ember lóg a közösségi médiákon, és – mint mi mindannyian – közlik az időjárással vagy az ebédelésükkel kapcsolatos üzeneteiket. Ezek a posztok jelenthetik a ritka nyelveket beszélők saját túlélésének esélyét, ha tweetjeiket és blogbejegyzéseiket fel tudjuk használni arra, hogy megtanítsuk a világnak, hogy vészhelyzetben hogyan segíthetnek számukra.

 

Forrás: https://www.wired.com