Мы в Telegram
Добавить новость
103news.com
World News
Октябрь
2019

Labāki par Google un Microsoft

0
IR 

Mašīntulkošanas rīku «olimpiskajās spēlēs» valodu tehnoloģiju uzņēmuma Tilde izstrādātās sistēmas jau trīs gadus pārspēj pasaulē lielāko IT milžu piedāvājumu. Kā mūsu speciālisti kļuvuši par vislabākajiem pasaulē?

The post Labāki par Google un Microsoft appeared first on IR.lv.

Mašīntulkošanas rīku «olimpiskajās spēlēs» valodu tehnoloģiju uzņēmuma Tilde izstrādātās sistēmas jau trīs gadus pārspēj pasaulē lielāko IT milžu piedāvājumu. Kā mūsu speciālisti kļuvuši par vislabākajiem pasaulē?

Nolemju paspēlēties. Ziņu teikumu, ka Rīgā atsūknē lietusūdeni vietās, kur peļķes apgrūtina satiksmi, iemetu gan Google Translate, gan Tildes Tulkotājā. Lai gan teikumu konstrukcijas ir atšķirīgas, latviešu valodas nepratējs to jēgu izlobītu abos gadījumos. Nekas būtisks tulkojumā nav pazudis. 

Turpinu spēlēšanos ar tautasdziesmu par rudeni, kas saraudinājis sauli. Ne Google, ne Tildes tulkotāju neapmulsina pat «smagi šņāca egļu meži». Taču tie nesaprot «pilni saules asariņu». Abi mašīntulki izshēmo, ka meži ir saules gaismas pielieti. 

Pēc šādas spēlēšanās kļūst skaidrs, ka mašīntulkošanas sistēmas kļūst aizvien uzticamākas. Dzeju tām netulkot, bet var uzticēt tekstus, kuros jāsaprot būtiskākais. Taču ar tādu niekošanos nepietiek, lai saprastu Tildes starptautiskos un noturīgos panākumus mašīntulkošanā. Pēc Tildes tulkotāja darba var tikai daļēji spriest, cik labi ir tā izstrādātāji. Sacensībās viņi piedalās nevis ar publiski pieejamām, bet ar īpaši izstrādātām sistēmām. 

Trīs gadus pēc kārtas desmit Tildes speciālisti ir gatavojuši jaunus mašīntulkošanas rīkus, pilnveidojot un pulējot savas prasmes, un visus trīs gadus arī ieguvuši pirmās vietas. Tas ļauj Tildes mākslīgā intelekta attīstības vadītājam Mārcim Pinnim teikt, ka viņš un kolēģi ir pasaulē labākie mašīntulkošanas sistēmu izstrādātāji. «Esam līderos,» viņš saka. 

Sacenšas zinātnes vārdā 

Sacensības, kurās ar mašīntulkošanas tehnoloģijām sacenšas pasaules informācijas tehnoloģiju uzņēmumu, pētniecības centru un universitāšu, arī starptautisku organizāciju komandas, notiek 14 gadus. Kopš 2017. gada, kad tām pievienojās arī Tildes komanda, tā vienmēr ir ieguvusi pirmo vietu.

Sacensības organizē pasaules vadošie mašīntulkošanas pētnieki no dažādiem zinātniskajiem centriem, kuros pēta mākslīgo intelektu un mašīntulkošanu. Tā ir Edinburgas Universitāte, Kārļa Universitāte Prāgā, Džonsa Hopkinsa Universitāte ASV, Bruno Keslera fonds Itālijā, Šefīldas Universitāte Lielbritānijā, Vācijas Mākslīgā intelekta pētniecības centrs, arī pētniecības grupa Microsoft Research. 

Sacensības rīko zinātnieki, tāpēc viņu mērķis ir nevis sadalīt medaļas, bet noskaidrot, kādi piegājieni mašīntulkošanas sistēmu izstrādē ir vislabākie. «Katru gadu attīstām aizvien labākas metodes,» paskaidro Mārcis. 

Arī Tildes komanda sacensībās piedalās ne tikai aiz kāres izrādīt muskuļus, bet arī aiz vēlmes uzzināt par jauniem veidiem. «Ja kāds kaut ko dara labāk, tad varam izvērtēt, vai mums jāievieš kas jauns. Tas ir veids, kā attīstīties,» stāsta Mārcis un paskaidro, ka katras sacensības beidzas ar konferenci un zinātniskajām publikācijām par mašīntulkošanas sistēmu izstrādi. Dalībnieki netur sveci zem pūra — apmainās ar informāciju, atklāj metodes, ar kādām izstrādājuši savu sistēmu.

Katru gadu sacensībās piedalās vairāki desmiti komandu, šogad — 45. Vairākumā gadījumu to veido zinātnisko institūtu, universitāšu, pētniecības centru un arī tādu uzņēmumu kā Microsoft vai Tilde komandas. Taču uzņēmumu pārstāvju ir maz, šogad bija 11 komandas. «Uzņēmumi ne vienmēr grib rādīt, kādā veidā ir izstrādājuši savas mašīntulkošanas sistēmas,» paskaidro Mārcis. «Arī salīdzināt sevi ar citiem ne visi grib. Ja nav uzvaras, potenciālie klienti saņem sliktu vēsti par sistēmu spējām. Bet mēs esam pārliecināti — daudz strādājam, lai tās būtu augstā līmenī.» 

Vēl viens Mārča minēts faktors, kāpēc Tilde piedalās zinātnieku rīkotās sacensībās, —  specializējoties valodas tehnoloģijās, latviešu IT uzņēmums ir iesaistījies pētnieciskos projektos, kuros jāpēta jaunas tehnoloģijas un jāpublicē rezultāti. Arī sacensību konferencei jāsagatavo akadēmiska publikācija par mašīntulkošanas sistēmām, un tas palielina Tildes zinātnisko jaudu. Arī datorzinātņu doktors Mārcis Pinnis, deviņus gadus strādājot Tildē, ir zinātnieks — viens no aptuveni 50 zinātnisku publikāciju līdzautoriem par mašīntulkošanas un valodas apstrādes tehnoloģijām.

Sacensības tiek rīkotas pēc viena parauga — sagatavo un nosūta komandām datus sistēmu izstrādei un atvēl trīs mēnešus laika. Tās jāsagatavo tulkojumiem no kādas mazas vai sarežģītas valodas (piemēram, somu, lietuviešu, kazahu) uz plaši lietotu valodu (angļu, vācu, franču) un atpakaļ uz mazo valodu. Šogad no 20 tulkošanas virzieniem 10 valodu pāros dalībnieki varēja izvēlēties jebkurus, kas šķita interesanti. Sakritības dēļ pēdējos trijos gados izvēlē bija arī Baltijas valstu valodas, tāpēc 2017. gadā Tilde izvēlējās izstrādāt sistēmas tulkojumiem angļu—latviešu un latviešu—angļu valodā, pērn angļu—igauņu un igauņu—angļu valodā, bet šogad — angļu—lietuviešu un lietuviešu—angļu. «Mēs to uzskatījām par lielu godu — izgatavot sistēmas, kas tulko šajās valodās,» paskaidro Mārcis, kurš vienmēr ir vadījis izstrādes procesu. 

Sacensības notiek arī vairākās disciplīnās: ziņu tulkošana, tulkojumi radniecīgās valodās (šogad: čehu—poļu, hindi—nepāliešu, spāņu—portugāļu), tulkojumu rediģēšanas sistēmas, modeļi mašīntulkošanas sistēmu vērtēšanai. Tilde vienmēr piedāvājusi savas sistēmas pārbaudīt ar ziņu tulkojumiem. Pēc Mārča vārdiem, «lai sistēma spētu iztulkot ziņas, kādas ikdienā lasām portālos, tai jābūt vispārīgi labai», tas ir, jāatpazīst liels vārdu daudzums un dažādas teikuma konstrukcijas. Sacensību organizatori paveikto uztic izvērtēt tulkotājiem, kuri profesionāli spēj salīdzināt, kā tekstu iztulkojis mākslīgais intelekts un kā to būtu darījuši paši. Viņi vērtē, nezinot, ar kādu sistēmu katrs no tulkojumiem veikts. 

Kopš pirmās reizes, kad sacensībās piedalās latviešu speciālisti, eksperti atzina — viņi ir starp labākajiem. Mārcis taisnības labad precizē, ka sacensībās var būt vairāki pirmo vietu ieguvēji. Viņus nosaka ar statistiskām metodēm, un, ja tulkojumu kvalitātes atšķirības divām vai vairākām komandām ir nenozīmīgas, tās visas ir uzvarētājas. 

Piemēram, 2017. gadā latviešu—angļu tulkojumos bija divas pirmās vietas, viena no tām Tildei. 2018. gadā latvieši uzvaru ne ar vienu nedalīja, bet šogad angļu—lietuviešu tulkojumos Tilde pirmo vietu dalīja ar Microsoft Research Asia komandu, bet lietuviešu—angļu tulkojumos bija viena no četrām pirmo vietu ieguvējām. 

Taču sacensību dalībnieku vidū nav Google komandas, un Mārcis precizē ziņās izplatīto vēsti, ka Tildes mašīntulks bijis pārāks par Google tulkotāju. «Tā ir taisnība, ka mūsu izstrādātās sistēmas šogad uzrādīja labākus rezultātus nekā Google publiskā tulkošanas sistēma,» viņš saka. «Parasti organizatori dalībnieku izstrādātās mašīntulkošanas sistēmas salīdzina ar anonimizētām publiskajām sistēmām. Mēs zinām, ka dalībnieku piedāvājums salīdzināts arī ar Google Translate, un mūsējās bija labākas par publiski pieejamām sistēmām, tāpēc secinājām, ka esam labāki par Google,» paskaidro Mārcis. 

Pēc punktu skaita Tilde šogad bija nedaudz priekšā Microsoft — latviešiem bija 72,8 punkti, IT gigantam — 69,1. Abiem pirmās vietas. «Tomēr esam mazliet labāki par Microsoft Research, kas, visticamāk, savās tulkošanas sistēmās atšķirībā no Tildes ir ieguldījusi milzīgu naudu», saka Mārcis. «Liels gandarījums, ka trīs gadus esam starp mašīntulkošanas sistēmu izstrādātāju līderiem. Esam ļoti daudz sasnieguši.»  

Analizē likumsakarības

Kāpēc mašīntulkošanas sistēmu izstrādātājiem nav miera, kāpēc viņi nerimstas un rada aizvien jaunas, un ik gadu liek tām sacensties? 

«Lai gan lietotājam viss šķiet vienkārši — ievadi teikumu, un tev to iztulko —, patiesībā apakšā ir ļoti sarežģīta struktūra. Sistēma, tekstu sadalījusi mazākos segmentos, to analizē. Katra komponente, kas apstrādā tekstu un mēģina no tā izdabūt zināšanas, ir uzlabojama. Pie katras komponentes var nemitīgi strādāt,» skaidro Mārcis. 

Tildes mašīntulkošanas platforma, kas pārvalda visas sistēmas, arī visjaunākās, izveidota pirms vismaz desmit gadiem. Bet uzņēmuma speciālisti to nepārtraukti uzlabo. Gadiem ilgi mašīntulkošanas sistēmas balstījās statistiskos modeļos, kas skaitīja to, cik bieži vārdi un frāzes atkārtojas, kāds tulkojums tām visbiežāk piemērots, un tad piedāvāja savu variantu. Jo biežāk vārds vai frāze tulkojumos bija atrodama, jo ticamāks rezultāts. «Ja lietotājs sistēmā ievadīja teikumu, tā to sadalīja vārdos, katram piemeklējot tulkojumu, un tad kombinēja atkal kopā. Ļoti sadrumstalota metode,» stāsta Mārcis un atzīst, ka šāda sistēma nespēja analizēt visu teikumu, bet tulkoja atsevišķus vārdus un frāzes. Tas nozīmē, ka ziņu teikumu par lielo peļķu izsūknēšanu ielās pirms dažiem gadiem Tildes mašīntulks būtu pārvērtis nesakarīgā vārdu virknējumā. 

Taču tā nenotika, jo 2016. gadā Tilde mašīntulkošanas platformā sāka izmantot tā dēvēto mākslīgo neironu tīklu. Tas ir datu un algoritmu modelis, kas veidots, iedvesmojoties no smadzeņu neironu tīkla. Mākslīgais neironu tīkls nav algoritms, bet gan daudzu dažādu mašīnmācīšanās algoritmu ietvars. Šādas sistēmas, apstrādājot lielu daudzumu datu, «iemācās» veikt uzdevumus pēc dotajiem piemēriem. Mašīntulkošanā tas nozīmē, ka sistēma spēj aptvert kopsakarības starp vārdiem un analizēt teikumus. «Neironu tīkla modeļi ir mūsu mašīntulkošanas sistēmas sirds,» saka Mārcis. 

Un arī modeļus, kas veido veselu tīklu arhitektūru, uzņēmuma sistēmanalītiķi un sistēmarhitekti nepārtraukti uzlabo. Pēc Mārča vārdiem, 2016., 2017. un pēdējo reizi 2018. gadā Tildes neironu mašīntulkošanas arhitektūra jeb tas, kā IT speciālisti savstarpēji kombinē neironus, ir mainījusies. «Tas nozīmē, ka mašīntulkošanas dzini jeb sirdi iepriekšējos trijos gados pilnībā nomainījām trīs reizes,» paskaidro Mārcis.

Rezultātā ar juridiskiem tekstiem, kādi visbiežāk ir Eiropas Savienības dokumenti, Tildes mašīntulks spēj labi tikt galā. Tulkojums gan kādam ekspertam vēl ir jāizrediģē, lai izķertu kļūdas. «Protams, sistēma strādā ar kļūdām,» atzīst Mārcis. «Bet mašīntulkojumi ļauj tulkotājiem strādāt produktīvāk un ātrāk.»

Jaunās tehnoloģijas ļāvušas Tildei nodrošināt ar mašīntulkošanas risinājumiem Eiropas Savienības Padomes prezidējošās valstis. Uzņēmuma izstrādāto rīku Presidencymt.eu sāka izmantot Igaunijas prezidentūras laikā, pašlaik to liek lietā Somijā, lai prezidentūras organizatori ātri iztulkotu tekstus angļu, somu un zviedru valodā. Prezidentūras tulkotājs līdz šim ir palīdzējis pārtulkot 30,8 miljonus vārdu. Apjoms ir līdzvērtīgs 200 Harija Potera sērijas grāmatām. Tilde sniedz savus datus un palīdz ar konsultācijām arī Eiropas Komisijas tulkošanas ģenerāldirektorātam, kurā speciālistu grupa veido savu rīku eTranslation. «Viņi šogad arī piedalījās mašīntulkošanas sacensībās, un viņu sistēma uzrādīja labākus rezultātus nekā publiski pieejamās sistēmas,» saka Mārcis. «Bet, protams, ne tik labus kā mēs. Mums ir lielāka pieredze gan sistēmu izstrādē, gan datu apstrādē.»

Vai ar Tildes tulkotāju var tulkot ziņas? Mārcis neslēpj, ka tam nepieciešama publiski pieejamā mašīntulka regulāra atjaunināšana — lai sistēma atpazītu jaunus vārdus, terminus un fenomenus, kas ir saistīti ar aktualitātēm. «Pašreizējā sistēma spēj iemācīties tikai to, ko bieži redzējusi tai iedotajos datos,» stāsta Mārcis. Tāpēc politisko līderu Trampa, Makrona un Merkeles vārdus Tildes mašīntulks pazīst, bet šogad ievēlēto Ukrainas prezidentu Volodimiru Zelenski vai jauno Eiropas Komisijas prezidenti Urzulu fon der Leienu — ne. Tieši šā iemesla dēļ mašīntulkošanas sistēmas regulāri jāuzlabo un jāatjaunina. «Lai tās attīstītu, noteicošais nav jaunāko neironu tīklu izmantošana, bet gan pareizu datu izmantošana un to apstrāde. Tā ir svarīgāka par matemātiskajām metodēm,» saka Mārcis.

Universāla rīka nebūs

Tulkojumu precizitāte ir atkarīga no sistēmai iedotā datu apjoma un to apstrādes, tāpēc, kā secinājuši Tildes eksperti, katrai nozarei vajadzīgs savs mašīntulkošanas rīks. Universālas sistēmas nav un nebūs, jo, kas der visiem, neder nekam, atzīst Mārcis. 

Ziņu tulkotājs nespēj labi un uzticami tulkot medicīniskus tekstus un diezin vai ar visiem uzlabojumiem tas spēs, piemēram, latviešu ārstam iztulkot sīriešu bēgļa medicīnas vēsturi tā, lai dakteris varētu izšķirties par ārstēšanu. Teksts varētu sasmīdināt arī lauksaimniecības vai ekonomikas speciālistus, ja viņi ar šā rīka palīdzību mēģinātu tulkot savas nozares literatūru. 

«Lai sistēma iemācītos labi tulkot, tā jāpielāgo konkrētās jomas datiem. Tāpēc biznesa klientiem, kas ir dažādu tulkošanas pakalpojumu sniedzēji, izstrādājam pielāgotas sistēmas, kas strādā labāk nekā vispārīgās mašīntulkošanas sistēmas,» saka Mārcis. «Taču retus vārdus, kas datos neparādās bieži, sistēmas vēl nespēj labi atpazīt. Šī problēma vēl jārisina, lai tulkošanas latiņu paaugstinātu.» 

Tuvākais Mārča un viņu kolēģu mērķis ir panākt, lai viņu izstrādātās sistēmas «mācītos» no savām kļūdām. Viņi mēģina panākt, lai tulkotājiem, kad viņi ir izrediģējuši mašīntulka sagatavoto tekstu, būtu iespēja to atdot atpakaļ sistēmai un tā pēc iegūtās informācijas veidotu pareizus secinājumus par vārdu lietojumu vai to atrašanos teikumā attiecībā pret citiem vārdiem. «Lai nākamreiz, kad tulkotājs tulko līdzīgu tekstu, sistēma piedāvātu labāku tulkojumu,» Mārcis cer, ka šāda iespēja būs jau tuvākajā laikā.

The post Labāki par Google un Microsoft appeared first on IR.lv.





Губернаторы России
Москва

Сергей Собянин поздравил москвичей с Международным днем защиты детей





Москва

Стали известны все участники РПЛ сезона-2024/2025


Губернаторы России

103news.net – это самые свежие новости из регионов и со всего мира в прямом эфире 24 часа в сутки 7 дней в неделю на всех языках мира без цензуры и предвзятости редактора. Не новости делают нас, а мы – делаем новости. Наши новости опубликованы живыми людьми в формате онлайн. Вы всегда можете добавить свои новости сиюминутно – здесь и прочитать их тут же и – сейчас в России, в Украине и в мире по темам в режиме 24/7 ежесекундно. А теперь ещё - регионы, Крым, Москва и Россия.

Moscow.media
Москва

Собянин: Проект "Давай друЖИТЬ" помогает исполнять заветные мечты детей



103news.comмеждународная интерактивная информационная сеть (ежеминутные новости с ежедневным интелектуальным архивом). Только у нас — все главные новости дня без политической цензуры. "103 Новости" — абсолютно все точки зрения, трезвая аналитика, цивилизованные споры и обсуждения без взаимных обвинений и оскорблений. Помните, что не у всех точка зрения совпадает с Вашей. Уважайте мнение других, даже если Вы отстаиваете свой взгляд и свою позицию. 103news.com — облегчённая версия старейшего обозревателя новостей 123ru.net.

Мы не навязываем Вам своё видение, мы даём Вам объективный срез событий дня без цензуры и без купюр. Новости, какие они есть — онлайн (с поминутным архивом по всем городам и регионам России, Украины, Белоруссии и Абхазии).

103news.com — живые новости в прямом эфире!

В любую минуту Вы можете добавить свою новость мгновенно — здесь.

Музыкальные новости

Вячеслав Бутусов

Маликов – до 75 тысяч, Бутусов – бесплатно: цены на концерты звезд в дни экономического форума в Петербурге




Спорт в России и мире

Алексей Смирнов – актер, которого, надеюсь, еще не забыли

Источник 360.ru: птенцов придавило тренажером во дворе дома в Москве

Ролан Гаррос. Расписание 2 июня. Потапова и Швентек сыграют первым запуском, Синнер – последним

В Москве презентовали медали и экипировку VIII игр «Дети Азии»


Надежда Петрова

Теннисистка Петрова: Хачанов совершил недопустимую ошибку на "Ролан Гаррос"



Новости Крыма на Sevpoisk.ru


Новости

Новости фармацевтики в России и в мире



Частные объявления в Вашем городе, в Вашем регионе и в России