Gutenbergtől Zuckerbergig

2011. 05. 16. nincs hozzászólás

A Gutenberg-galaxistól a Google-galaxisig című előadás-sorozat utolsó vendégeként Prószéky Gábor (PPKE ITK) nyelvész és matematikus előadását hallgathattuk meg május 11-én.

„Előadásom címe akár Gutenbergtől Zuckerbergig is lehetne” – vetette fel Prószéky Gábor, aki alapító tagja a MorphoLogic cégnek, amely számítógépes nyelvészettel, nyelvtechnológiával, fordítóprogramok megalkotásával foglalkozik. Az előadó a kiterjesztett számítógépes nyelvészet témakörét járta körül, azaz azt, hogy a ma rendelkezésre álló technológiai feltételek mellett milyen hatással van az internet a nyelvre, a nyelvészre és a nyelvészetre. Prezentációját, matematikus lévén, számadatok halmazával indította, amelyekből a következőket tudhattuk meg: 2006 végére 1 milliárdra duzzadt az internetezők száma; a YouTube-on naponta 100 millió letöltés történik; a teljes weben kb. 44 milliárd videostream található; a banki online tranzakciók száma több mint 30%-ot tesz ki. Előadónk a változás mértékének érzékeltetésére elmondta, hogy ha könyvformátumban kinyomtatnánk mindazt, amit ma csinálunk a weben, az gyorsabb lenne, mint a mai űrhajók haladási sebessége.

A korpusznyelvészet fejlődése szempontjából az interneten fellelhető szövegek egyre nagyobb mennyisége jelent új utakat. Ehhez nagyban hozzájárul a Google Books, hiszen 2004 és 2009 között közel 10 millió könyvet digitalizáltak, jóllehet egy részét nem mutatják, más könyveknek pedig csak részleteire lehet rákérdezni. A nagy mennyiségű korpusz lehetőséget ad arra, hogy különböző utakat kipróbáljunk, erre kétféle módszer létezik: az ún. corpus-driven, illetve az ún. corpus-based megközelítésmód. Az előbbinél van az embernek egy jó ötlete, majd addig „bűvöli” a képernyőt, amíg egyszer csak jön egy forradalmi ötlet, míg ez utóbbinál épp fordítva történik.

A mai üzleti modellekhez jól illeszkedik az, hogy az adatok feldolgozásához a statisztikai programokat ingyen tölti le a felhasználó, aki nem feltétlenül szakember, tehát ezzel csökken a humán erőforrás igénye, ezentúl olcsón hozza létre a végterméket. A probléma ott van Prószéky Gábor szerint, hogy ezek a szoftverek nyílt forráskódúak, és a végfelhasználók pedig nem akarnak fizetni semmiért. Azok, akik minőségi munkát hoznának létre a neten, egy idő után már befektető és pénz hiányában félbehagyják a projekteket. A rossz és a majdnem jó közötti skálán mozgó forrásmunkákkal így tele van az internet, de az igazán jó alkotókat, fejlesztőket, ötleteket a világcégek elkapkodják, így ők diktálhatnak a piacon. Ezért válnak a Google bizonyos szolgáltatásai fizetőssé.

Ami a gépi fordítást illeti, például „A kutyát harapta meg a postás.” példamondat lefordítása statisztikai alapon nem működik. Valamiféle eredmény természetesen mindig van, de a magyar lakosság többsége – angol nyelvtudás hiányában – fel sem tételezi, hogy a számítógépes rendszer által generált eredmény hibás is lehet. A magyarra pedig nagyságrendekkel nehezebb használható eredményt kapni, mert nem hasonlít semmilyen más nyelvre, és ha csak a szavak sorrendjének változatosságát vagy a toldalékok variabilitását nézzük, szinte bármi előfordulhat egy mondaton belül, és nincs akkora szövegkorpusz, ami ehhez elég lenne. Tehát valakinek nyelvi programokat kéne írni, de „ugye, előbb dobtuk ki a nyelvészt az ablakon”. Ráadásul a nyelvspecifikus fordítóprogram kidolgozása magyar nyelven nem éri meg a nagy cégeknek. A szakembereknek a cégen belüli hálózati rendszerek kialakítása jelenthet perspektívát.

 

Az idei Google-galaxis előadás-sorozat véget ért. A következő, őszi félévben új előadásokkal, új előadókkal és új témákkal – ám a szokott helyszínen és időpontban folytatódik.

Piskolti Barbara


 

Vélemény, hozzászólás?

Az email címet nem tesszük közzé. A kötelező mezőket * karakterrel jelöltük

vissza a főoldalra