Megjelent a HuSpaCy, a nyílt forráskódú magyar nyelvi elemzőlánc

Megjelent a HuSpaCy, a nyílt forráskódú magyar nyelvi elemzőlánc

A SZTAKI által koordinált Mesterséges Intelligencia Nemzeti Laboratórium (MILAB) projekt keretében a Szegedi Tudományegyetem kutatói elkészítették, és szabadon hozzáférhetővé tették a HuSpaCy magyar nyelvi elemzőrendszert, amely a mesterséges intelligencia és nyelvtechnológia legkorszerűbb kutatási eredményeit vegyíti egy magyar szövegeket elemezni képes könnyűszerrel hasznosítható eszközzé.

Az elmúlt évtized áttörést hozott a nyelvtechnológiában, nemcsak a kutatásokban, hanem abban is, hogy az akadémiai eredmények eljutottak arra a technológiai érettségi szintre, hogy azok már ipari forgalomban is használhatóak. Napjainkban már olyan – akár kisebb – vállalkozások is képesek szövegelemzési problémák megoldására, amelyek nem rendelkeznek MI-szakértelemmel – olvasható a SZTAKI közleményében.

A most elkészült magyar nyelvi elemzőrendszer már az iparban is felhasználható erőforrásigénnyel és integrálhatósággal dolgozik, igénybevételével egyszerűbbé válik a magyar nyelvű szövegek nyelvtani és jelentéstani értelmezése.

„A konkrétan magyar nyelvű szöveges tartalmak, mondatok előfeldolgozási eszközkészletét készítettük el. Erre azért van szükség, mert minden alkalmazás, ami valamilyen szöveggel kapcsolatos problémát iparkodik megoldani, mindössze nyers karaktersorozatokból még nem tud működni. Természetes nyelvi szövegeken funkcionáló algoritmusok emberek által is értelmezhető nyelvtani szimbólumokra építenek, ezáltal a HuSpaCy testhezálló alapul szolgálhat csetbotokhoz vagy akár email értelmező rendszerekhez is” – idézik a közleményben Farkas Richárdot, a Szegedi Tudományegyetem kutatóját.

Kitérnek rá, hogy az elmúlt évtizedben forradalom zajlott a mesterséges intelligencia kutatásában: a gépi tanulásos megoldásokon belül előre tört az úgynevezett mélytanulás (deep learning) módszere, ahol mesterséges neurális hálók képesek megtanulni, hogy mit hogy kell értelmezniük.

A ma használatos természetes nyelveket feldolgozó rendszerek nagy része ezáltal funkcionál, azaz nem nyelvészek írnak szabályokat, hanem az úgynevezett tanuló algoritmusok képesek mélyebb összefüggések, predikciók elsajátítására.

Az ilyen rendszerek problémája, hogy alapvetően fekete dobozként viselkednek. Működésük alig megfigyelhető, így még ha jó eredményt is adnak, akkor sem tudjuk, hogyan jutottak erre a következtetésre. Ebből következik, hogy viszont nem jól kontrollálhatók, így ipari alkalmazásokban sokszor csak korlátozottan használhatóak.

Napjaink angol nyelvet támogató célalkalmazásaiban is gyakran csak a szövegek előelemzésére használnak gépi ismeretszerzés alapú megoldásokat, hogy aztán ezeket alapul véve az emberi szakértő által írt szabályok hozzák meg a végső döntést. Mindent összevetve egy-egy döntés átláthatóvá válik, és kérdéses esetben az emberi szakértő akár biztos, hogy meg tudja változtatni a rendszer viselkedését.

A közleményben felidézik, hogy a magyar nyelvű szövegelemző szoftverek fejlesztése nem ma kezdődött. A magyar kutatói közösség már a kétezres években elkezdte építeni a elengedhetetlen nyelvi adatbázisokat. Ezeket az adatbázisokat használták a HuSpaCy fejlesztői is, mint tanító adatbázis.

A HuSpaCy rendszer egyesíti a mély tanulási módszerek előnyeit a nyelvészeti elemzések interpretálhatóságával és kontrollálhatóságával. A rendszer képes mondatok egész nyelvi elemzésére (szótő, szófajok, satöbbi) emellett névelemek (példaként személynevek, helységek) azonosítására is folyó szövegben.

A HuSpaCy napjaink MI-eszközeiből építkezik: magába foglal neurális nyelvi modelleket, amelyeket a felhasználó akár szövegek hasonlóságának vizsgálatára is használhat, de a fent említett nyelvtani elemző lépések is mind korszerű algoritmusokra épülnek – teszik hozzá.

Mint írják, a most megalapított HuSpaCy rendszer alapja lehet hangalapú vagy írásos csetbotoknak is (ilyeneket a Mesterséges Intelligencia Nemzeti Laboratóriumban is fejlesztenek), de hasznos lehet szövegkategorizálásra (példának okáért ügyfélszolgálatra beérkező panaszok önműködő leválogatására), információ kinyerésre és szövegek önműködő generálására is.

mti