Connect with us

technokrata

200 óra alatt tanítottak meg magyarul egy rendszert

mesterséges intelligencia

Digitalizáció

200 óra alatt tanítottak meg magyarul egy rendszert

200 óra alatt tanítottak meg magyarul egy rendszert

Nem is kellett mindehhez messzire menni, hiszen Pécsett történt a dolog.

A magyar nyelvet mindössze 15 millióan beszélik világszerte, így a cégek számára gyakran nem éri meg kifejleszteni a feldolgozásához szükséges szoftvert. A Pécsi Tudományegyetem (PTE) csapata felismerte ezt a problémát, és betanította saját modelljét erre a nyelvre. Viszonylag olcsón, és egész gyorsan.

A Pécsi Tudományegyetem 2019-ben lépett partnerkapcsolatra a Microsoft Mesterséges Intelligencia Tudásközpontjával, amely után kulcsfontosságú terület lett a mesterséges intelligencia és a felhőalapú oktatás – olvasható a redmondi cég oldalán megjelent közleményben.

Hogy a nagy mennyiségű magyar nyelvű adat kezelése könnyebb legyen, a PTE természetes nyelvfeldolgozási (NLP) módszerek kutatásába fogott. A megoldást egy magyar nyelvű, úgynevezett BERT-large modell (HILBERT) létrehozása jelentette, mely egy nyílt forráskódú gépi tanulásos keretrendszer. A modell célja a Microsoft szerint, hogy segítse a számítógépet a többféleképpen értelmezhető szövegrészek megértésében oly módon, hogy a szövegkörnyezetből kontextust épít.

A csapat az Azure mesterséges intelligencia használata mellett döntött a saját, magyar nyelvű BERT-large modelljük megalkotásához.

“A Microsoft piacvezető a nyelvi modellek betanításának területén. Természetes, hogy a legjobb technológiát akartuk használni”

– mondta Hajdu Róbert, az Alkalmazott Adattudományi és Mesterséges Intelligencia Központ volt tervezőmérnöke.

Ahelyett, hogy gyenge minőségű adatokat gyűjtöttek volna az internetről, a Nyelvtudományi Kutatóközpont szakemberei segítségével készítették elő az alapokat. Az Azure pedig mindent megkönnyített és felgyorsított.

A modell betanítására szintén gyors és költséghatékony megoldást kerestek: a Microsoft ONNX Runtime DeepSpeed könyvtárát választották a feladathoz, amit az Azure Machine Learning (AML) platformon futtattak. E platform segítségével hatékonyan tudtak haladni a mesterségesintelligencia-modellek építésével, munkába állításával, menedzsmentjével és nyomon követesével. Így a csapat közben olyan más feladatokra koncentrálhatott, mint az adatkezelés.

A modell működéséhez egy legalább 3,5 milliárd szót tartalmazó folyószöveg szükséges. Ezt az adatbázist a Nyelvtudományi Kutatóközpont, a projekt másik résztvevője többek között a Magyar Nemzeti Szótárból, online médiatárakból és az opensubtitles.org ingyenesen hozzáférhető filmfelirat-adatbázis magyar nyelvű anyagai közül gyűjtötte a csapat.

Habár a pandémia alatt mindannyian otthonról dolgoztak, a BERT-large betanítási folyamata az Azure-on semmilyen problémát nem okozott.

„200 munkaóra alatt végeztünk. Ez a világon az eddigi legolcsóbb BERT-large. Kevesebb, mint 1000 euróba került”

– mesélte Dr. Feldmann Ádám, a PTE Adattudományi és AI csoport vezetője.

„Az ONNX Runtime nélkül a HILBERT-large modellünk betanítása 1500 órát, vagyis megközelítőleg két hónapot vett volna igénybe”

– hívta fel a figyelmet.

A közlemény szerint a Pécsi Tudományegyetem BERT-large modellje jelentős lehetőségeket rejt magában az írott és beszélt szöveg feldolgozása, az intelligens keresés, az entitásérzékelés, a dokumentációs klasszifikáció terén. A HILBERT emellett

közreműködhet újabb, jobb teljesítményű chatbotok létrehozásában is.

Mindez pedig segítheti a magyarokat a könnyen érthető, releváns információkhoz való hozzáférésben, különösen a Covid–19 körüli félretájékoztatás elleni küzdelemben. Számos egészségügyi és kormányzati szereplő is érdeklődött már a HILBERT-large modell iránt – írták.

Forrás: HVG

További Digitalizáció

Népszerű

Technokrata a Facebookon

IoT-Magazin.hu

Kütyük

Dotkom

Műszaki-Magazin.hu

Hirdetés
Hirdetés