Description
Jedným zo spôsobov, akým dokáže systém umelej inteligencie pomenovať predmet na obraze je spriahnutie extraktora príznakov z obrazu s extraktorom príznakov textu. V takomto spoločnom priestore obrazových a textových príznakov je potom pre príznaky obrazu hľadať akým príznakom textu sú podobné. Robí to takto napríklad model CLIP, pričom používa kosínusovú podobnosť medzi príznakovým vektorom textu a klasifikačným príznakovým vektorom obrazu. Tento prístup je pomerne ľahké pomýliť, napríklad keď modelu prezentujeme obrázok kuriatka a pod ním text "pes", povie, že na obrázku je pes. Pritom ako vedľajší produkt vzniká mapa príznakov jednotlivých regiónov obrazu. Naším vkladom do problematiky je nový algoritmus, ktorý túto mapu dokáže rozložiť na časť, ktorá zodpovedá kuriatku a časť, ktorá zodpovedá nápisu "pes". Takáto bipartícia je v princípe NP-ťažký problém, pre ktorý navrhli Shi a Malik v roku 2000 približný algoritmus, kvadratický od počtu regiónov. Prerobili sme ho na lineárny a dali mu podobu, v ktorej môže byť zabudovaný priamo do neurónovej siete. Vďaka bipartícii obrázka je potom možné použiť pôvodný model, aby jednu časť pomenoval správne: "kuriatko" a druhú správne: "pes".
| Pracovisko fakulty (katedra)/ Department of Faculty | Katedra aplikovanej informatiky |
|---|---|
| Tlač postru/ Print poster | Budem požadovať tlač /I hereby required to print the poster in faculty |