Bevezetés
A számítógépes látás (angolul Computer Vision, magyar szaknyelvben gyakran gépi látás) a mesterséges intelligencia egyik izgalmas területe, amelynek célja, hogy a gépeket látóvá tegye. Olyan technológiáról van szó, amely képessé teszi a számítógépeket képek és videók tartalmának automatikus felismerésére és megértésére. Más szóval, a számítógépes látás segítségével egy szoftver vagy eszköz hasonló módon tud értelmezni egy képet, mint ahogy mi, emberek tesszük – például felismeri, hogy a fotón egy adott tárgy vagy személy látható. Ez a képesség ma már számos modern innováció és megoldás központi elemét képezi, és egyre szélesebb körben alkalmazzák az iparban és az üzleti életben.
Számítógépes látás alapjai és üzleti alkalmazásai
Bevezetés
A számítógépes látás (angolul Computer Vision, magyar szaknyelvben gyakran gépi látás) a mesterséges intelligencia egyik izgalmas területe, amelynek célja, hogy a gépeket látóvá tegye. Olyan technológiáról van szó, amely képessé teszi a számítógépeket képek és videók tartalmának automatikus felismerésére és megértésére
azure.microsoft.com. Más szóval, a számítógépes látás segítségével egy szoftver vagy eszköz hasonló módon tud értelmezni egy képet, mint ahogy mi, emberek tesszük – például felismeri, hogy a fotón egy adott tárgy vagy személy látható. Ez a képesség ma már számos modern innováció és megoldás központi elemét képezi, és egyre szélesebb körben alkalmazzák az iparban és az üzleti életben
A számítógépes látás az elmúlt években forradalmi fejlődésen ment keresztül. Míg régebben főleg előre programozott szabályok és egyszerűbb mintafelismerési eljárások korlátozták a képességeit, addig mára a gépi tanulás és különösen a mélytanulás (deep learning) tette lehetővé, hogy a gépek látása látványosan felzárkózzon (sőt bizonyos esetekben túl is szárnyalja) az emberi teljesítményt
lexunit.hu. Például konvolúciós neurális hálózatokkal betanított rendszerek ma már sok feladatban képesek majdnem 100%-os pontossággal azonosítani, mit látnak egy képen
lexunit.hu. Ennek köszönhetően a számítógépes látás megbízható eszközzé vált számos üzleti alkalmazásban, a gyártósorok minőségellenőrzésétől kezdve az önvezető autók navigációján át a kiterjesztett valóságig.
A következőkben áttekintjük, hogyan működik ez a technológia, melyek a főbb módszerei, és milyen üzleti területeken hasznosítják. Törekszünk az egyszerű, közérthető magyarázatra, mellőzve a túlzott technikai és marketingzsargont. Gyakorlati példákkal – köztük magyar fejlesztésekkel – illusztráljuk, mire képes a gépi látás ma, és hogyan javíthatja a folyamatokat vagy éppen az ügyfélélményt.
Hogyan működik a számítógépes látás?
Hogyan lehetséges, hogy egy gép „megért” egy képet? A kulcs a mintafelismerésben rejlik. A számítógépes látás rendszerek tipikusan a következőképpen működnek:
- Kép rögzítése: Először szükség van egy érzékelőre, amely a vizuális információt rögzíti. Ez legtöbbször egy kamera (lehet akár ipari kamera, okostelefon kamerája, térfigyelő, stb.), de lehet speciális szenzor is – például orvosi képalkotó (röntgen, MRI), LIDAR lézerszkenner vagy akár drónra szerelt kamera. A lényeg, hogy készül egy digitális kép vagy videó, ami a további feldolgozás kiindulópontja.
- Feldolgozás és elemzés: A rögzített képet ezután egy elemző szoftver veszi kezelésbe. Itt történik a mesterséges intelligencia varázslat: a program minteszerű jellemzőkre bontja a képet, és összehasonlítja ezeket a korábban tanult mintákkal. A modern számítógépes látás algoritmusok jellemzően gépi tanulást alkalmaznak – ezen belül is gyakran mély neurális hálózatokat –, amelyek rengeteg előzetes példa alapján tanulták meg, hogyan néznek ki bizonyos tárgyak, minták vagy akár arcok. A hálózat a kép minden apró részletét (pixelek halmazát) elemzi, és felismeri a jellegzetes mintázatokat (például éleket, formákat, színeket, textúrákat). Ezekből a mintákból építi fel aztán a „megértést”, hogy mit ábrázol a kép.
- Azonosítás és döntés: Miután a rendszer azonosította a mintákat, következtetést von le arról, mit lát a képen. Ez lehet egy egyszerű osztályozás (pl. a kép egy macskát ábrázol), vagy komplexebb értelmezés (pl. több objektum felismerése és számlálása a képen). Gyakran valamilyen döntés vagy akció is kapcsolódik ehhez az értelmezéshez. Például ha egy ipari kamerarendszer hibás terméket észlel a futószalagon, akkor a szoftver utasíthat egy mechanikus kart, hogy távolítsa el azt. Vagy egy parkolóház kamerája felismeri a rendszámot, és felnyitja a sorompót, ha az autó rendszáma szerepel a fizetett listán. A fontos az, hogy a látott kép automatikus döntést vagy reakciót vált ki a gép részéről, emberi beavatkozás nélkül.
Ezt a folyamatot lehet úgy elképzelni, mintha a gép „megpróbálná megfejteni a képen lévő rejtvényt”. Először darabokra szedi (pixelek mintázatai), majd összerakja a fejében lévő „emlékek” (tanult minták) alapján, végül válaszol a kérdésre: Mit látok? A háttérben rengeteg matematikai művelet zajlik, de üzleti szempontból a lényeg az, hogy a rendszer megbízhatóan és gyorsan felismer bizonyos releváns vizuális információkat, és az alapján cselekszik vagy adatot szolgáltat.
Fontos kiemelni, hogy a mai számítógépes látás rendszerek sikerességének titka a nagy adatmennyiség és a tanulás. A gépi látás algoritmusokat jellemzően több millió példaképen tréningezik, hogy általánosítani tudjanak új helyzetekre. Például egy képfelismerő rendszer akkor fogja mindenféle szögből felismerni a macskákat, ha előtte rengeteg macskafotón gyakorolt, különböző fajtákkal, környezetekkel stb. A mélytanulás itt kulcsfontosságú: a neurális hálózatok képesek önállóan kiismerni a releváns jellemzőket a nyers pixelekből, anélkül, hogy programozók előre megmondanák, mely „szőr-textúra” vagy „farok-alak” utal macskára. Ez tette lehetővé a gépi látás ugrásszerű fejlődését az utóbbi évtizedben.
Összefoglalva: a számítógépes látás kamerákból nyert képi adatok alapján, tanuló algoritmusokkal felismeri a vizuális mintákat, és ezáltal automatizál emberi látást igénylő feladatokat.
Hatalmas mennyiségű adat és számítási kapacitás (pl. GPU-k) áll a folyamat mögött, de a végeredmény egy olyan „szemekkel és aggyal rendelkező” szoftver, amely kifáradás nélkül, konzisztensen és villámgyorsan képes értelmezni, amit lát.
A számítógépes látás főbb módszerei
A számítógépes látásnak számos részterülete és módszere van, attól függően, pontosan mit szeretnénk felismerni vagy elérni a képekkel. Az alábbiakban összefoglaljuk a legfontosabb módszereket és feladatokat, amelyek a gyakorlati alkalmazások alapját képezik:
- Képosztályozás (Képfelismerés): Ilyenkor a rendszer egy teljes képre ad válaszként egy kategóriát vagy címkét. Például megmondja egy fotóról, hogy azon egy macska van, nem pedig kutya. Vagy egy röntgenfelvételről megállapítja, hogy tüdőgyulladás jeleit viseli magán, vagy sem. A képosztályozás során tehát a szoftver megkülönbözteti a különböző típusú objektumokat vagy jeleneteket a képen. (Gyakran hallani a klasszifikáció kifejezést is.) Fontos, hogy ilyenkor nem feltétlenül jelöli meg a kép konkrét területét, csak az egészre ad egy címkét.
- Objektumdetektálás (Objektumfelismerés): Ez a módszer már többet is nyújt egy egyszerű osztályozásnál: nemcsak azt mondja meg, hogy milyen objektum van a képen, hanem meg is találja annak helyét (jellemzően egy kerettel vagy ponttal jelölve). Például egy forgalmi kamerakép elemzésekor a program rámutat minden egyes autóra és gyalogosra a képen, és mindegyiket külön-külön azonosítja (személy, autó, bicikli stb.) Objektumdetektálással egyszerre több objektum is felismerhető és megszámolható. Erre példa az, amikor egy üzletben működő kamera egyszerre számolja, hány vásárló van bent, vagy egy önvezető autó rendszerében felismerik az összes közlekedési táblát és akadályt az út mentén.
- Objektumkövetés: Videók esetén fontos feladat, hogy a mozgó objektumokat nyomon kövessük. Ha az objektumdetektálás egy-egy képkockán beazonosít például egy autót, az objektumkövető algoritmus azt is biztosítja, hogy a következő képkockákon is ugyanahhoz az objektumhoz rendeljük az észleléseket, így követve a mozgását. Ennek segítségével például egy parkolókamera meg tudja állapítani, mikor melyik autó hol parkol, vagy egy biztonsági rendszer követi egy betörő mozgását több kamera képén keresztül. Az objektumkövetés az automatizált videóelemzés alapja, és kulcsfontosságú pl. önvezető autóknál a dinamikus helyzetek értelmezéséhez.
- Képszegmentálás: Ez a módszer még részletesebb szintű értelmezést ad, mint az objektumdetektálás. Itt a cél, hogy pixelenként megmondjuk, mi látható a képen. Tehát nem csak egy dobozzal bekeretezzük mondjuk a gyalogost, hanem a gyalogos alakjának minden pixelét azonosítjuk (elkülönítve a háttértől). A képszegmentálás eredményeként kapunk egy úgynevezett maszkot, ami megmutatja, hogy a kép mely részletei tartoznak egy adott objektumhoz. Ez nagyon fontos például orvosi képeknél (körbehatárolni a daganatot a MRI felvételen), vagy önvezető autóknál (pontosabban felismerni az útfelületet vs. járdát vs. többi autót).
- Arcfelismerés (Biometrikus azonosítás): Az arcfelismerés speciális esete az objektumfelismerésnek, ahol kifejezetten emberi arcok detektálása és azonosítása a cél. Ma már sok rendszer képes egy fotón megkeresni az arcokat, majd ezeket összehasonlítani ismert személyek arcprofiljaival. Így működik például a telefonunk arcfelismerő feloldása (Face ID), vagy egy biztonsági kamera rendszernél az, hogy riaszt, ha egy körözött személy tűnik fel a képen. Az arcfelismerés nemcsak azt tudja megmondani, hogy arcot lát, hanem bizonyos rendszerek képesek konkrét személyazonosságot is hozzáfűzni (pl. beléptető rendszereknél), illetve jellemzőket megállapítani (pl. kor, nem, érzelmi arckifejezés detektálása). (Fontos megjegyzés: az arcfelismerés etikai és adatvédelmi vonatkozásai miatt érzékeny terület, de technológiailag a számítógépes látás egyik meghatározó alkalmazása.)
- Optikai karakterfelismerés (OCR): Itt nem tárgyakat, hanem írott szöveget keresünk a képeken. Az OCR feladata, hogy felismerje a betűket és számokat egy fotón vagy szkennelt dokumentumon, majd átalakítsa gépi szöveggé. Ez is a számítógépes látás egy formája, hiszen a rendszernek „látnia” kell a papíron vagy képernyőn lévő karaktereket. Az OCR rengeteg üzleti folyamatot gyorsít fel: gondoljunk csak a számlák, szerződések digitalizálására, vagy akár a rendszámfelismerésre a közlekedésben. Ma már a kézírás felismerése is megoldható bizonyos korlátokkal, de a nyomtatott szöveg automatikus olvasása szinte rutin feladatnak számít.
- Egyéb specializált módszerek: A fentieken túl számos speciális terület létezik. Ilyen például a 3D rekonstrukció, amikor több kép alapján egy valós tárgyról vagy épületről 3D modellt készítünk (hasznos pl. építészetben, kulturális örökség digitalizálásában). Vagy a helyzetfelismerés (például sportesemények automatikus elemzése videón). A hasonlóságkeresés is ide tartozik: például egy rendszer észreveszi, hogy két különböző kép ugyanazt az objektumot ábrázolja (pl. ugyanazt az autót a kárbiztosítási fotókon, rendszám alapján). Mindezek a megoldások a fenti alapvető módszerek kombinációjára épülnek.
A különböző módszerek gyakran együtt dolgoznak egy komplex rendszerben. Például egy önvezető autó először detektálja a gyalogosokat és járműveket (objektumdetektálás), majd követi őket a mozgásuk során (objektumkövetés), és ha egy adott gyalogos arcvonásait is nyilvántartja (arcfelismerés), akár azonosíthatja is az illetőt – bár az utóbbi a legtöbb önvezető rendszerben nem cél, de technikailag lehetséges. Hasonlóan, egy okos kamerás kasszarendszer (lásd alább) detektálja a tálcán lévő ételeket, majd osztályozza őket (pl. spagetti vagy saláta), és végül ennek alapján számolja ki az árat. A lényeg, hogy a számítógépes látás egy sokoldalú eszköztár, amelyből az adott probléma megoldásához kiválasztják a megfelelő elemeket.
Üzleti alkalmazási területek
A számítógépes látás ereje abban rejlik, hogy számtalan területen kiválthatja vagy kiegészítheti az emberi szem és az agy munkáját. Ez nem csupán technológiai fejlemény, hanem üzleti szempontból is óriási hatású: javíthatja a hatékonyságot, csökkentheti a hibákat és költségeket, valamint új szolgáltatásokat tehet lehetővé. Nézzünk meg néhány főbb üzleti alkalmazási kategóriát, és konkrét példákat is említünk – köztük olyanokat, amelyek magyar vonatkozásúak.
Ipari minőségellenőrzés és gyártásautomatizálás
Az ipari termelésben az egyik legfontosabb feladat a termékek minőségének ellenőrzése és a gyártási folyamatok felügyelete. Hagyományosan ezt emberek végezték: vizuálisan átnézték a készülő terméket hibák után kutatva, vagy figyelték a gépsor működését. A számítógépes látás ebben a környezetben forradalmi változást hozott.
Minőségellenőrzés: A gépi látás alapú minőség-ellenőrző rendszerek nagy felbontású kamerákkal pásztázzák a készülő darabokat, és az AI szoftver villámgyorsan kiszúrja az esetleges hibákat. Például észreveszi egy autóalkatrészen a hajszálrepedést, felismeri, ha egy palack kupakja nincs rendesen rácsavarva, vagy ha egy nyomtatott áramköri lapon hiányzik egy alkatrész. Mindezt hihetetlen sebességgel és pontossággal, akár úgy, hogy minden egyes darabot megvizsgál a futószalagon (amit emberi erővel lehetetlenség lenne 100%-ban megtenni). Az ilyen rendszer már a gyártás korai szakaszában kiszűri a hibás darabokat, így megelőzhető, hogy selejtes termék menjen tovább vagy kerüljön a vevőhöz. Ennek óriási előnye, hogy csökken a selejt és a hulladék, nő a gyártás hatékonysága, és a végtermék minősége is egyenletesebb.
Ráadásul a hagyományos, előre beprogramozott vizuális ellenőrző rendszerekkel szemben az AI-alapú megoldások képesek tanulni és alkalmazkodni: ha új hibatípus jelenik meg, megfelelő tanító adatokkal hamar megtanítható a rendszernek, nem kell komplett szoftvert újraírni.
Automatizált gyártás és robotika: A gépi látás nem csak a hibák kiszúrására jó, hanem a gyártósor vezérlésére és optimalizálására is. Például képzeljünk el egy robotkart, ami különböző alkatrészeket szerel össze: egy kamerarendszer segíthet neki „látni”, hogy az alkatrész pontosan hogyan helyezkedik el, megfelelő szögben áll-e, illeszkedik-e a helyére.
Ha a kamera azt érzékeli, hogy elcsúszott a pozíció, a robot vezérlése ennek megfelelően korrigál. Vagy vegyünk egy csomagoló gépsort: a gépi látás figyeli, hogy minden palackba került-e kupak, minden dobozban benne van-e a termék, s ha nem, jelez vagy leállítja a gépet. Ezek növelik az automatizálás fokát, így kevesebb emberi beavatkozás kell és kevesebb hiba csúszik be a folyamatba.
Előrejelző karbantartás: Érdekes ipari alkalmazás továbbá a prediktív karbantartás, ahol a számítógépes látás észreveszi a gépek kopásának, elhasználódásának vizuális jeleit, még mielőtt bekövetkezne a leállás. Például egy kamera figyelheti egy fúrófej állapotát; ha repedést vagy rendellenes vibrációt (kép alapon) érzékel, szól, hogy ideje cserélni, ezzel megelőzhető a váratlan meghibásodás.
Ilyen módon a gépi látás nemcsak a minőséget javítja, hanem a karbantartást is okosabbá teszi, lecsökkentve az állásidőt és a költséges üzemzavarokat.
Magyar vonatkozás: Magyarországon is több iparágban használnak gépi látásos minőségellenőrzést, különösen az autógyártásban és elektronikai gyártásban, ahol erős a jelenlétünk. Például a Bosch magyarországi üzemeiben is folynak fejlesztések a gépi látás alkalmazására (a Forbes beszámolt róla, hogy egy belső projekt keretében a Bosch mérnökei gépi látás és tanulás alapú rendszereken dolgoztak, akár startup ötletként is megállták volna a helyüket).
Emellett a Budapest Műszaki Egyetem és az MTA SZTAKI is végez kutatásokat ipari képfeldolgozás témában. Ezek a példák mutatják, hogy hazánkban is nagy az érdeklődés a gyártási folyamatok AI alapú látásával történő fejlesztése iránt.
Automatizáció, önvezetés és okoseszközök
A számítógépes látás az automatizáció motorja számos olyan területen, ahol a környezet vizuális érzékelése elengedhetetlen. Ide tartoznak az önvezető járművek, a dronok, a robotok, de akár a szoftveres automatizáció bizonyos formái is (pl. képernyőképek alapján tesztelés).
Önvezető autók és közlekedés: Talán a leglátványosabb alkalmazás az önvezető autók fejlesztése. Egy önvezető járműnek folyamatosan „látnia” kell az utat maga körül: felismerni más autókat, gyalogosokat, sávokat, közlekedési lámpákat, táblákat stb. Ennek jelentős része a kamerák által szolgáltatott képek valós idejű értelmezésével történik.
A kocsiban elhelyezett több kamera 360 fokban figyeli a környezetet, a számítógépes látás algoritmus pedig azonosítja az objektumokat és követi a mozgásukat. Például érzékeli, ha egy gyalogos lelép az útra előttünk, vagy ha egy autó bevág mellénk, és ennek megfelelően a vezérlőrendszer fékez vagy kormányoz. A gépi látás itt szó szerint élet-halál kérdése, hiszen a rendszer döntésein múlik a közlekedés biztonsága. A fejlett autonóm autók nem csak reagálnak, de előre is igyekeznek jelezni a szituációkat – ebben segít nekik, hogy gyorsabban észlelik a vizuális változásokat, mint egy ember. Olyan részleteket is figyelhetnek, mint a távolságok pontos mérése (sztereó kamerákkal vagy LIDAR+képfúzióval), az útminőség felismerése (pl. kátyú detektálása kamerával) stb.
Az önvezető autók tehát egy összetett gépi látásos rendszerre támaszkodnak, amely ötvözi az objektumfelismerést, távolságészlelést, követést és döntéshozást. Habár a teljesen önvezető (5-ös szintű) autók még fejlesztés alatt állnak, már most sok részmegoldás bekerült a hétköznapi autókba is: vezetéstámogató rendszerek formájában. Ilyen például a sávban tartó automatika (kamera figyeli a sáv felfestéseit), a gyalogosfelismerő vészfék (kamera + AI detektálja az előttünk áthaladó embert és az autó automatikusan fékez), vagy a táblafelismerő, ami kiírja nekünk a sebességhatárt. Ezek mind a számítógépes látásra támaszkodnak.
Drónok és okoseszközök: Az önvezető autókon túl számtalan más robotikus eszköz lát a gépi látás révén. Például az ipari és mezőgazdasági drónok kamerákkal repülnek és automatikusan elemezhetik a felvételeket: a mezőgazdaságban drónnal feltérképezett táblák képein a rendszer felismeri a gyomfoltokat, a növénybetegségek jeleit, vagy épp megszámolja a növényeket.
Vannak raktári robotok, amelyek a polcok között navigálnak és kamerával azonosítják, hol van üres hely vagy melyik dobozt kell levenniük. A gyártósori robotok (kisebb-nagyobb karok) kamerákkal „látják” a tárgyakat, amiket meg kell fogniuk vagy megmunkálniuk. Az utcai biztonsági robotok kamerákkal járőröznek és észreveszik, ha mondjuk valaki tilosban tartózkodik egy zárt területen. Ezek az eszközök mind a számítógépes látásra építenek, hogy autonóm módon tudjanak tájékozódni és cselekedni a való világban.
Szoftveres automatizáció (RPA) és tesztelés: Érdekes módon a számítógépes látás virtuális környezetben is használható automatizálásra. Képzeljünk el egy szoftvert, amely emberi felhasználót utánozva kattintgat egy másik program felületén – például automatikusan teszteli egy mobilappot vagy kitölt egy űrlapot. Ezek az ún. robotikus folyamatautomatizálási (RPA) szoftverek egyre ügyesebbek, és ma már képesek látni a képernyőt mint egy emberi szem. Egy számítógépes látás modul felismeri a gombokat, ikonokat, szövegeket a képernyőképen (sőt OCR-rel elolvassa, ami oda van írva), így a virtuális „robot” tudja, hova kell kattintani vagy mit kell beírni. Ugyanez a technológia a szoftvertesztelés automatizálásában is megjelenik: pl. a Zaptest nevű cég szerint a számítógépes látás a szoftvertesztelés jövője, mivel a tesztelő algoritmus úgy látja az alkalmazást, mint a felhasználó, és ez alapján tudja ellenőrizni a működést.
Ez azt jelenti, hogy a gép nem a kódot vagy az adathalmazt elemzi, hanem a vizuális interfészt – így könnyebben általánosítható különböző platformokra. Ez egy feltörekvő terület, ami jól mutatja, hogy a gépi látás mennyire sokoldalú: még a számítógép képernyőjén is „szemként” szolgálhat egy másik algoritmusnak.
Ügyfélélmény javítása és új szolgáltatások
A számítógépes látás nem csak a háttérfolyamatokban hoz előnyt, hanem a végfelhasználók, ügyfelek számára is új élményeket nyújthat. Számos olyan innováció jelent meg, ami a vásárlók vagy felhasználók életét könnyíti meg, teszi kényelmesebbé vagy épp szórakoztatóbbá a gépi látás által.
Okos kiskereskedelem és automata fizetés: Ha jártunk már high-tech áruházban, tapasztalhattuk, hogy a kasszánál mennyit lehet vesződni a vonalkódok leolvasásával. Erre nyújt megoldást a számítógépes látás: a rendszer egyszerűen ránéz a termékekre és felismeri őket. Egy magyar startup, a Deligo, pontosan ezt valósította meg menzai környezetben. Ők egy olyan önkiszolgáló kassza rendszert fejlesztettek, amelynél az ebédlő tálcát a kamera alá tartva a gép azonnal felismeri a tálcán lévő ételeket – nincs szükség vonalkódra vagy gombra, a gépi látás azonosítja, hogy mondjuk rántott hús, krumplipüré és saláta van a tányérokon. Ezek után már csak fizetni kell a terminálon. A Deligo rendszerét már több országban használják, több száz egységük üzemel például Franciaországban és Svájcban is.
Most pedig a kiskereskedelem felé terjeszkednek: kisboltokban, ahol pár terméket vesz az ember (például Magyarországon a Manna ABC boltokban), ugyanígy kamera alapú gyorsfizetést vezetnének be. Ennek előnye a vásárló szempontjából a sokkal gyorsabb fizetés (nem kell külön-külön lecsippantani az árukat), az üzletek számára pedig a hatékonyság és az, hogy akár kisebb személyzettel is üzemeltethetők boltok. Hasonló elven működnek az olyan boltok is, mint az Amazon Go külföldön, ahol a vásárló csak leveszi a polcról az árut és kisétál, a kamerák és szenzorok pedig követik, mit vitt magával, és automatikusan terhelik be az összeget. Ezek a megoldások mind a számítógépes látásra támaszkodnak, hogy azonosítsák a termékeket emberi közreműködés nélkül.
Kiterjesztett valóság (AR) és virtuális próbafülkék: Az AR (augmented reality) lényege, hogy a valós világ látványára digitális elemeket rétegezünk – például a telefon kameraképén megjelennek plusz információk vagy virtuális tárgyak. Ehhez a rendszernek fel kell ismernie a környezetet: tudnia kell, hova tegyen egy virtuális bútort a szobában, vagy hol van az arcunk, amire egy vicces filtert rajzolhat a Snapchat. A számítógépes látás itt is kulcs: a kamera képét elemezve észleli a fizikai objektumokat és követi a mozgásukat, így a virtuális tartalom valósághűen illeszthető be.
Ennek üzleti alkalmazásai is jelentősek. Például az e-kereskedelemben egyre több cég kínál virtuális próbafülkét: a vásárló a kamerája segítségével megnézheti, hogy állna rajta egy szemüveg, ruha vagy frizura. Egy magyar startup, a Lateral Reality fejlesztett egy 3DefineMe nevű technológiát, ami 3D arcképmodellt készít és lehetővé teszi, hogy különböző szemüvegkereteket virtuálisan felpróbáljunk otthon, mintha tükörbe néznénk.
Ez jelentősen javítja az online vásárlás élményét: anélkül láthatjuk magunkon a terméket, hogy bemennénk a boltba. Hasonló AR próbálgatást látunk bútoráruházaknál (pl. IKEA app, ami megmutatja a kiválasztott kanapét a nappalinkban), vagy akár autószalonokban (virtuálisan átszínezhetjük és körbejárhatjuk a kiválasztott autót). Mindez a gépi látásnak köszönhető, ami valós időben értelmezi a kameraképet és reagál rá.
Ügyfélkiszolgálás és akadálymentesítés: A gépi látás javíthatja az ügyfélélményt azáltal is, hogy bizonyos szolgáltatásokat teljesen új szintre emel. Egy remek példa a jelnyelvi tolmácsolás. A siket és nagyothalló ügyfelek számára hatalmas segítség, ha az ő nyelvükön – jelnyelven – is elérhető egy szolgáltatás. A SignAll nevű magyar fejlesztés egyedülálló módon valós időben fordítja a siketek jelnyelvét szövegre vagy hangra.
Ez egy komplex rendszer több kamerával: figyeli a jelnyelvet használó személy kézmozdulatait, mimikáját, testhelyzetét, és a számítógépes látás (valamint nyelvi AI) segítségével automatikusan lefordítja mondjuk magyar hangzó nyelvre. A SignAll-t egy magyar csapat vitte sikerre, Washingtonban debütált a Gallaudet Egyetemen, és jelenleg is az egyetlen olyan megoldás a világon, ami ilyen automatikus jelnyelvi fordítást nyújt.
Képzeljük el, milyen hasznos ez pl. egy ügyfélszolgálaton: a siket ügyfél jelnyelven elmondja a kérdését, a gép lefordítja, az ügyintéző válaszát pedig a gép visszajeleli neki jelnyelven. Ez óriási mértékben javítja az ügyfélélményt egy érintett kisebbség számára, és a számítógépes látás tette lehetővé.
Egy másik mindennapi példa az okostelefonok világa: a telefonunk kamerája rengeteg okos funkciót kapott az AI látás által. Gondoljunk csak a Google Lens-re vagy hasonló alkalmazásokra, amelyekkel a telefonunk kameráját bármire ráirányítva információt kaphatunk róla (pl. növény felismerése, idegen nyelvű szöveg lefordítása azonnal, termékek beazonosítása és weben megkeresése). Ugyanez a technológia segít a vak vagy gyengénlátó felhasználóknak is: léteznek applikációk, amelyek a kamera képét hangos leírássá alakítják („egy középkorú férfi ül egy padon és újságot olvas”, mondja a telefon), így segítve a tájékozódást. Ezek mind az AI vizuális értelmezésén alapulnak.
Szórakozás és média: Végül nem szabad kihagyni a szórakoztató oldalát sem a gépi látásnak. A közösségi médiában hódító arcfilterek és effektek (amikor macskafület varázsol a fejedre az Instagram) mind CV algoritmusokat használnak az arc és a jellemzők követésére. A játékokban az interaktív mozgáskövetés (pl. a Kinect anno vagy mobilon az AR játékok) is ide tartozik. A sportközvetítéseknél az automatikus visszajátszás és statisztika generálás (pl. teniszben a labdanyom követése, fociban a gólvonal-technológia vagy a lesállások vizsgálata) ugyancsak a gépi látásnak köszönhető. A médiában pedig az óriási kép- és videógyűjtemények automatikus rendszerezése (keresés hasonló képek alapján, arcok vagy helyszínek szerinti katalogizálás) lehet hasznos – például egy újságnál pillanatok alatt előkereshetik egy bizonyos politikus összes fotóját a médiaarchívumból, mert az AI már előre felcímkézte a képeket tartalmuk szerint.
Összegzés
A számítógépes látás az emberi látás képességét ülteti át a gépek világába, és ezzel új dimenziókat nyit az automatizálásban és a digitális szolgáltatásokban. Alapelve egyszerű (kamera + okos algoritmus = felismerés és döntés), a megvalósítása azonban komoly mesterséges intelligencia tudást és számítási erőforrást igényel. Az elmúlt évtizedben a mélytanulás révén a gépi látás hihetetlen fejlődést produkált: ma már ott tartunk, hogy bizonyos feladatokban a gépek megbízhatóbban és gyorsabban ismernek fel objektumokat, mint az emberek.
Ennek köszönhetően a technológia kilépett a laborból, és az ipar, üzlet számos területén meghonosodott.
A vállalatok számára a számítógépes látás számos kézzelfogható előnyt nyújt. A gyártók csúcskategóriás minőség-ellenőrzést valósíthatnak meg vele, csökkentve a költségeket és a hibákat. A szolgáltatók új, innovatív élményeket adhatnak ügyfeleiknek – gondoljunk csak az AR próbafülkékre vagy az AI-alapú ügyfélszolgálatra. Az automatizáció új hulláma pedig olyan területeket is elér, amire korábban nem is gondoltunk: ma már egy algoritmus a képernyőn megjelenő adatok alapján tud döntéseket hozni (UI tesztelés), vagy épp kamerán keresztül tanulja meg, hogyan mozogjon egy robot a világban.
Természetesen a számítógépes látás sem csodaszer: a bevezetése alapos tervezést igényel, jó minőségű tanító adatok kellenek hozzá, és figyelembe kell venni az esetleges korlátait (pl. gyenge fényviszonyok mellett romolhat a teljesítmény, vagy ha a tanulóadat nem reprezentál jól egy esetet, akkor hibázhat a rendszer). Vannak adatvédelmi és etikai kérdések is – különösen az olyan alkalmazásoknál, mint az arcfelismerés vagy a tömeges megfigyelés –, amelyeket felelősen kell kezelni. Az üzleti felhasználóknak így mindig mérlegelniük kell, hogyan vetik be ezt a technológiát.
Összességében azonban elmondható, hogy a számítógépes látás a mai digitális transzformáció egyik húzóágazata. Képessé teszi a gépeket arra, amire az ember a szeme és agya révén képes – s mindezt fáradhatatlanul, nagy léptékben. Legyen szó gyárakról, okos városokról, egészségügyről vagy kiskereskedelemről, a gépi látás alkalmazása versenyelőnyt és új lehetőségeket jelent. Magyarországon is számos példa bizonyítja, hogy ebben a globális trendben helyünk van: magyar mérnökök fejlesztenek világszínvonalú önvezető autó AI-t, minőségellenőrző rendszereket vagy épp jelnyelvi fordító megoldást. A Mesterséges Intelligencia Alapok sorozat részeként e rövid áttekintés remélhetőleg rávilágított, hogy a számítógépes látás nem misztikum, hanem egy gyakorlati eszköz, amelyet érdemes megértenie és alkalmaznia minden modern vállalatnak, amely versenyben akar maradni a 21. században. Ahogy az adatok az új olaj, úgy mondhatnánk, hogy a kamerák az új szenzorok – és a gépi látás az a finomító, ami az adatból valódi értéket, látható eredményt állít elő.