Computervisie is een multidisciplinair studiegebied dat probeert computers te helpen bij het lezen en begrijpen van digitale beelden op dezelfde manier als het menselijke optische systeem. In grote lijnen omvat het computationele intelligentie en machine learning. Het is gebaseerd op het begrijpen van de visuele context, niet alleen op geschreven of gecatalogiseerde inhoud over een afbeelding of video (zoals een door mensen gemaakte tekstbeschrijving die is ingesloten in de afbeelding of video om deze te helpen lokaliseren in een computersysteem). Computervisie wordt sinds de jaren zestig in wetenschappelijke gemeenschappen besproken, maar het heeft moeite om significante vorderingen te maken, vooral omdat beeldanalyse en context erg complex zijn en het menselijk optische systeem alle rekenvaardigheden ver overtreft.
Onlangs heeft deep learning computersystemen in staat gesteld om afbeeldingen beter te analyseren door ze afbeeldingen te laten zien. Na verloop van tijd leert de computer details uit afbeeldingen te herkennen, waardoor hij die details in andere afbeeldingen kan opmerken (beeldherkenning). Het algemene doel van computervisie is dat een computer in staat is om de details van een afbeelding te begrijpen en deze aan mensen te interpreteren of uit te leggen. Deep learning helpt dat doel realistischer te worden, maar computervisie is nog ver verwijderd van waar onderzoekers zouden willen zijn.
Twee belangrijke problemen met computervisie maken het een uitdaging om te implementeren. De visuele wereld kent inherent veel verandering en afwisseling. Het is ook erg complex. Hoewel het menselijk brein is ontworpen om snel en onvrijwillig de kleinste details van een afbeelding of ander stuk visuele media te analyseren, zijn computers dat niet. Ten tweede is computervisie over het algemeen gebaseerd op het menselijke optische systeem, en zelfs wetenschappers begrijpen het niet goed genoeg om te proberen het adequaat na te bootsen.