OCR, een afkorting van optische tekenherkenning, verwijst naar de technologie die wordt gebruikt om afgedrukte, geschreven of getypte tekens om te zetten in een digitaal formaat. Dankzij dit proces kan tekst worden gelezen door een computer, waardoor de tekens kunnen worden bewerkt en doorzocht. Deze technologie heeft niet alleen een revolutie teweeggebracht in de gegevensinvoer, maar is ook een handig hulpmiddel voor blinden en slechtzienden.
Hoe werkt OCR?
Na het gebruik van een optische scanner om een document te scannen en het op te splitsen in tekens, heeft OCR-technologie twee verschillende benaderingen voor het omzetten van tekens naar een digitaal formaat, patroonherkenning en kenmerkdetectie.
Patroonherkenning, ook wel matrix-matching en patroon-matching genoemd, werkt door een personage dat wordt gescand te vergelijken met een achterstand aan personage-afbeeldingen die het programma in zijn bestand heeft. Dit werkt alleen als tekens exact in pixels overeenkomen met de tekens die de OCR als referentie gebruikt. In de jaren zestig werd het lettertype OCR-A gemaakt om op cheques te worden afgedrukt om het lettertype voor de OCR-programma’s van banken te standaardiseren. Uiteindelijk breidde de patroonherkenning zich uit tot het herkennen van meerdere veelvoorkomende lettertypen zoals Arial en Times New Roman, maar het programma was nog steeds beperkt tot het converteren van tekens die in een beperkt aantal lettertypen zaten.
Met functiedetectie, ook wel feature-extractie genoemd, kan OCR tekens in bijna elk lettertype lezen. In plaats van te zoeken naar de exacte replica van een teken, werkt kenmerkdetectie door onderscheid te maken tussen specifieke kenmerken die een teken zal hebben, ongeacht het lettertype. Als het programma bijvoorbeeld een teken scant met twee schuine lijnen die bovenaan samenkomen om een punt te maken, kan het zien dat de letter een hoofdletter A is. Kenmerkdetectie breidt het gebruik en de mogelijkheden van OCR-programma’s uit, en is het meest veelvoorkomend type OCR dat tegenwoordig wordt gebruikt.
Hoewel OCR beperkt is tot het converteren van gedrukte tekst, kan intelligente tekenherkenning (ICR) handgeschreven tekst omzetten in tekst die kan worden gelezen, doorzocht of bewerkt door een computer. Hoewel het deel uitmaakt van dezelfde familie als OCR, is ICR een veel moeilijker proces omdat handschrift meer gevarieerd is dan lettertypen.
Gebruikt voor OCR
- Gegevensinvoer
- Help blinden en slechtzienden
- Digitaliseer boeken
- Post sorteren
- Maak pdf’s, boeken en fysieke documenten doorzoekbaar
- Kentekenherkenning
- Paspoort erkenning