Data

Gegevens verwijzen naar afzonderlijke stukjes informatie, meestal opgemaakt en opgeslagen op een manier die overeenstemt met een specifiek doel. Gegevens kunnen in verschillende vormen voorkomen: als getallen of tekst op papier, als bits of bytes opgeslagen in een elektronisch geheugen, of als feiten die in de geest van een persoon leven. Sinds de opkomst van de informatica in het midden van de twintigste eeuw verwijzen gegevens echter meestal naar informatie die elektronisch wordt verzonden of opgeslagen.

Grammaticaal gezien zijn gegevens de meervoudsvorm van het enkelvoudig gegeven, maar in de praktijk worden gegevens veel gebruikt als een zelfstandig naamwoord in de massa, zoals zand of water. Je zou bijvoorbeeld kunnen zeggen dat de gegevens in dit geval bewijzen dat iets waar is, “gegevens” verwijst naar veel stukjes informatie die gezamenlijk worden gebruikt om een ​​claim te valideren. Niet alle schrijvers accepteren echter het populaire massale zelfstandig naamwoordgebruik. Sommige academische en technische redacteuren zijn onvermurwbaar over het Latijnse meervoud en enkelvoudsonderscheid (“de reeks gegevens bewijst” en “één datum bewijst”).

Machinaal leesbare versus door mensen leesbare gegevens

Alle gegevens kunnen worden gecategoriseerd als machinaal leesbaar, leesbaar door mensen of beide. Door mensen leesbare gegevens maken gebruik van natuurlijke taalindelingen (zoals een tekstbestand met ASCII-codes of PDF-document), terwijl machinaal leesbare gegevens formeel gestructureerde computertalen gebruiken (Parquet, Avro, enz.) Die door computersystemen of software kunnen worden gelezen. Sommige gegevens zijn leesbaar door zowel machines als mensen, zoals in het geval van CSV, HTML of JSON.

De grens tussen machinaal leesbare en door mensen leesbare gegevens wordt steeds vager omdat zoveel formaten die tegenwoordig veel voorkomen, voldoende toegankelijk zijn om door een mens te worden genavigeerd, maar toch gestructureerd genoeg om door een machine te worden verwerkt. Dit is grotendeels het resultaat van kunstmatige intelligentie, machine learning en automatisering, die taken en workflows stroomlijnt, zodat handmatige gegevensinvoer en analyse door een machine wordt gedaan in plaats van door een mens. Deze processen moeten echter hun menselijke leesbaarheid behouden voor het geval de programmering moet worden aangepast. De meeste gegevens bestaan ​​in deze gevallen ook in een vacuüm en hebben niet veel betekenis zonder context vanuit menselijk perspectief.

Gegevensuitdrukkingen in technologie

Data is de voorhoede geworden van veel gangbare gesprekken over technologie. Nieuwe innovaties leveren constant commentaar op gegevens, hoe we deze gebruiken en analyseren, en bredere implicaties voor die effecten. Als gevolg hiervan is de populaire IT-taal een aantal nieuwe en oude zinnen gaan bevatten:

  • Big data: een enorme hoeveelheid gestructureerde en ongestructureerde gegevens die te groot is om te verwerken met traditionele database- en softwaretechnologieën.

  • Big data-analyse: het proces van het verzamelen, ordenen en synthetiseren van grote sets gegevens om patronen of andere nuttige informatie te ontdekken.

  • Datacenter: fysieke of virtuele infrastructuur die door ondernemingen wordt gebruikt om computer-, opslag- en netwerksystemen en componenten te huisvesten voor de IT-behoeften van het bedrijf.

  • Gegevensintegriteit: de geldigheid van gegevens, die op een aantal manieren kan worden aangetast, waaronder menselijke fouten of overdrachtsfouten.

  • Dataminer: een softwareapplicatie die de activiteiten van een computer en vervolgens de gebruiker ervan controleert en / of analyseert om informatie te verzamelen.

  • Datamining: een klasse van databasetoepassingen die op zoek gaan naar verborgen patronen in een groep gegevens die kunnen worden gebruikt om toekomstig gedrag te voorspellen / anticiperen.

  • Datawarehouse: een gegevensbeheersysteem dat gegevens uit meerdere bronnen gebruikt om bedrijfsinformatie te promoten.

  • Database: een verzameling gegevenspunten die zo is georganiseerd dat deze gemakkelijk kan worden gemanoeuvreerd door een computersysteem.

  • Metadata: beknopte informatie over een dataset.

  • Onbewerkte gegevens: informatie die is verzameld maar niet is opgemaakt of geanalyseerd.

  • Gestructureerde gegevens: alle gegevens die zich in een vast veld in een record of bestand bevinden, inclusief gegevens in relationele databases en spreadsheets.

  • Ongestructureerde gegevens: informatie die niet zoals gestructureerde gegevens in een traditionele database met kolomrijen voorkomt.