Gestructureerde gegevens verwijzen naar alle gegevens die zich in een vast veld binnen een record of bestand bevinden. Dit omvat gegevens in relationele databases en spreadsheets.
Kenmerken van gestructureerde gegevens
Gestructureerde gegevens zijn in de eerste plaats afhankelijk van het maken van een datamodel, een model van de soorten bedrijfsgegevens die zullen worden vastgelegd en hoe deze zullen worden opgeslagen, verwerkt en benaderd. Dit omvat het definiƫren welke velden met gegevens zullen worden opgeslagen en hoe die gegevens zullen worden opgeslagen: gegevenstype (numeriek, valuta, alfabetisch, naam, datum, adres) en eventuele beperkingen op de gegevensinvoer (aantal tekens; beperkt tot bepaalde termen, zoals als meneer, mevrouw of dr .; M of V).
Gestructureerde gegevens hebben het voordeel dat ze gemakkelijk kunnen worden ingevoerd, opgeslagen, opgevraagd en geanalyseerd. Ooit waren relationele databases en spreadsheets die gestructureerde gegevens gebruikten, vanwege de hoge kosten en prestatiebeperkingen van opslag, geheugen en verwerking, de enige manier om gegevens effectief te beheren. Alles wat niet in een strak georganiseerde structuur past, zou op papier in een archiefkast moeten worden bewaard.
Beheer van gestructureerde gegevens
Gestructureerde gegevens worden vaak beheerd met behulp van Structured Query Language (SQL), een programmeertaal die is gemaakt voor het beheren en opvragen van gegevens in relationele databasebeheersystemen. Oorspronkelijk ontwikkeld door IBM in het begin van de jaren zeventig en later commercieel ontwikkeld door Relational Software, Inc. (nu Oracle Corporation).
Gestructureerde gegevens waren een enorme verbetering ten opzichte van strikt op papier gebaseerde ongestructureerde systemen, maar het leven past niet altijd in nette kleine dozen. Hierdoor moesten de gestructureerde data altijd worden aangevuld met opslag op papier of microfilm. Aangezien de technologische prestaties zijn blijven verbeteren en de prijzen zijn gedaald, was het mogelijk om ongestructureerde en semi-gestructureerde gegevens in computersystemen te brengen.
Ongestructureerde en semi-gestructureerde gegevens
Ongestructureerde gegevens zijn al die dingen die niet zo gemakkelijk kunnen worden geclassificeerd en in een nette doos passen: foto’s en grafische afbeeldingen, video’s, streaming instrumentgegevens, webpagina’s, pdf-bestanden, PowerPoint-presentaties, e-mails, blogberichten, wiki’s en tekstverwerkingsdocumenten .
Semi-gestructureerde data is een kruising tussen de twee. Het is een soort gestructureerde data, maar mist de strikte datamodelstructuur. Bij semi-gestructureerde gegevens worden tags of andere soorten markeringen gebruikt om bepaalde elementen in de gegevens te identificeren, maar de gegevens hebben geen rigide structuur. Tekstverwerkingssoftware kan nu bijvoorbeeld metagegevens bevatten die de naam van de auteur en de aanmaakdatum tonen, waarbij het grootste deel van het document gewoon ongestructureerde tekst is. Bij e-mails worden de afzender, ontvanger, datum, tijd en andere vaste velden toegevoegd aan de ongestructureerde gegevens van de inhoud van het e-mailbericht en eventuele bijlagen. Foto’s of andere afbeeldingen kunnen worden gelabeld met trefwoorden zoals de maker, datum, locatie en trefwoorden, waardoor het mogelijk wordt om afbeeldingen te ordenen en te lokaliseren. XML en andere opmaaktalen worden vaak gebruikt om semi-gestructureerde gegevens te beheren.
Standaarden voor gestructureerde datatechnologie
SQL is sinds 1986 een standaard van het American National Standards Institute. Het wordt beheerd door de InterNational Committee for Information Technology Standards (INCITS) Technische commissie DM 32 Gegevensbeheer en uitwisseling. De commissie heeft twee taakgroepen, een voor databases en een voor metadata. HP, CA, IBM, Microsoft, Oracle, Sybase (SAP) en Teradata nemen allemaal deel, evenals verschillende federale overheidsinstanties. Beide projectdocumenten van de commissie bevatten links naar meer informatie over elk project. SQL werd in 1987 een International Organization for Standards (ISO) -standaard. De gepubliceerde standaarden zijn verkrijgbaar bij de ANSI eStandards Store, volgens de INCITS / ISO / IEC 9075-classificatie.