Бази от данни


Категория на документа: Информатика


Тема 7. Бази от данни
Принципи за съхранение
и обработка на данни. Същност на базите
от данни и системи за управление на бази
от данни
Основни проблеми при обработката и поддържането на информация
1 Основни проблеми при обработката и поддържането на информация
Всяка дейност от различни области на човешката практика използва информация, за да изпълнява основните си задачи и заедно с това произвежда информация за резултатите от тяхното изпълнение. Използването и съхранението на тази информация днес е тривиална задача от гледна точка на потребителите на информационните системи. Благодарение на информационните технологии остават скрити основните проблеми, свързани с използването и съхранението на тази информация. Информационните технологии възникват благодарение на познаването на основните проблеми и търсенето на тяхното решение.
Тези основни проблеми ще бъдат представени в кратък пример, чрез който на практика да се разкрият ситуациите, които възникват и какви са потенциалните последици от тях и възможните техни решения.
1.1 Некоректна и неструктурирана информация
Нека разгледаме популярна икономическа дейност, каквато е търговската дейност за покупко-продажба на стоки чрез поръчки и доставки.
За да може един търговец да извършва основната си дейност той се нуждае от коректна информация за видовете стоки, които може да продава, тяхната наличност и условия за продажба - цени и възможни отстъпки. Какво означава коректна, актуална и навременна информация? Всеки търговец би се затруднил да обслужи своите клиенти, ако разполага с недобре организиран списък с артикули, в който един артикул се среща няколко пъти, изписан по няколко различни начина, изписан по неочакван начин, изписан няколко пъти по еднакъв начин, но с различни цени. Това създава проблем за откриването на точното наименование и респ. коректната цена.

Фиг. 7.1. Проблем: Некоректна и неструктурирана информация
1.2 Ненавременна и неактуална информация
От друга страна никой клиент не би чакал прекалено дълго, за да получи коректен отговор на свое запитване за цени и възможни отстъпки при поръчка на дадена стока. Невъзможността за бърз и точен отговор може да бъде продиктувана от гореспоменатите проблеми с лошо представена информация или от липсата на тази информация, набавянето на която от други търговски обекти или офиси чрез различни средства за комуникация става бавно.

Фиг. 7. 2. Проблем: Ненавременна и неактуална информация
1.3 Различни формати и структури на данните
Какво се случва в края на работния ден? Как търговецът разбира как е завършил деня? Как взима решение с какво да промени асортимент и ценова стратегия? Отговорът на тези въпроси е отново свързан с използване на информация, в този случай тази, която е "произведена" като резултат от търговската дейност. Всеки търговец трябва точно да знае какво, къде, на каква стойност е било продадено респ. какво и къде е налично. За тази цел е необходимо да се "оставя" следа след всяка поръчка, т.е. да се съхранява информация за това какво, къде и колко е продадено. Но как да се съхранява тази информация? Съществуват много алтернативи, всяка от тях осигурява възможност за съхранение и обработка на данните, но по-интересен е въпросът как съхранената по този начин информация може да бъде използвана в последствие?
Отговорът на въпроса как да се съхрани информацията има два аспекта: как да бъде структурирана и в какъв формат да бъде съхранена.
Всяка информация може да бъде записана на практика в произволен формат: на хартия, електронно във формат на текстов документ, електронно във формат на електронна таблица и друг файлов формат. И във всеки от тези формати тя може да бъде структурирана, т.е. подредена по различен начин: всички данни изписани една след друга без да са разделени, или разделени със запетая, записани в колони, подредени по различни начини и т.н.
И това са наистина съхранени данни. Те са съхранени и възникват редица други въпроси:
* как могат да се използват, което означава как да бъдат разчетени тези данни, за да бъдат правилно интерпретирани;
* как да се съберат данни, съхранени на различни места, във различни формати;
* как да се извършат следващи обработки върху тях - да бъдат сумирани, подредени и т.н, за да се получат обобщени резултати от търговския ден.
Ето и конкретен пример. Търговската фирма осъществява своята дейност в няколко търговски обекта (офиса). Всеки от тях записва извършените продажби (поръчки) в края на деня в избран, различен формат, с различна подредба и начин на изписване на стойностите. Например в първия обект поддържат електронна таблица с една подредба на колоните. Във втория отново е електронна таблица, но с различна подредба, в третия се предпочели да запишат само крайната сума без количество на поръчката, в четвъртия са предпочели текстов файл, за да запишат данните, в петия подготвят хартиени списъци и т.н. Разнообразието е много голямо и този списък би бил доста дълъг. Последиците от това разнообразие са, че подобни съхранени данни не могат да бъдат лесно събрани и обобщени, за да се получи отговор на важния въпрос какъв е днешния приход или на следващите въпроси, коя стока е най-продавана, кой обект продава най-добре и т.н.

Фиг. 7.3. Проблем: Различни формати и структури на данните
1.4 Грешни и некоректни данни
Дори и да бъде избран еднакъв начин за описание на данните за дневните поръчки, е много важно и как ще бъдат записани стойностите. Какво би се случило, ако една и съща поръчка бъде записана два пъти? Това би дало много погрешна информация за общия обем на продажбите. За избягването на този проблем е необходимо да се осъществява контрол за уникалност на въвежданите данни, т.е. да е възможно да се разпознават еднозначно редовете за продажбите по техните данни, за да е възможно да се сигнализира възникнало дублиране. Как ли биха се интерпретирали редове със стойност за количество отрицателно число? Наличието на некоректни стойности затруднява разчитането и използването на данните.
В традиционните текстови формати и електронни таблици е трудно да се осъществи такъв контрол.

Фиг. 7.4. Проблем: Грешни и некоректни данни
1.5 Неконсистентни данни
Какъв би бил резултатът от обобщението на поръчките по артикули, ако наименованието на един артикул бъде записано по много различни начини? Неверен, защото ще е трудно да се намерят всички редове с поръчки на този артикул, тъй като е непредвидимо разнообразието от начини за изписване. Преодоляването е възможно например чрез създаване на един списък с наименования на артикули, като на всеки артикул бъде съпоставен код - кратък, при изписването на който потенциално да се допускат по-малко грешки. При въвеждането на данните за поръчките в избрания формат се въвежда краткия код, вместо наименованието.
Но търсенето на проблеми продължава. При подобен подход възниква въпросът, какво би се случило, ако от списъка бъде изтрит артикул, за който в различни файлове има регистрирани поръчки? Тези редове ще бъдат неинтерпретируеми, тъй като няма съпоставяне на въведения код с име на артикул. Този сериозен проблем с консистентността на данните не може да бъде решен чрез използване на традиционни формати за съхранение на данни. Той е свързан с контрол на използването на съответни кодове и съответно допускане или не на манипулиране на свързания с тях списък с артикули.

Фиг. 7.5. Проблем: Неконсистентни данни
1.6 Липса на навигация в данните
Дали може да се намери отговор на въпроса, кои са поръчките от последния месец, ако данните са записани в текстов формат? В обикновен текстов файл е трудно автоматичното подреждане на редовете по даден критерии. Това изисква ръчна обработка, което може да предизвика нови грешки.

Фиг. 7.6. Проблем: Липса на навигация в данните
1.7 Съхранение на агрегатни величини и излишък
Ако информацията за поръчките бъде съхранена с данни за количества, единични цени и изчислена обща стойност, кой избор би бил по-коректен - да се изчислява стойността или да се използва изчислената стойност? Ако се наложи корекция на стойност за количество, какво би се случило с изчислената обща стойност? Запазването на изчислените стойности винаги е свързано със сериозен ангажимент и ръчни обработки в случай, че се налага да бъдат коригирани данни, които формират тези стойности.
Фиг. 7.7. Проблем: Съхранение на агрегатни величини и излишък
1.8 Нарастващ обем на данните
За решаването на горните проблеми често като бързо и достъпно решение се избират форматите електронна таблица, тъй като предоставят много добри инструменти за структурирано представяне (таблично), за минимален контрол на въвежданите стойности (числови интервали, избор от списък с изброени стойности и т.н.), за търсене в списъци с данни и тяхното подреждане. Възниква обаче проблемът с броят редове и обемът на данните, които могат да се съхраняват в една или няколко електронни таблици. Този проблем е свързан с потенциалните ограничения на тези формати и значителното забавяне на обработките, което настъпва при сериозно увеличаване на обема на данните и сложността на обработките върху тях - изчисления, подредби и визуализация (форматиране).

Фиг. 7.8. Проблем: Нарастващ обем на данните
1.9 Сигурност и конфликти



Сподели линка с приятел:





Яндекс.Метрика
Бази от данни 9 out of 10 based on 2 ratings. 2 user reviews.