Upload
alfonso-mccarthy
View
56
Download
5
Embed Size (px)
DESCRIPTION
به نام خدا انبار داده ها. زير نظر : دکتر رهگذر توسط :مصطفي چهرقاني. انبار داده ها. نياز به انبار داده ها : شکاف بين اطلاعات وجود ابزارهاي عملياتي ولي عدم وجود ابزارهاي پردازشي ويژگيهاي انبار داده : موضوع گرا یکپارچه متغیر بازمان غیر فرار. معماریهای انبار داده. معماری دولایه - PowerPoint PPT Presentation
Citation preview
1
خدا نام به
ها داده انبار
رهگذر : دکتر نظر زير
چهرقاني : مصطفي توسط
2
ها داده انبار ها داده انبار به : نياز
اطالعات بين شکاف ابزارهاي وجود عدم ولي عملياتي ابزارهاي وجود
پردازشي داده انبار : ويژگيهاي
گرا موضوعیکپارچه بازمان متغیر فرار غیر
3
داده انبار معماریهای
دوالیه معماری دولين معماری
الیه سه معماری
4
دوالیه معماری
: مراحل شوند مي گرفته بانکها و فايلها از ها داده شوند می یکپارچه شودن لود از قبل مختلف منابع های داده گيري تصميم از پشتيباني براي داده انبار و کاوي OLAPداده
: توزيع از پشتيباني عدم مشکل
5
دوالیه معماری
6
دولين معماری ها داده و عملياتي سيستمهايenterprise data warehouse Data martها
7
دولين معماری
8
الیه سه معماری عملياتي هاي (Operational)داده( توافق مورد های ( Reconciledداده
نشده جزئیتاریخی نشده نرمالجامع باکیفیت
( شده مشتق های ( Derived dataدادهOperation meta data meta data EDW Data mart mata data
9
الیه سه معماری
10
تطبیق فرآیند
مورد های داده به عملیاتی های داده تبدیلتوافق
: مراحلcapture ) ( گرفتن
مبدا بانکهای و فایلها از ها داده استخراج بانک کارنامه فایل از استفاده
scrub ) سازی ) (cleansing )پاک مبدأ های داده کیفیت افزایش الگو تطبیق از استفاده
11
تطبیق فرآیند ادامهTransform) شکل ) تغییر
فرمت به عملیاتی های داده فرمت از ) EDWتبدیل بعد( captureاعمال
هدفscrub داده مقادیر در خطاها تصحیح کردناز هدف حالیکه در داده Transformationهاست تبدیل
فرمت به است EDWها
lode and index) ایندکس ) و بارگذاری در شده انتخاب های داده کردن ایجاد EDWبار و
نیاز مورد ایندکسهای ايندکس از bitmapاستفاده
12
توابع Transformationانواع رکورد سطح در توابع
selection وjoin وaggregation وnormalization
فیلد سطح در توابع فیلدی تک فیلدی چند
13
مورد های داده تولید ابزارهای توافق
: انواع کنند می کنترل را ها داده کیفیت که ابزارهایی
Analyze پاک برای هایی توصیه و سنجد می را ها داده کیفیت
می تبدیل و استخراج از قبل ها داده سازماندهی و سازیدهد
WizRules قوانين استخراج و رکوردها همه جستجوي ميکنند ارضا را قوانين که رکوردهايي کردن مشخص
دهند می انجام را داده تبدیل عمل که ابزارهایی دهند می انجام را داده پاکسازی عمل که ابزارهایی
14
داده تبدیل ابزارهای : اصلي کارهاي
استخراج تبدیل ایندکس و بارگذاری
فایلهای از گر توصیف فایل یک یا شما یک ورودی بعنوان آنهاکنند می دریافت را تبدیل قوانین ونیز مقصد و مبداء
یا و الگوریتم ، فرمول صورت به ] معموال تبدیل قوانین هستند Lock up جداول
کنند می تولید را تبدیل عمل اجرای برای الزم کد ابزارها این
15
ها داده سازی پاک ابزارهای
: اصلي کارهاي ها داده کیفیت تحلیل ها داده سازی پاک ها پدیده بین ارتباطات و قوانین کشف
: ابزارها اين جمله ازIntegrity
16
شده مشتق اليه
فواید و : data martاهداف گیری تصمیم های برنامه برای آسان استفاده ساختن فراهم کاربران های جو و پرس برای کم پاسخ زمان سازی فراهم خاص های گروه به ها داده بندی سته د های برنامه و تصادفی های جو و پرس از data mining پشتیبانی
مشخصاتdata mart باید شده خالصه های داده هم و شده جرئی های داده هم
باشند موجود پخششوند مختلف سرورهای روی ها داده باشد ای ستاره شمای صورت به ] ترجیحا داده جدول
17
های داده تحلیل و جو و پرس هاي ابزاردر شده data martو data warehouseذخیره
جوهای و پرس و گیری گزارش ابزارهای تجاری
ابزارهایOLAP ابزارهایData mining ابزارهایData visualization
18
Data miningابزارهای
OLAP .... و ؟ هل متأ یا است بیشتر مجرد افراد برای مان در هزینه
Data mining حقایق از ای مجموعه یا الگوها دنبال
اهدافData mining Explanatory
ها پیشامد و شرایط علت توضیحConfirmatory
نظریه رد یا یید تأExploratory
نشده بینی پیش ارتباطات برای ها داده تحلیل
19
IQL
نوع داراي و تابعي زبان مرتب زوج از {x,y,z}پشتيباني ليست از [x,y,z]پشتيباني
پيشوندي توابع ,)=>( ,)=<( ,)>( ,)<( ,)=!( ,)=( ,)/( ,)*( ,)-( ,)+(and, or, not, if
ميانوندي توابع)++( , )--(
از استفاده با جديد lambda abstractionsتوابعlambda {x,y,z} ((*) ((+) x y) z)
20
IOL ادامه let v = q1 in q2
let v = ((+) 200 500) in ((*) v v) union : R ++ S duplicate elimination: distinct )R( setUnion R S Ξ distinct )R ++ S( difference : R – S projection : ]}x,z{ | }x,y,z{ >- R[
21
IOLادامه Cartesian product :
[{x1,y1,z1,x2,y2,z2,x3} | {x1,y1,z1} <- R; {x2,y2,z2} <- S; {x3} <- T]
Joins [{x1,y1,z1,x2,y2,z2} | {x1,y1,z1} <- R; {x2,y2,z2} <- S; (=) y1 y2]
Grouping and Aggregation Operations count R sort R distinct R
22
IOLادامه Grouping and Aggregation Operations
max [y | {x,y,z} <- R] min [y | {x,y,z} <- R] sum [z | {x,y,z} <- R] avg [z | {x,y,z} <- R] group [{x,{y,z}} | {x,y,z} <- R] gc agFun xs
groups xs on their first component apply agFun to the second component
map f xs applies f to each member of xs
23
از AutoMedدر IQLاستفاده
: اصلي کليد قيد اعمال مثال(=) (count (distinct [n | {s,n} <- <<Student,name>>])) (count
<<Student>>) Name : field Student : table
24
مسير از transformationمثالي
25
مسير از مثالي ادامهtransformation
TS1,S2 = addNode (dept,{“Maths”,“CompSci”}); addNode (person, [x| x mathematician] ++ [x| x compScientist]); addNode (avgDeptSalary, {avg [s| (m,s)«_, mathematician, salary»]} ++ {avg [s| (c,s)«_, compScientist, salary»]}); addEdge («_, dept, person», [( “Maths”, x)| x mathematician] ++ [(“CompSci”, x) | x compScientist]); addEdge («_, person, salary», «_, mathematician,salary» ++ «_,
compScientist, salary»); addEdge («_, dept, avgDeptSalary», {( “Maths”, avg [s| (m,s) «_,
mathematician, salary»]),
26
مسير از مثالي ادامهtransformation
(“CompSci”, avg [s| (c,s)«_, compScientist, salary»])}); delEdge («_, mathematician, salary», [(p, s)| (d, p) «_, dept, person»;
(p’, s) «_, person, salary»; d = “Maths”; p = p’]);
delEdge («_, compScientist, salary», [(p, s)| (d, p) «_, dept, person»; (p’, s) «_, person, salary»;
d = “CompSci”; p = p’}); delNode (mathematician, [p| (d, p) «_, dept, person»; d = “Maths”]); delNode («compScientist», [p| (d, p) «_, dept, person»; d =
“CompSci”]);
27
Incremental view maintenance Di : set of base relations ΔDi : bags inserted into Di ⌂Di : bags deleted from Di V : materialized view ΔV : bags inserted into V ⌂V : bags deleted from V Vnew = (V ++ ΔV) -- ⌂V
شرطMinimality : ΔV C V ΔV∩ ⌂V = Ø
28
Incremental viewادامه maintenance
29
Incremental viewادامه maintenance
30
ها : مقاله ليست Research Issues in Data Warehousing Modeling Multidimensional Databases Improving Data Warehouse and Business Info
rmation Quality Aspects of Data Modeling and Query Processi
ng for Complex Multidimensional Data
31
ها : مقاله ليست Data Warehouse Data Policy Tracing Data Lineage Using Schema
Transformation Pathways Using AutoMed Metadata in Data
Warehousing Environments A System Prototype for Warehouse View
Maintenance
32
ها : مقاله ليست Incremental view maintenance and data
lineage tracing in heterogeneous database environments
A Tutorial on the IQL Query Language Practical Lineage Tracing in Data
Warehouses A Framework for supporting data integration
using the materialized and virtual approaches
33
ها : مقاله ليست A logical approach to multidimensional
databases Bitmap Index Design and Evaluation …
34
؟ سوال