برای استفاده از ابزارهای هوشمندی کسب و کار به انبارداده نیاز داریم. انبار داده، دادهها را از یک یا چند منبع جمع آوری کرده و آنها را به گروههای اطلاعاتی تبدیل میکند، سپس دادهها را به همراه اطلاعات زمان و تاریخ برای پشتیبانی بهتر از تصمیم گیریها ذخیره میکند. به طور کلی اطلاعات توسط ETL (در یک پست جداگانه به شرح ETL خواهم پرداخت) از سیستمهای عملیاتی متعدد جمع آوری، پاکسازی و به یک بانکاطلاعاتی انتقال داده میشود. این بانک اطلاعاتی اطلاعات حاصل را برای استفاده از ابزارهای هوش تجاری جهت تحلیل و گزارش گیری کاربران نهایی فراهم میکند و در نتیجه به کاربران اجازه تحلیل و ایجاد پرس و جوهای گوناگون بر روی دادهها را میدهد که پیش از این هیچ ارتباطی با هم نداشتند.
این اطلاعات در جهت آنالیز کردن داده های موجود در سیستم های عملیاتی مورد استفاده قرار می گیرد. فلسفه بکارگیری انبارداده در سازمان این است که اطلاعات مورد نیاز مدیران از درون داده های سیستم های عملیاتی موجود استخراج گردد. معمولا انبار داده به دلیل وجود حجم انبوهی از داده ها، کندتر از سیستم های عملیاتی است و از طرفی محیطی جهت تولید گزارشات تحلیلی و آماری برای مدیران و تصمیم گیرندگان سازمانها فراهم میکند.
تکنیکهای بسیاری جهت جمع آوری ، پالایش و آنالیز داده ها نظیر OLAP و Data Mining با هدف استخراج اطلاعات از رکوردهای عملیاتی سازمان و نظم دهی آن به منظور انجام تحلیل های مختلف وجود دارد.
یکی از متداولترین سوالات در حوزه پردازش دادهها به صورت حرفهای در مورد تفاوت داده کاوی و OLAP میباشد. این دو ابزار در عین حال که تفاوتهایی با هم دارند مکمل یکدیگر نیز میباشند.
کاربر در مورد یک رابطه و تائید آن با مجموعهای از پرس و جوها در مقابل دادهها، به شکل یک فرضیه روبرو است. به عنوان مثال ممکن است تحلیلگر بخواهد تا عواملی که سبب ناتوانی در بازپرداخت بدهی وام منجر میگردد را تجزیه و تحلیل نماید.
در تجزیه و تحلیل پایگاه داده OLAP ابتدا ممکن است این گونه فرض شود که افرادی که در اعتبارات مالی درآمد پایین و ریسک بالا دارند، نتوانند بدهی خود را پرداخت کنند و فرضیه افراد کم درآمد و کم اعتبار تائید (و یا رد) شود.
اگر فرضیه توسط دادهها تصدیق نشد تحلیلگر ممکن است به بدهی بالا به عنوان عامل منجر به ریسک نگاه کند. اگر این مطلب را دادهها نیز تایید نکنند او ممکن است بدهی و درآمد را با هم به عنوان بهترین نمایانگر ریسک اعتبار مالی بد در نظر بگیرد.
به عبارت دیگر OLAP یک تجزیه و تحلیلی از مجموعهای از فرضیهها تولید کرده و پارامترها و ارتباطات را برای استفاده به سمت کوئری های پایگاه داده برای تائید یا رد آنها ارسال میکند. تجزیه و تحلیلهای OLAP برای پردازشهای استنتاجی یک ضرورت است.
داده کاوی با OLAP تفاوت دارد زیرا الگوهای فرضیهها را سریعتر تائید میکند، با استفاده از همان دادهها به کشف الگوهای همانند میپردازد و همچنین برای پردازشهای استنتاجی ضروری میباشد. برای مثال فرض کنید شخصی قصد داشته باشد تا فاکتورهای همراه با ریسک جهت وام گرفتن را با استفاده از داده کاوی تجزیه و تحلیل و شناسایی کند. ممکن است ابزارهای داده کاوی اشخاص با بدهی بالا، درآمد پایین و اعتبار مالی بد را کشف کنند. این نوع تجزیه و تحلیل ممکن است از موارد تاثیرگذار دیگری چشم پوشی کند. بعنوان مثال سن می تواند یک عامل تعیین کننده در بازپرداخت وام باشد.
اینجا جایی است که داده کاوی و OLAP میتوانند یکدیگر را کامل کنند. قبل از کار بر روی الگو و تجزیه و تحلیل بر روی اطلاعات، نیاز به دانستن پیامدهای مالی و همچنین خواستار کشف الگوهایی برای کنترل اعتبار کافی اشخاص میباشیم. تکنولوژی OLAP میتواند به این قسمت از سوال پاسخ دهد. در OLAP با استفاده از MDX و با دقت و تمرکز خود بر روی مقادیر مهم میتواند استثناها را شناسایی و یا تعاملات را کشف کند.
سیستم های OLAP نام خود را از عبارت (Online Analytical Process) با معنی "سیستم های پردازش تحلیلی برخط" گرفته اند. می توان به جای OLAP از واژه پردازش سریع اطلاعات چند بعدی و یا به عبارت بهتر از " فن آوری تحلیل داده ها" استفاده کرد. این سیستمها بر اساس تکامل سیستمهای OLTP به معنی پردازش آنلاین تراکنش ها ایجاد شده اند .تکنولوژیOLAP به طیف گستردهای از تکنیکها اطلاق میشود و از ابزارهای پشتیبانی کنندۀ تصمیم گیری میباشد. ابزارهای گزارش گیری و کوئری های سنتی، داراییها و اشیاء پایگاه داده را توصیف کرده و آنها را شرح میدهند. سیستم های OLAP برای ارائه پاسخهای سریع به سوالات و جستجوهای تحلیلی روی داده های "چند بعدی" طراحی شده اند . بطور معمول اگر بخواهیم مشابه همین پرس و جوهای تحلیلی را روی سیستم های اطلاعاتی عادی OLTP اجرا کنیم ممکن است نتایج در زمانی طولانی و غیرکاربردی بازگردانده شود در حالیکه استفاده از OLAP تضمین می کند که اطلاعات و گزارشات تحلیلی با زمان پاسخ مناسبی به کاربر تحویل داده شود.
اما همانطور که گفته شد تکنولوژیOLAP پاسخی جدید به مشکلات سیستمهای حمایت از تصمیمگیری است. باید در نظر داشت که OLAP یک تکنیک ساده نیست بلکه مجموعهای از مفاهیمی از قبیل سازمان پایگاه داده، نمایش داده و مدل کردن کوئری میباشد. تکنولوژی OLAP ابزارها و مفاهیمی را ارائه میکند که به وسیله آنها امکان انجام یک تحلیل موثر و دلخواه بر روی هر نوع دادهای فراهم میگردد.
کاربردهای معمول OLAP عبارتند از : گزارشات تجاری فروش، بازاریابی، گزارشات مالی و مواردی از این قبیل. این سیستم ها داده های خود را به نحوی خاص نگهداری می کنند که از نظر سرعت در برخورد با داده های چند بعدی بهتر از سیستمهای OLTP عمل می کنند و از این رو به آنها بانکهای اطلاعاتی سلسله مراتبی هم گفته میشود.
OLAP و پایگاه داده های مربوطه با استفاده از یک ساختار سلسله مراتبی و یک data model چندبعدی قدرتمند جهت سازماندهی اطلاعات به ساده سازی محاسبات پرداخته وگزارشاتی بسیار سریعتر نسبت به روش های قبلی ارائه می دهند.
بانکهای اطلاعاتی به کار رفته در OLAP که Datawarehouse یا انبار داده ها نامیده می شوند متشکل از مکعبهای اطلاعاتی چند بعدی بوده که امکان آنالیز سریع اطلاعات پایگاه داده های مختلف را فراهم میآورند. بعنوان مثال یک پایگاه داده چند بعدی می تواند فروش کل سالیانه را با ماه فروش ، تعداد مشتری و قیمت متقاطع سازد. حاصل این تقاطع این است که گزارشات بسیار متنوعی مثل مجموع فروش در ماه خاص یا بهترین قیمت و مشتری سال و ... از سیستم به راحتی قابل استخراج است.
در محصولات Business Intelligence (BI) داده کاوی یک جزء اساسی است که توانایی زیادی در تحلیل دادهها و یافتن الگوهای پنهان به صورت خودکار و نیمه خودکار دارند. در دههای گذشته حجم دادههای انباشته شده و ذخیره شده در پایگاههای داده بسیار بالا رفته است. اغلب این دادهها از برنامههای تجاری همچون برنامههای مالی، منابع مدیریت سرمایه گذاری، مدیریت ارتباط با مشتری و صفحات وب به دست آمده است.
نتیجه این انباشتگی ، غنی بودن سازمانها از داده و ضعف در کسب دانش میباشد. از طرفی سرعت افزایش دادهها روز به روز در حال گسترش میباشد در حالی که استفاده درست از این دادههای رو به افزایش، بسیار محدود است. هدف از داده کاوی استخراج الگوهای مناسب از دادههای موجود، گسترش ارزش واقعی و تبدیل دادهها به دانش است.
یک مثال ساده:
جدولی شامل لیستی از فارغالتحصیلان در یک دبیرستان را در نظر بگیرید. فیلدهای این جدول شامل اطلاعاتی در مورد جنسیت، ضریب هوشی، سطح تشویق و ترغیب والدین و درآمد والدین برای دانش آموزانی که قصد ورود به دانشگاه را دارند میباشد.
در اینجا سوالی مطرح میشود: کدام دسته از دانش آموزان به دانشگاه خواهند رفت؟
امکان دارد برای پاسخ به این سوال یک پرس و جو بنویسید که در آن تعداد دانش آموزان دختر و تعداد دانش آموزان پسر را به شما بدهد و همچنین ممکن است پرس و جوی دیگری بنویسید که در آن والدین ترغیب کننده دانش آموزان را بیابید. اما در مورد دانش آموزان پسر چطور؟ آیا آنها توسط والدین ترغیب میشوند؟ یا همینطور دانش آموزان دختر، آیا دختران توسط والدین خود تشویق نمیشوند؟
برای مشخص کردن تمام احتمالات و پوشش همه آنها باید صدها عدد از این قبیل پرس و جویها نوشت. برای دادههای عددی مانند درآمد والدین و ضریب هوشی، تحلیلها بسیار پیچیدهتر و مشکلتر خواهد شد. اگر در جدول صدها ستون وجود داشت چطور؟
میبایست با استفاده از پرس و جوهای SQL به سرعت دادهها را مدیریت کنید که بدیهی است این امر غیر ممکن میباشد. اما در مقابل داده کاوی رویکردی کاملاً متفاوت و ساده به این سوال دارد.
تحقیقات انجام گرفته نشان از آن دارد که امروزه سازمانها، کمتر از یک درصد از دادههایشان را برای تحلیل استفاده مینمایند. به عبارت دیگر امروزه سازمانها در اطلاعات غرق شدهاند در حالی که گرسنه دانش هستند چرا که سازمانها دادههای زیادی را در تصرف خود دارند در حالی که هنوز با فقدان دانش پنهان درون دادهها مواجه هستند. در دادهکاوی روشهایی برای کشف روابط بکار برده میشود و به کمک الگوریتمهایی روابط چند بعدی بین دادهها تشخیص داده شده و آنهایی که یکتا هستند شناسایی میشوند. در واقع ابزار دادهکاوی، داده را میگیرد و یک تصویر از واقعیت به شکل مدل میسازد، این مدل روابط موجود در دادهها را شرح میدهد. به طور کلی کاوش دادهها به معنی کنکاش دادههای موجود در پایگاه داده و انجام تحلیلهای مختلف بر روی آنها به منظور استخراج اطلاعات میباشد. و در نهایت میتوان بیان نمود که دادهکاوی، پروسه اکتشافِ با معنای ارتباط موجود میان دادهها میباشد.
OLAP و Data Mining دو راهکاری هستند که در SSAS برای مدیرت داده ها و کشف دانش معرفی شده است. در اینجا به معرفی اجمالی داده کاوی(DataMining) می پردازیم.
دادهکاوی علمی نوین و جذاب برای کشف دانش از داده ها می باشد. با توجه به رقابتی شدن بازار و تلاش سازمان ها برای رقابت و بدست آوردن درآمد بیشتر، استفاده از دادهکاوی امری مهم تلقی می شود. استفاده از داده های پیشین و نتیجه گرفتن از آن ها جهت بهبود عملکرد آینده، یکی از ایدهآلترین روش ها برای کمک به سازمان ها میباشد. از سوی دیگر با توجه به قابلیت حضور دادهکاوی در تمام عرصهها و همچنین وجود بنیان قوی علوم آمار، کامپیوتر، هوش مصنوعی و الگوشناسی در نهان دادهکاوی موجب فراگیر شدن این دانش در تمامی سطوح گردیده است.
دادهکاوی عملی بسیار ظریف بوده که اگر در آن تحلیل دادهها بصورت دقیق انجام نگیرد، ممکن است باعث استدلال نادرست گردد. از طرفی الگوریتم های دادهکاوی نیز پیچیدگی زیادی دارند، خوشبختانه نرم افزارSQL Server Business Intelligence Development Studio سبب گردیده که از پیچیدگی محتوای الگوریتمهای دادهکاوی دور گردیم و با خیالی آسوده عملیات دادهکاوی را انجام دهیم.
در پستهای بعدی با برخی از این الگوریتمها آشنا خواهید شد.