در محصولات Business Intelligence (BI) داده کاوی یک جزء اساسی است که توانایی زیادی در تحلیل دادهها و یافتن الگوهای پنهان به صورت خودکار و نیمه خودکار دارند. در دههای گذشته حجم دادههای انباشته شده و ذخیره شده در پایگاههای داده بسیار بالا رفته است. اغلب این دادهها از برنامههای تجاری همچون برنامههای مالی، منابع مدیریت سرمایه گذاری، مدیریت ارتباط با مشتری و صفحات وب به دست آمده است.
نتیجه این انباشتگی ، غنی بودن سازمانها از داده و ضعف در کسب دانش میباشد. از طرفی سرعت افزایش دادهها روز به روز در حال گسترش میباشد در حالی که استفاده درست از این دادههای رو به افزایش، بسیار محدود است. هدف از داده کاوی استخراج الگوهای مناسب از دادههای موجود، گسترش ارزش واقعی و تبدیل دادهها به دانش است.
یک مثال ساده:
جدولی شامل لیستی از فارغالتحصیلان در یک دبیرستان را در نظر بگیرید. فیلدهای این جدول شامل اطلاعاتی در مورد جنسیت، ضریب هوشی، سطح تشویق و ترغیب والدین و درآمد والدین برای دانش آموزانی که قصد ورود به دانشگاه را دارند میباشد.
در اینجا سوالی مطرح میشود: کدام دسته از دانش آموزان به دانشگاه خواهند رفت؟
امکان دارد برای پاسخ به این سوال یک پرس و جو بنویسید که در آن تعداد دانش آموزان دختر و تعداد دانش آموزان پسر را به شما بدهد و همچنین ممکن است پرس و جوی دیگری بنویسید که در آن والدین ترغیب کننده دانش آموزان را بیابید. اما در مورد دانش آموزان پسر چطور؟ آیا آنها توسط والدین ترغیب میشوند؟ یا همینطور دانش آموزان دختر، آیا دختران توسط والدین خود تشویق نمیشوند؟
برای مشخص کردن تمام احتمالات و پوشش همه آنها باید صدها عدد از این قبیل پرس و جویها نوشت. برای دادههای عددی مانند درآمد والدین و ضریب هوشی، تحلیلها بسیار پیچیدهتر و مشکلتر خواهد شد. اگر در جدول صدها ستون وجود داشت چطور؟
میبایست با استفاده از پرس و جوهای SQL به سرعت دادهها را مدیریت کنید که بدیهی است این امر غیر ممکن میباشد. اما در مقابل داده کاوی رویکردی کاملاً متفاوت و ساده به این سوال دارد.
تحقیقات انجام گرفته نشان از آن دارد که امروزه سازمانها، کمتر از یک درصد از دادههایشان را برای تحلیل استفاده مینمایند. به عبارت دیگر امروزه سازمانها در اطلاعات غرق شدهاند در حالی که گرسنه دانش هستند چرا که سازمانها دادههای زیادی را در تصرف خود دارند در حالی که هنوز با فقدان دانش پنهان درون دادهها مواجه هستند. در دادهکاوی روشهایی برای کشف روابط بکار برده میشود و به کمک الگوریتمهایی روابط چند بعدی بین دادهها تشخیص داده شده و آنهایی که یکتا هستند شناسایی میشوند. در واقع ابزار دادهکاوی، داده را میگیرد و یک تصویر از واقعیت به شکل مدل میسازد، این مدل روابط موجود در دادهها را شرح میدهد. به طور کلی کاوش دادهها به معنی کنکاش دادههای موجود در پایگاه داده و انجام تحلیلهای مختلف بر روی آنها به منظور استخراج اطلاعات میباشد. و در نهایت میتوان بیان نمود که دادهکاوی، پروسه اکتشافِ با معنای ارتباط موجود میان دادهها میباشد.