میتوان گفت دادهکاوی هدف اصلی و نهایی سازمانها در بکارگیری از BI است. انجام عمل دادهکاوی علاوه بر تخصص و توانایی فنی بالا و تسلط به کسب و کار مربوطه نیازمند مقدمات دیگری نیز هست و تا فراهم نشدن تمامی این مقدمات امکان پذیر نمیباشد. در ادامه هر یک از این پیش نیازها را بررسی میکنیم.
طراحی و پیاده سازی انبار داده:
بدون وجود انبار دادهای جامع و دقیق نمیتوان به سوی داده کاوی قدم برداشت. پیش از انجام هر نوع عمل کاوش در دادهها ابتدا باید از یکپارچگی، صحت و تجمیع اطلاعات اطمینان حاصل شود. اطلاعات باید واقعی و دارای توالی به روز رسانی مشخص باشند. مراحل پیاده سازی انبار داده در اینجا شرح داده شده است.
بررسی و انتخاب دادهها بر اساس نوع الگوریتم مورد استفاده:
فارغ از اینکه از چه ابزاری برای عملیات داده کاوی استفاده میکنیم، تعداد الگوریتمها، تنوع و مقاصد آنها متفاوت است. از این رو باید بر اساس نوع الگوریتمی که قصد استفاده از آن را داریم اطلاعات را انتخاب نماییم. الگوریتمهای داده کاوی در اینجا شرح داده شده است.
تبدیل دادهها به فرمت و ساختار مورد نیاز الگوریتم:
هر الگوریتم داده کاوی بر اساس نوع خروجی و هدفی که دنبال میکند به فرمت خاص خود نیاز دارد. در این مرحله باید دادههای مورد نیاز الگوریتم را به شکل و قالب قابل قبول برای الگوریتم تبدیل کنیم. انواع دادهای مورد استفاده در Microsoft Data Mining را اینجا مطالعه کنید.
کاوش در داده با استفاده از الگوریتمهای داده کاوی:
در این مرحله کار را به الگوریتم انتخاب شده میسپاریم. الگوریتم بر اساس پارامترها و ورودیهای مشخص شده شروع به کاوش در دادهها میکند و روابط و اطلاعات مورد نیاز جهت رسیدن به دانش را در اختیار ما قرار میدهد.
در این رابطه میتوانید الگوریتم کلاسترینگ و سری زمانی را مطالعه نمایید.
تحلیل و تفسیر نتیجه :
بدیهی است که کسب دانش از دادهها نیازمند تجزیه و تحلیل و تفسیر خروجی مرحله قبل است. رسیدن به نتیجه مطلوب در کنار تلاش تیمی متشکل از افراد فنی و غیر فنی که تسلط کامل برروی اطلاعات و کسب وکار دارند میسر است.
سلام
متاسفانه اغلب روشهای داده کاوی قدیمی هستند. برای مثال ANN, SVM, Decision Tree, Clustering روشهایی هستند که در قرن 19 شکل گرفته و مقالات بسیار زیادی در زمینه های گوناگون از پزشکی گرفته تا فضاشناسی در مجلات معتبر دنیا (ISI Journals) به چاپ رسیدند.
2 سوال دارم. بهترین منبع برای آشنا شدن با روشهای جدید داده کاوی و همینطور کاربرذهای این روشها (optimization, prediction, estimation,...) چیست؟
و آیا نرم افزاری بهتر و قویتر از Matlab, WEKA, R Language, Rapid Miner در زمینه داده کاوی موجود هست؟
سلام
درست است که پایه بسیاری از روش های داده کاوی در سال های خیلی دور شکل گرفته اند اما این دلیل بر ناکارآمد بودن آن ها نیست. به عنوان مثال روش Decision Tree در حال حاضر نیز یکی از روش های بسیار کاربردی برای Classification محسوب می گردد.
در مورد سوال اول به نظرم اگر نام نویسندگان کتاب ها یا مقالات معتبر داده کاوی مانند Kimball و Inmon را در اینترنت جست و جو کنید منابع خوبی پیدا کنید.
در مورد سوال دوم هم تا جایی که بنده اطلاع دارم نرم افزارهایی که نام بردید بیشتر کاربرد آموزشی دارند و اتفاقا به همین دلیل پیاده سازی روش های جدید را نیز می توان در آن ها یافت. اما اگر منظور شما از قوی بودن این باشد که قابلیت کار در محیط های واقعی با حجم بسیار بالای داده را داشته باشند تجربه خود من ابزار BIDS شرکت Microsoft است که دارای الگوریتم های قوی در زمینه داده کاوی نیز می باشد.
بسیار ممنون