پارتیشن (Partitions)
معمولا زمانی از پارتیشن استفاده میکنیم که با حجم زیادی از دادهها روبرو باشیم. برای پردازش دادههای حجیم زمان زیادی را باید صرف کرد، از طرفی نیازی نیست دادههای از پیش پردازش شده را مجدد پردازش نمود و فقط باید دادههای جدیدی که به انبار دادهها اضافه میشوند را مورد پردازش قرار داد.جهت اینکار دادهها را پارتیشن بندی میکنیم.
پیشمحاسبه(Aggregation)
کلمه Aggregation در لغت به معنای تجمیع و تراکم است اما مفهوم آن در SSAS پیشمحاسبه (Precalculated) است. به این معنا که در هنگام پردازش دادهها یک پیشمحاسبه نیز انجام میشود. این عمل همانند آماده و همراه داشتن خلاصهای از پاسخهای احتمالی، پیش از طرح سوال است. برای مثال زمانی که با یک جدول از هزاران رکورد روبرو هستیم، در هر زمان برای پاسخ به هر یک از سوالها (کوئری) زمان زیادی طول میکشد تا پاسخ مناسب دریافت شود. در صورتی که اگر پاسخ سوالات از پیش آماده شده باشند سرعت پاسخ گویی به مراتب بیشتر میشود.
Perspective
در OLAP برای دستهبندی و جداسازی معیارها، ابعاد، KPIها و... از Perspective استفاده میشود.
Browser
در SSAS خروجی Cubeهای ایجاد شده در این قسمت نمایش داده میشوند.
MDX
زبان برنامهنویسی در OLAP است که مخفف Multidimensional Expressions میباشد.
مجموعه داده(Named Set)
یکی از ابزارهای موجود در سربرگ Calculations، مجموعه داده است که توسط آن میتوان عضوهای یک بٌعد خاص را دسته بندی کرد. برای مثال میتوانیم 10 عضو برتر بعد مشتری را که بیشترین خرید را داشتهاند نمایش داد. این عملیات توسط عبارات MDX انجام میگیرد.
Script Command
در این قسمت از MDX برای ایجاد عبارات خاص استفاده میشود.
Named Query
در واقع همان View است. توسط این قسمت میتوان Viewهایی در DSV ایجاد کرد. دیدهای ایجاد شده فقط در SSAS نمایش داده میشوند.
Named Calculation
در صورت نیاز به تعریف Attribute در ابعاد استفاده میشود. برای تعریف این نوع Attribute از عبارات MDX و Query استفاده میشود.
Mining Structure
پروژههای دادهکاوی در این قسمت تعریف میشوند.
Mining Models
برای ایجاد مدلهای مختلف دادهکاوی و اعمال تغییرات در خصوصیات آنها از این قسمت استفاده میشود.
Mining Model Viewer
در SSAS خروجی مدلهای دادهکاوی در این قسمت نمایش داده میشوند.
Mining Accuracy
جهت بررسی بهتر صحت خروجیهای نمایش داده شده و همچنین مقایسه مدلهای دادهکاوی ساخته شده در Mining Models از این قسمت استفاده میشود.
Mining Model Prediction
در برخی از الگوریتمها قابلیت پیشبینی وجود دارد. از این قسمت برای ایجاد پیش بینی استفاده میشود.
DMX
زبان برنامهنویسی در دادهکاوی است که مخفف Data Mining Expressions میباشد.
جدول حقایق (Fact)
این نوع جداول در انبار داده Fact یا جدول حقایق نامیده میشوند که مقادیر معیارها را شامل میشوند. معمولا در جدول حقایق، مقادیر عددی از اطلاعات سازمانها نظیر مقدار فروش و مبلغ فروش و همچنین کلیدهای خارجی (foreign key) برای برقرای ارتباط با ابعاد وجود دارد.
مکعب (Cube)
مکعبهای دادهای هستند که اطلاعات را به صورت چند بُعدی در خود ذخیره میکنند.
معیار (Measure)
به هر یک از مقادیر عددی نظیر مبلغ فروش و مقدار فروش که در Fact وجود دارد Measure گفته میشود.
گروه معیار(Measures Group)
یک یا چند معیار، گروه معیار را تشکیل میدهند. در واقع هر جدول حقایقی که در SSAS مورد استفاده قرار میگیرد یک Measures Group است.
ابعاد (Dimension)
اطلاعات تکمیلی و جزئیات جداول حقایق توسط ابعاد مشخص میشود. جداول ابعاد مجموعهای از ویژگیهای داده است. بعنوان مثال کد استان و نام استان درکنار هم میتواند بعد استان را تشکیل دهند.
ویژگیها (Attribute)
هر جدول بُعد دارای یک یا چند ویژگی است. ویژگیها جزئیات بشتر و بهتری از بُعد را فراهم میکنند. برای مثال کد استان و نام استان ویژگیهای دایمنشن استان را مشخص میکند.
عضوها (Members)
عدد "100" عضوی از ویژگیِ کد استان و "تهران" عضوی از ویژگی نام استان است.
سلسله مراتبها (Hierarchies)
در صورتی که ویژگیهای یک دایمنشن را به طوری مرتب کنید که بتوان به صورت معنادار در سطوح مختلف حرکت نمود، سلسله مراتب ایجاد کردهاید. بعنوان مثال سال، فصل، ماه، هفته و روز، یک سلسله مراتب از ویژگیهای بعد زمان است.
عضو محاسباتی(Calculated Member)
شامل عضوهای جداول ابعاد و یا گروه معیارها است که با استفاده از عبارات محاسباتی بصورت داینامیک اجرا و محاسبه میشود. هر عضو محاسباتی ایجاد شده فقط در Cube ذخیره میشود. بعنوان مثال میتوان یک عضو محاسباتی ایجاد کرد که محتوای دو معیار را با یکدیگر جمع نماید.
شاخصهای ارزیابی عملکرد (KPI)
در واقع معیارهای قابل سنجشی هستند که به صورت نمودارهای عقربهای (Gage) نمایش داده میشوند. اطلاعات مورد نیاز برای نمایش در گیج، طبق فرمولی از پیش مشخص میشود.
Actionها
در واقع Action عملی است که قصد داریم در زمان نیاز انجام شود. به عبارت دیگر Action رویدادی از پیش نوشته شده است که مشخص است در زمان وقوع چه عملی را باید انجام دهد. این عمل باعث هوشمندتر شدن Cubeها میشود. بعنوان مثال فرض کنید کاربر میخواهد با کلیک بر روی نام هر شهر نقشهی آن نمایش داده شود؛ برای حل این مسئله میتوان یک Action ایجاد کرد که پس از انتخاب هر شهر نقشهی آن توسط google mapsنمایش داده شود.
در یک پروژهی OLAP از یک یا چند مکعب داده (Cube) استفاده میشود. از اینرو Cube به عنوان یکی از مزایای پروژه هوش تجاری شناخته میشود. قرار گرفتن دادهها در یک فرمت بهینه جهت ذخیرهسازی به انجام سریعتر کوئریها میانجامد. معمولا نحوه ذخیرهسازی اطلاعات حجیم در Cube باعث تاخیر در ذخیره و بازیابی انبوه اطلاعات میشود. به طور معمول در SSAS پردازش دادهها از یک بانک اطلاعاتی رابطهای به Cube منتقل میشود. پس از اتمام این ارتباط نه چندان طولانی میان پایگاه دادههای رابطهای و Cube اطلاعات وارد Cube میشوند و با تغییر دادهها در پایگاه داده هیچ تغییری در اطلاعات موجود در Cube ایجاد نمیشود مگر آنکه Cube را مجدد پردازش کنید.
در SSAS2008 سه نوع ذخیرهسازی وجود دارد؛ MOLAP، ROLAP و HOLAP
در این پست هر یک از انواع ذخیرهسازی را به صورت خلاصه شرح داده و در پایان با یکدیگر مقایسه میکنم.
MOLAP(Multidimensional Online Analytical Processing)
این نوع ذخیرهسازی بیشترین کاربرد در ذخیره اطلاعات را دارد همچنین به صورت پیش فرض جهت ذخیرهسازی اطلاعات انتخاب شده است. در این نوع تنها زمانی دادههای منتقل شده به Cube به روز میشوند که Cube پردازش شود که این امر باعث تاخیر بالا در پردازش و انتقال دادهها میشود.
ROLAP (Relational Online Analytical Processing)
در ذخیرهسازی ROLAP زمان انتقال بالا نیست که از مزایای این نوع ذخیرهسازی نسبت به MOLAP است. در ROLAP اطلاعات و پیشمحاسبهها (Aggregations) در یک حالت رابطهای ذخیره میشوند و این به معنای زمان انتقال نزدیک به صفر میان منبع داده (بانک اطلاعاتی رابطهای) و Cube میباشد. از معایب این روش میتوان به کارایی پایین آن اشاره کرد زیرا زمان پاسخ برای پرسوجوهای اجرا شده توسط کاربران طولانی است. دلیل این کارایی پایین بکار نبردن تکنیکهای ذخیرهسازی چند بعدی است.
HOLAP (Hybrid Online Analytical Processing)
این نوع ذخیرهسازی چیزی مابین دو حالت قبلی است. ذخیره اطلاعات با روش ROLAP انجام میشود، بنابراین زمان انتقال تقزیبا صفر است. از طرفی برای بالابردن کارایی، پیشمحاسبهها به صورت MOLAP انجام میگیرد در این حالت SSAS آماده است تا تغییری در اطلاعات مبداء رخ دهد و زمانی که تغییرات را ثبت کرد نوبت به پردازش مجدد پیشمحاسبهها میشود. با این نوع ذخیرهسازی زمان انتقال دادهها به Cube را نزدیک به صفر و زمان پاسخ برای اجرای کوئریهای کاربر را زمانی بین نوع ROLAP و MOLAP میرسانیم.
مقایسه انواع ذخیره سازی در جدول زیر نمایش داده شده است.
مدت زمان انتقال داده | سرعت اجرای کوئری | محل ذخیرهسازی پیشمحاسبات | محل ذخیرهسازی دادهها | |
بالا | بالا | Cube | Cube | MOLAP |
پایین | متوسط | Cube | بانک اطلاعاتی رابطهای | HOLAP |
پایین | پایین | بانک اطلاعاتی رابطهای | بانک اطلاعاتی رابطهای | ROLAP |
به طور کلی فرآیند ایجاد پروژههای هوشمندی کسب و کار به سه دسته عمدهی ((شناخت و تحلیل، طراحی و ساخت و گسترش و پشتیبانی)) تقسیم میشود.
1-شناخت و تحلیل
مهمترین قسمت در هر پروژهای شناخت سازمان است. کسب اطلاعات دقیق از قسمتهای مختلف و نحوه فعالیت سازمان در حوزههای مختلف نقش اساسی در موفقیت پروژه دارد. یک شرکت تولیدی با چندین شعبه را در نظر بگیرید، مادامی که از فرآیند تولید، فروش، دریافت مواد اولیه و... در این شرکت اطلاعات کافی و دقیقی نداشته باشید، نمیتوانید نیازهای شرکت را به خوبی درک کنید و در نهایت به شکست پروژه منجر خواهد شد. پس باید گام اول در پروژه به خوبی پشت سر گذاشته شود. معمولا شناخت سازمان، وضع موجود فناوری اطلاعات، تحلیل نیازمندیها و شاخصهای کلیدی عملکرد در این فاز بررسی و تعریف میشوند. این اطلاعات از روی مستندات و مصاحبههای حضوری بدست میآید.
2- طراحی و ساخت
در فاز طراحی و ساخت، با توجه به اطلاعات بدست آمده از سازمان و درک نیازها به طراحی و ساخت مدل و راهکارهای هوش تجاری میپردازیم. طراحی و ایجاد انبار داده، Solutionهای هوشمند کسب و کار (OLAP, Data Mining) و گزارشگیری در این فاز از پروژه انجام میشود.
پس از انجام مراحل فوق، شما می توانید نسبت به ساخت یا خرید یک نرم افزار گزارش گیری تصمیم گیری نمایید. به طور معمول هزینه ساخت یک نرم افزار گزارش گیری، بالاتر از هزینه خرید آن از یک شرکت داخلی یا خارجی است.
در نهایت برای کشف دانش، توسط یکی از ابزارهای گزارشگیری (ابزاری که توانایی ساخت داشبورد مدیریتی داشته باشد) از حوزههای مختلف فعالیت سازمان داشبوردهای مدیریتی ایجاد میشود تا به واسطهی آن مدیر بتواند وضعیت سازمان را به درستی تحلیل کند و برای آینده برنامه ریزیهای لازم را انجام دهد.
3- گسترش و پشتیبانی
مطمئنا هر پروژهای نیاز به پشتیبانی و نگهداری دارد تا در صورت بروز مشکلات احتمالی به سرعت رفع شود و سیستم مجدد به کار خود ادامه دهد. در این فاز پشتیبانی پروژهی هوشمندی کسب و کار انجام میشود. معمولا این پشتیبانی توسط تیمی که پروژه را انجام داده است انجام میشود.
علاوه بر این ممکن است پس از مدتی سازمان قصد گسترش پروژه را داشته باشد. معمولا برای گسترش پروژه نیز در اختیار تیم قبلی ساخت پروژه قرار میگیرد.
همانطور که میدانید از دادهکاوی برای کاوش در اطلاعات و کشف دانش استفاده میشود. برای اینکار الگوریتمهای متعددی وجود دارد که هر یک برای هدف خاصی کاربرد دارند. در SQL Server Business Intelligence Development Studio تعداد 9 الگوریتم مختلف برای انجام عمل دادهکاوی وجود دارد که از هر یک در شرایط خاص و در جهت رسیدن به اهداف مشخصی استفاده میشود. خوشه بندی از مهمترین الگوریتمهای داده کاوی است و کاربرد بسیاری در کشف دانش دارد به همین دلیل در این مقاله به الگوریتم خوشه بندی که یکی از مهمترین الگوریتمهای دادهکاوی است، خواهیم پرداخت.
کلاسترینگ (Clustering) یا خوشهبندی از جمله الگوریتمهای قطعه بندی به حساب میآید. الگوریتم خوشهبندی اطلاعاتی را که ویژگیهای نزدیک به هم و مشابه دارند را در دستههای جداگانه که به آن خوشه گفته میشود قرار میدهد. به بیان دیگر خوشهبندی همان دستهبندیهای سادهای است که در کارهای روزانه انجام میدهیم. وقتی با یک مجموعه کوچک از صفات روبرو باشیم دسته بندی به سادگی قابل اجرا است، برای مثال در یک مجموعه از خودکارهای آبی، مشکی، قرمز و سبز به راحتی میتوانیم آنها را در 4 دسته قرار دهیم اما اگر در همین مجموعه ویژگیهای دیگری مثل سایز، شرکت سازنده، وزن، قیمت و... مطرح باشد کار کمی پیچیده میشود. حال فرض کنید در یک مجموعه متشکل از هزاران رکورد و صدها ویژگی قصد دسته بندی دارید، چگونه باید این کار را انجام دهید؟!
بخش بندی دادهها به گروهها یا خوشههای معنادار به طوری که محتویات هر خوشه ویژگیهای مشابه و در عین حال نسبت به اشیاء دیگر در سایر خوشهها غیر مشابه باشند را خوشهبندی میگویند. از این الگوریتم در مجموعه دادههای بزرگ و در مواردی که تعداد ویژگیهای داده زیاد باشد استفاده میشود.
تعریف خوشه بندی
فرض کنید کودکی هستید که به همراه یک کیسه پر از تیله در اتاقی نشسته اید. اکنون کیسه را باز میکنید و اجازه میدهید تا تیلهها روی زمین حرکت کنند. متوجه میشوید که تیله ها رنگهای متفاوتی دارند: قرمز، آبی، زرد، سبز. تیله ها را برحسب رنگ جدا میکنید تا اینکه چهار گروه تیله داشته باشید. سپس متوجه میشوید که برخی از تیله ها بزرگ، بعضی کوچک و بعضی، متوسط هستند. حال تصمیم میگیرید که تیلههای بزرگ و کوچک را با هم و تیلههای متوسط را به گروهی مجزا دسته بندی کنید. شما به این تقسیم بندی نگاه میکنید و از این کار راضی هستید. اکنون یک عملیات خوشهبندی انجام دادهاید.
دوباره نگاهی به خوشهها میکنید و میبینید که نه تنها تیله هایی با رنگهای یکپارچه دارید، بلکه تیلههای چشم گربهای، شرابی، شیشهای و احتمالا انواع دیگری نیز دارید. برخی از تیلهها دارای سائیدگی هستند. برخی از آنها دارای زوایایی هستند که بطور مستقیم حرکت نمیکنند. اکنون سر درگم هستید، شما گروه بندی خود را براساس کدام خصوصیت انجام میدهید؟ اندازه، رنگ یا فاکتورهای دیگر از قبیل شکل یا جنس؟ به احتمال زیاد شما دوست دارید فقط بازی کنید!
زمانی که با یک مجموعه کوچک از خصوصیات سروکار داریم، خوشهبندی یک عمل ساده ای است که می توانیم آن را انجام دهیم. اما زمانی که خصوصیات رشد میکنند مشکلات خوشهبندی افزایش پیدا کرده و حتی ممکن است از طریق ذهن آدمی غیر ممکن باشد. عمل خوشهبندی فقط در 5 یا 6 بٌعد برای افراد نظریه پرداز که فهم عمیقی از دادهها دارند امکان پذیر است. اما مجموعه دادههای مدرن، عموماً شامل دهها (اگر نگوییم صدها) بٌعد هستند و زمانی که ما نمیتوانیم روابط ممکن بین خصوصیات را درک کنیم، عمل خوشهبندی غیر ممکن میشود.
توجه: در این مقاله منظور از بٌعد تعداد خصوصیات اشیاء میباشد. به عنوان مثال، نقاط در صفحه دکارتی دارای دو بعد X و Y هستند.
کلاسترینگ، اشیاء را براساس ویژگیهایی که با هم دارند گروهبندی میکند. هدف اصلی در خوشه بندی تقسیم بندی اشیاء به گونهای است که بیشترین شباهت در یک گروه و بیشترین تفاوت با اشیاء گروههای دیگر را دارا باشد. بعنوان تعریف سادهتر میتوان گفت که اشیاء در خوشه مخصوص خود دارای بیشترین شباهت و در برابر اشیای متعلق به خوشههای دیگر دارای بیشترین تفاوت هستند.
در برنامههای کاربردی، عمل خوشهبندی بصورت کاملا متمایز انجام نمیگیرد. جدا از مسائل فوق خوشهبندی دادهها را از هم جدا میکند و هر خوشه دادههای مخصوص خود را دارد و از تداخل داده در خوشه جلوگیری میشود. البته خوشه بندی فازی جدا از مسئله فوق میباشد و اجازه میدهد که یک شیء متعلق به چند گروه وابسته باشد.
با توجه به شکل ممکن است که گرفتن چهار خوشه عقلانی نباشد (به علت شباهت نزدیک دو گروه)، به همین علت تاکید میکنیم که اشیاء خوشه را با توجه به وابستگی نوع دادهها و نتایج آن میتوان بدست آورد.
چه تحلیل و آنالیزهایی خوشه بندی نیستند؟
در این قسمت به طور خلاصه تفاوت تجزیه و تحلیل خوشهای با دیگر تکنیک های گروهبندی را بیان میکنیم. در واقع گروهبندی اشیاء، داده را به کلاسهای نام گذاری شده تخصیص میدهد. در گروه بندی هر شیء دارای یک سرپرست و یا ناظر میباشد. میتوان گفت خوشه بندی یک نوع طبقه بندی بدون سرپرست است یعنی اشیاء بر اساس شباهتهایی که باهم دارند تقسیم میشوند و نه بر اساس معیارهای از پیش تعیین شده. به همین دلیل به خوشهبندی گاهی اوقات طبقه بندی بدون سرپرست نیز میگویند. در دادهکاوی هنگامی که از اصطلاح طبقه بندی استفاده میشود منظور همان طبقه بندی بصورت با سرپرست میباشد و همچنین واژههای قطعه بندی و پارتیشن بندی مترادف خوشه بندی هستند. این لغات بارها در روش های سنتی استفاده شده است. در واقع استفاده از قطعه بندی، استفاده از تکنیک های ساده ای برای گروهبندی دادهها میباشد.
بعنوان مثال تقسیم بندی پیکسلهای عکس به دو قسمت رنگ و شدت رنگ و یا تقسیم بندی مردم به گروهایی بر اساس درآمد و یا نام خانوادگی؛ با این وجود بعضی از تقسیمبندیهای عکس و تجزیه و تحلیل بازار خوشه میباشد و از یک چارچوب ریاضی برای دادهکاوی استفاده میکنند. قوانین زیادی از دادهکاوی روی مشکلات تقسیم بندی فعالیت و نظارت دارد و به همین ترتیب روشهای فراوانی برای پارتیشن بندی مجموعهای از داده وجود دارد اما هیچ کدام در سطح تجزیه و تحلیل خوشهبندی نمیباشند.
ارتباط محکمی میان پارتیشنبندی و گراف خوشه بندی وجود دارد. برای درک بهتر تفاوت میان خوشه بندی و سایر تکنیکهای گروهبندی اشیاء به مثال زیر توجه کنید.
تفاوت خوشه بندی با بانک اطلاعاتی یا درخواست از موتور جستجو: اگرچه یک کوئری مجموعهای از رکوردها را به دو گروه تقسیم می کند ( و فقط قسمت مورد نیاز پرس و جو بازیابی میشود) این دو نتیجه به علت نداشتن ارتباط، خوشه بندی نیستند. یک پرس و جو مجموعه ای از اشیاء را نمایش میدهد در حالی که خوشه بندی تلاش میکند اشیاء را براساس شباهت ها و تفاوتها سازماندهی کند.
نکته: شاید به نظر برسد که پاسخ های کوئری دارای شباهت هایی هستند، اما باید توجه داشت که در پرس و جو عموما تمام ابعاد درخواست نمیشوند و ممکن است شباهت ها فقط در چند بٌعد کوچک باشد.
الگوریتم خوشه بندی
زمانی که روابط بین دادهها به خوبی آشکار نباشند، این الگوریتم یک گروه بندی طبیعی میان دادهها انجام میدهد. یا به عبارت دیگر این الگوریتم متغیرهای پنهانی را پیدا میکند که دقیقا دادههای شما را دستهبندی کرده است. برای مثال ممکن است با دیدن بخشی از مردم که عازم سفر هستند متوجه شوید که درصد قابل توجهای از مسافرین لباس های نازک پوشیدهاند در حالیکه بقیه افراد گرمکن و کت به تن دارند. در این حالت میتوان یک متغیر پنهانی را نتیجه گرفت که آن متغیر بیان می کند یک گروه افراد از آب و هوای گرمسیری می آیند و گروه دیگر از ناحیه سرد و بارانی بازمی گردند. این توانایی که رشته مشترکی از ارتباطات را به یکدیگر متصل میکند باعث میشود که خوشهبندی تبدیل به یک تکنیک استخراج دادهی رایج، در بازاریابی شود.
شناسایی گروههای طبیعی دادهها، انسان را از تحلیل های ساده تجارت مبتنی بر سازمان موجود رها میسازد در غیر اینصورت با گروهای محدودی روبرو میشویم که خودمان تصور کردهایم و ممکن است چگونگی مسیری که باعث کمک به مشتریان نشود را انتخاب کرده باشیم. منظور از تحلیل ساده، تحلیلهایی است که به نظر درست و دقیق میآید اما در واقع ممکن است چنین نباشد. بعنوان مثال به علت استفاده زیاد از چای و قند شاید خیلی از افکار فروشندهها نیز به این مطلب جلب گردد که قرار دادن قند و چای در کنار هم گزینه مناسبی است، اما باید توجه داشت که نسبت اتمام قند به چای خیلی بیشتر است. حال اگر فرض کنیم خانوادهها عموما زیاد چای مصرف میکنند میتوان نتیجه گرفت به علت شستن زیاد ظروف مربوط به چای، مصرف مایع ظرفشویی و قند دارای تناسب مصرفی کمتری است. پس میتوان نتیجه گرفت گذاشتن مایع ظرفشویی در کنار قند از گذاشتن چای در کنار قند منطقیتر میرسد. البته توجه کنید که رابطه فوق به صورت نظری میباشد و ممکن است پس از دادهکاوی نتیجه مناسبتری بدست آید.
برای شناخت بیشتر و بهتر رفتار پیرامون مشتریان جهت ارسال پیامهای مناسب به گروه های خاص می توان از خوشه بندی استفاده نمود. برای مثال یک ویدئو کلوپ ممکن است دریابد که گروهی از مشتریان فیلمهای خانوادگی را بر پایه یک نظم خاصی خریداری می کنند و گروه دیگر علاقه کمتری نسبت به خرید فیلمهای مستند دارند. ظاهرا ارسال کارت تبلیغاتی فیلمهای دیسنی (نام یک شرکت فیلمسازی در آمریکا) برای گروه دوم گزینه عاقلانهای نمیباشد.
توانایی تعریف و شناسایی بخشهای بازار ابزاری قوی برای اداره بهتر کسب و کار فراهم می کند. فیلمهای خانوادگی برای فروش مطلوب هستند یا فیلمهای مستند؟ سود بیشتر در ناحیه شمال غرب است یا جنوب شرق؟ سود اجارهکنندگان بیشتر است یا خریداران؟ تقریبا راه های بیشماری برای گروهبندی دادهها وجود دارد. اما برای گروهبندی با یک دید عمیق در کسب و کار راههای کمی وجود دارد.
دادههای مخفی درون سازمانی برای تحلیل تجارت بسیار سودمند میباشد. خرده فروشی که میداند مشتریانش در چه گروهی قرار دارند، میتواند فروش را بر یک اساس منظم هدایت کند.