هوش تجاری (Business Intelligence)

هوش تجاری (Business Intelligence)

به اشتراک بگذاریم برای یادگیری، یاد بگیریم برای به اشتراک گذاری
هوش تجاری (Business Intelligence)

هوش تجاری (Business Intelligence)

به اشتراک بگذاریم برای یادگیری، یاد بگیریم برای به اشتراک گذاری

ساخت پارتیشن برای Cube

همانطور که پیش‌تر گفته شد، سه روش MOLAP، ROLAP و HOLAP برای ذخیره‌سازی اطلاعات در Cube وجود دارد.

در روش ذخیره سازی MOLAP، داده‌های جدیدی که وارد انبار داده می‌شوند در صورتی به Cube منتقل می‌شوند که مجدد پردازش شوند. گاهی ممکن است حجم اطلاعات بسیار زیاد باشد که این مسئله باعث طولانی شدن مدت زمان پردازش می‌شود. طولانی شدن مدت زمان پردازش علاوه بر حجم زیاد اطلاعات دلیل دیگری نیز دارد و آن پردازش تمامی اطلاعات موجود در انبار داده است. برای رفع این مشکل باید از قابلیت پارتیشن بندی Cube استقاده کنیم. اما باید پارتیشن را طوری طراحی کرد که به صورت داینامیک و بدون دخالت کاربر عمل ایجاد پارتیشن جدید انجام گیرد. به همین منظور در این مقاله به آموزش قدم به قدم و چگونگی ایجاد پارتیشن پویا (Dynamic) می‌پردازم.

در این آموزش فرض بر وجود دو گروه معیار (Measure Group) با نام های Sales و Order است.


 - پس از ایجاد Cube در SSAS به سربرگ Partition رفته و پارتیشن‌های ایجاد شده را حذف کنید.

 - برروی NewPartition.. مربوط به Sales کلیک کرده و پارتیشن جدیدی با نام Sales_1 ایجاد نمایید.

 - کوئری موجود در  پارتیشن را مطابق کد زیر قرار دهید.


SELECT * FROM [dbo].[sales] WHERE DDate>='1383/01/01' and DDate<'1383/01/10'


- همین کار را برای Order انجام دهید و در پایان نام آن را Order_1 قرار دهید.




حال Cube را پردازش کرده و از SSAS خارج شوید.


-مطابق تصویر زیر در   بر رویMicrosoft Analysis Services Sales_1 راست کلیک کنید و یک ((اسکریپتِ ایجاد)) ساخته و با نام CreatePartition-Sales_1 ذخیره نمایید.



-مجدد بر روی Sales_1 کلیک راست کرده و Process را انتخاب کنید.

-در صفحه‌ی باز شده بر روی Script کلیک کنید تا کد XML مربوط به پردازش نمایش داده شود. کد را با نام ProcessPartition-Sales_1 ذخیره نمایید.

-مراحل بالا را برای Order_1 انجام دهید. از نام‌های CreatePartition-Order _1 و ProcessPartition-Order _1  برای ذخیره فایل‌های XML استفاده کنید.


مطابق شکل زیر یک جدول با عنوان PartitionsLog ایجاد کنید.




سه رویه زیر را دریافت و ایجاد کنید.


FindIsProcess

Findinfo

InsertNewPartitionInfo



ممکن است پس از مدتی اطلاعات موجود در Fact در یک تاریخ خاصی که پارتیشن آن پیشتر ساخته شده است تغییر کند. از اینرو برای پردازش مجدد پارتیشن مذکور، کافیست فیلد IsProcess آن را به صفر تغییر دهید. Store Procedure اول برای انجام این کار ایجاد شده است.

دومین SP برای دریافت اطلاعات پارتیشن‌های قبلی جهت ساخت پارتیشن جدید ایجاد شده است.

سومین SP وظیفه ثبت اطلاعات پارتیشن جدید در PartitionsLog را دارد.

تا به اینجای کار مراحل اولیه آماده سازی شد، از این پس در SSIS به ایجاد یک Package برای ایجاد پارتیشن می‌پردازیم.

یک پروژه‌ی SSIS با نام Partition ایجاد کرده و مطابق شکل زیر در قسمت Variable متغیرها را تعریف نمایید.



در جدول زیر شرح مختصری از وظیفه متغیرها  آمده



برای ساخت XMLA جدید از آن استفاده می‌شود.

CreatePartitionXMLA

آدرس فایل‌های XMLA که پیشتر ساخته شده را در خود دارد.

Directory

مشخص کننده تاریخ شروع اطلاعات موجود در پارتیشن است.

FromDate

نشان دهنده وجود داشتن/ نداشتن پارتیشن است.

IsPartitionExists

نشان دهنده پارتیشن پردازش شده / پارتیشن پردازش نشده است.

IsProcess

اطلاعات مربوط به تکرار را در خود ذخیره می‌کند.

LoopFlag

کد گروه معیار را در خود جای می‌دهد.

MeasureGroupCode

نام پارتیشن در این متغیر قرار می‌گیرد.

PartitionName

شماره پارتیشن در این متغیر قرار می‌گیرد.

PartitionNumber

تعداد دفعات پردازش یک پارتیشن در این متغیر قرار می‌گیرد.

ProcessCount

جهت پردازش پارتیشن از این متغیر استفاده می‌شود.

ProcessPartitionXMLA

خروجی SP دوم که برای پردازش مجدد استفاده می‌شود در این متغیر قرار می‌گیرد.

Result

نتیجه پردازش مجدد

ResultReprocess

اطلاعات موجود در Fact تا این تاریخ در پارتیشن ثبت می‌شود.

ToDate


-مطابق شکل زیر 11 عدد Execute SQL Task، یک Analysis Services Processing Task، 2عدد For Loop Container، 4 عدد Analysis Services Execute DDL Task و 4 عدد Script Task به پروژه اضافه کرده و به هم متصل کنید.



با توجه به شماره‌های قرار گرفته بر روی هر کامپننت توضیحاتی میدهم که باید قدم به قدم اجرا شود.


1-      رویه Findisprocess را فراخوانی کرده تا اطلاعات پارتیشن‌هایی که فیلد IsProcess آن‌ها صفر است در متغیر‌ها قرار گیرد.

2-      تمامی دایمنشن‌ها را پردازش می‌کند.

3-      برای پردازش مجدد تمامی پارتیشن‌ها، یک حلقه ایجاد می‌کند و تا زمانی که نتیجه پردازش 1 است به کار خود ادامه می‌دهد.

4-      رویه Findisprocess را فراخوانی کرده تا تمامی اطلاعات مربوط به پارتیشن را دریافت کند.

5-      توسط این کامپننت می‌توانیم از زبان‌های برنامه نویسی C# و VB در پکیج استفاده کنیم. توسط مجموعه کد‌های نوشته شده در این قسمت تغییرات مورد نیاز جهت پردازش مجدد اعمال می‌شوند.

کدهای مربوط به کامپننت‌های  Script Task شماره 5 را از اینجا دریافت کنید.


6-      پارتیشن مورد نظر را پردازش می‌کند.

7-      فیلد‌های موجود در PartitionsLog بروز‌رسانی می‌شوند.

8-      گروه معیارها شناسایی می‌شوند.

9-      از آنجایی که دو گروه معیار داریم، برای ایجاد پارتیشن‌ به یک حلقه نیاز داریم. در این حلقه ابتدا در صورت نیاز آخرین پارتیشن‌ها پردازش می‌شوند و سپس پارتیشن‌های جدید ایجاد می‌شوند.

10-   تمامی اطلاعات مورد نیاز برای پردازش مجدد پارتیشن دریافت می‌شود.

11-   تغییرات مورد نیاز جهت پردازش مجدد اعمال می‌شوند.

کدهای مربوط به کامپننت‌  Script Task شماره 11 را از اینجا دریافت کنید.


12-   پارتیشن مورد نظر را پردازش می‌کند.

13-   فیلد‌های موجود در PartitionsLog بروز‌رسانی می‌شوند.

14-   تمامی اطلاعات مورد نیاز برای ایجاد و پردازش پارتیشن دریافت می‌شود.

15-   فایل‌های XMLA ایجاد شده در ابتدای پروژه را بازخوانی و متغیرهای مربوطه را بارگذاری می‌کند.

کدهای مربوط به کامپننت‌  Script Task شماره 15 را از اینجا دریافت کنید.


16-   اطلاعات مورد نیاز برای ایجاد و پردازش پارتیشن را آماده می‌کند.

کدهای مربوط به کامپننت‌  Script Task شماره 16 را از اینجا دریافت کنید.


17-   پارتیشن جدید را ایجاد می‌کند.

18-   پارتیشن ایجاد شده را پردازش می‌کند.

19-   اطلاعات مربوط به پارتیشن جدید توسط رویه InsertNewPartitionInfo ثبت می‌شود.

20-   مقدار فیلد LoopFlag  را به صفر تغییر می‌دهد. دلیل اینکار جلوگیری از تکرار بی‌دلیل در پردازش پارتیشن است.

21-   اطلاعات تکمیلی پارتیشن جدید را بروزرسانی می‌کند.

22-   مقدار فیلد LoopFlag  را به یک تغییر می‌دهد. دلیل اینکار فراهم نمودن شرایط تکرار در پردازش پارتیشن در صورت لزوم است.

کار تمام است! حال می‌توانید از Package خود استفاده کنید.


لازم به ذکر است که با کمی کار بیشتر و ایجاد تغییرات جزئی می‌توان این پکیج را بهینه‌ کرد.

شروع به کار با SSIS

در مقاله SSIS و کاربرد آن در پروژه به معرفی SSIS پرداخته شد و همچنین در مقالات دیگری (اینجا) با چند نمونه عملی به شرح بهتر و بیشتر آن پرداخته شد. اما اگر نیاز به آموزش قدم به قدم مفاهیم ابتدایی SSIS دارید می توانید از ماکروسافت  کمک بگیرید.

نحوه خواندن داده‌ها از شیرپوینت و بارگذاری در SQL توسط SSIS

امروزه استفاده از شیرپوینت به عنوان ابزار ایجاد کننده وب‌ سایت‌ به دلیل سرعت بالا در ایجاد و راه‌اندازی، بسیار گسترش پیدا کرده است و بسیاری از سازمان‌ها از آن استفاده می‌کنند. بنابراین می‌توان شیرپوینت را به عنوان منبع داد‌ه‌ها در نظر گرفت.

برای خواندن و بارگذاری داده‌های شیرپوینت در SQL Server از طریق SSIS چندین روش وجود دارد که در این مقاله به یکی از بهترین و ساده‌ترین آن‌ها که استفاده از SharePoint Web services است، می‌پردازم.


متن بالا مقدمه ای از مقاله "نحوه خواندن داده ها از شیرپوینت و بارگذاری در SQL توسط SSIS" است که میتوانید با مراجعه به لینک زیر و پرداخت هزینه اندکی آن را دریافت نمایید.

http://spdor.ir/p/83/ssis-sharepoint

ETL چیست؟

ETL مخفف Extract Transform and Load است که به معنای استخراج، پالایش و بارگذاری اطلاعات می‌باشد. از ETL در زمان ساخت انبار داده‌ها (Data Warehouse) استفاده می‌شود. فرایندی که به موجب آن اطلاعات از یک یا چند منبع مختلف جمع آوری، پالایش و در نهایت در انبار داده بارگذاری می‌شود.

نمی‌توان ETL و Data Warehouse را از یکدیگر جدا کرد. در واقع با انجام ETL، تحلیل و طراحی انجام گرفته برای  Warehouse به ثمر می‌رسد. پیشتر در مقاله " مراحل و نحوه بارگذاری داده ها در انبار داده "  به  ETL  پرداخته شده بود. در این مقاله به تشریح مراحل و ابزارهای ETL می‌پردازم.

Extract: منظور استخراج داده از یک یا چند منبع مختلف است. پس از آنکه تحلیل و طراحی مدل Warehouse به پایان رسید، نوبت به بارگذاری داده‌ها در آن می‌رسد. اما بارگذاری داده‌ها تابع قوانین خاصی هستند و باید به آن‌ها توجه شود. ابتدا باید منابعی که قرار است اطلاعات آن‌ها را در Warehouse داشته باشیم شناسایی کنیم و پس از آن داده‌ها را در یک محیط واسط قرار دهیم. این عملیات می‌تواند توسط یکی از ابزارهای ETL و یا Stored Procedureها، Functionها و کوئری‌ها انجام گیرد. منظور از محیط واسط یک بانک اطلاعاتی است که میان انبار داده‌ها و منابع داده قرار گیرد. دلیل استفاده از محیط واسط این است که معمولا داده‌های منبع نیاز به پالایش دارند که اولا این پالایش نباید در منبع داده‌ها انجام گیرد و دوما اطلاعاتی که در Warehouse بارگذاری می‌شوند باید به صورت پالایش شده باشد. باید در زمان استخراج، داده‌ها را از منابع مختلف  جمع آوری و در یک محیط واسط قرار دهیم.

Transform: منظور پالایش داده‌های استخراج شده است. پالایش داده‌ها بسیار مهم است چرا که بعد از پالایش داده‌ها باید آن‌ها را در انبار داده بارگذاری کرد. برای این کار از یک محیط واسط که کم و بیش شبیه انبار داده است استفاده میشود. پالایش داده‌ها شامل موارد زیر است.

·         بررسی کیفیت داده‌ها (Verify data quality)

کیفیت داده‌ها به وسیله پرسش‌هایی از قبیل سوالات زیر مورد بررسی قرار می‌گیرند: 

 آیا داده‌ها کامل هستند (مواردی مورد نیازمان را پوشش می‌دهند)؟

داده‌ها صحیح هستند یا اشتباهاتی دارند؟ اگر اشتباه هستند علت اشتباهات چیست؟

آیا ارزش‌های گم شده در داده وجود دارد؟ اگر اینگونه است آن‌ها چگونه نمایش داده می‌شود؟ عموماً در کجا اتفاق افتاده است؟

·  پاک‌سازی داده‌ها (Clean data)

بالا بردن کیفیت داده‌ها نیازمند انتخاب تکنیک آنالیز می‌باشد. این انتخاب شامل پاک کردن زیر مجموعه‌ای از داده‌های نامناسب و درج پیش‌فرض‌های مناسب می‌باشد.

·  شکل دادن داده‌ها (Construct data)

این قسمت شامل عملیات ویژه‌ای مانند تولید خصوصیت‌های مشتق شده، تولید رکوردهای جدید و کامل یا مقادیر تبدیل شده از خصوصیات موجود می‌باشد.

·  ادغام داده‌ها (Integrate data)

روش‌هایی وجود دارد که به وسیله آن اطلاعات از چند جدول ترکیب شده و رکوردهای جدید یا مقادیری جدیدی ایجاد می‌شود.

· قالب بندی داده‌ها (Format data)

منظور از قالب بندی داده‌ها، تغییر و تبدیل قواعد اولیه داده مورد نیاز ابزار مدل سازی می باشد.


Load: آخرین کاری که در ETL انجام می‌گیرد بارگذاری داده‌های استخراج و پالایش شده از منابع مختلف در انبار داده‌ها است. معمولا در زمان بارگذاری در انبار داده تغییرات خاصی روی داده‌ها انجام نمی‌گیرد و آن‌ها بدون هیچ تغییری از محیط واسط در انبار داده‌ها بارگذاری می‌شوند.

یکی از بهترین و قویترین ابزارها برای عملیات ETL، ابزار SSIS است که استفاده از آن سرعت و دقت در عملیات را بالا می‌برد.