شکل ۵‑۶: نمودار پراکندگی داده های آزمون (مدل نخست LSSVM)
شکل ۵‑۷: نمودار پراکندگی کل داده ها (مدل نخست LSSVM)
به دلیل این که در مدل نخست یک روش فراکاوشی[۵۲] با یکی از رویکردهای یادگیری ماشین ترکیب شده است لذا، سرعت اجرای مدل بسیار کندتر از زمانی است که تنها یکی از این دو روش استفاده شود اما مدل ترکیبی در رسیدن به جواب دقیقتر بهتر کمک می کند. شکلهای (۵-۲) و (۵-۳) شیوه همگرایی مدل به سمت مقادیر بهینه پارامترهای تنظیم و کرنل را نشان میدهد که محور افقی شماره تکرار و محور قائم مقدار پارامترها را گزارش می کند. همان گونه که از این شکلها ملاحظه می شود، سرعت همگرایی الگوریتم اجتماع ذرات بالا بوده و در زمان کمتری در جهت رسیدن به بهترین جواب نسبت به دیگر روشهای فراکاوشی از قبیل الگوریتم ژنتیک، کولونی مورچهها و … به کاربر کمک می کند.
شکل (۵-۴) بیانگر هیستوگرام خطای داده های آزمون است که محور افقی نماینده خطای نسبی و محور قائم نیز نماینده فراوانی داده ها است. در نگاه اول به این شکل مشاهده می شود که میزان خطاهای شبیهسازی بالا به چشم می آید ولی در واقع برای شبیهسازی غلظت رسوبات رضایت بخش است زیرا پدیده رسوب ماهیت دینامیکی داشته و نیز برای انتقال آن نیاز به یک محرک دارد برای همین این وضعیت منجر به ایجاد همچین خطایی شده است. به عبارتی دیگر در اندازه گیری خصوصیات محرّک، که در اینجا آب است، اگر خطایی صورت گرفته باشد این خطا به مراتب بیشتری در مدل شبیهسازی انتقال رسوب خود را نشان میدهد. از منظری دیگر، خود واژه رسوب تعریف نشده بوده مگر این که یک محرّک مانند آب به آن معنا ببخشد و فرایند فرسایش و رسوبگذاری را به وجود بیاورد. برای همین میزان خطاها نسبت به رویکردهای متداول، که در ادامه به بحث آن پرداخته می شود، رضایتبخشتر میباشد.
شکلهای (۵-۵) تا (۵-۷) به نمودار پراکندگی معروف بوده که مقدار غلظتهای برآورد، محور قائم، را نسبت به غلظتهای اندازه گیری، محور افقی، نشان میدهد. همانطور که از این اشکال پیداست مدل توانسته با یک همبستگی نسبتاً رضایتبخشی به داده ها برازش شود ولی در بعضی جاها مشاهده می شود که نوسان برآورد غلظتهای بالا نسبت به غلظتهای پایین بسیار کمتر است. دلیل این چنین وضعیتی در دو چیز است؛ نخست اینکه هر چه میزان غلظت پایینتر باشد، دقت اندازه گیری آن پایینتر بوده و نیز طیق پیشگفتهها میزان خطای شبیهسازی برای داده های با غلظت پایین بیشتر و حتی در تعداد معدودی از داده های با غلظت نزدیک به صفر غلظت منفی به دست می آید، که در حدود ۵/۱ درصد کل داده ها میباشد، و غیر قابل قبول است دلیل وجود غلظتهای منفی را میتوان به ماهیت ریاضیاتی مدل ماشین بردار پشتیبان برگرداند در حالی که ماهیت رسوب، یک ماهیت فیزیکی است. دوم این که در مدل حداقل مربعات ماشین بردار پشتیبان کمینهسازی مربعات خطا را مدنظر قرار داده است نه خطای نسبی. و با توجه به این که داده ها محدوده وسیعی از غلظتها را شامل می شود، لذا مدل ترجیح میدهد که حین شبیهسازی خطای بیشتری را نسبت به مقادیر کوچکتر اختصاص بدهد تا مقادیر غلظت بالا. و از این طریق باعث کمینه کردن مربعات خطا همراه با حاشیه پیش بینی می شود.
نتایج مربوط به مدل نخست با تعدادی از رویکردهای متداول معروف نظیر رویکرد انجلاند و هانزن، رویکرد ایکرز و وایت، رویکرد گراف و رویکرد توان واحد جریان یانگ مقایسه شد. همان طور که در شکل (۵-۸) دیده می شود، رویکرد انجلاند و هانزن نرخ انتقال رسوبات کف را بیشتر از مقادیر واقعی غلظت رسوب برآورد نموده و در مقابل، به ترتیب اولویت رویکرد گراف و سپس رویکرد ایکرز و وایت غلظت رسوب را کم برآورد می کنند. رویکرد توان واحد جریان یانگ نسبت به سه روش متداول مذکور بهتر عمل نموده و همبستگی بیشتری با مقادیر مشاهداتی دارد. مدل حداقل مربعات رگرسیون بردار پشتیبان نوسان پایینتری نسبت به روشهای دیگر داشته و دارای تراکم بیشتری در اطراف نیمساز ربع اول است و به طور کلی توانسته است نرخ انتقال کل رسوبات کف آبراهه ها را نسبت به رویکردهای متداول بهتر برآورد کند. اما روش توان واحد جریان در غلظتهای پایینتر از ۵۰ ppm قابل مقایسه با روش رگرسیون بردار پشتیبان بوده و پیش بینی بهتری داشته است. تابع برآورد نهایی که توسط مدلسازی اولیه رویکرد نخست پیشنهاد می شود را میتوانید در رابطه (۱-۵) مشاهده نمائید. در این رابطه Xi ها، که i مقدار ۱ تا ۵۲۱ را به خود میگیرد، ویژگیهای ورودی کلیه داده های آموزشی و آزمون را شامل می شود و ضریب لاگرانژ متناظر نمونه iام است. برای برآورد داده های راستسنجی میتوان ویژگیهای ورودی هر کدام از نمونهها را جایگزین X کرد که در نهایت مقدار خروجی مربوطه بیانگر میزان غلظت نمونه مزبور میباشد.
(۵‑۱)
شکل ۵‑۸: مقایسه مدل اولیه حداقل مربعات ماشین بردار پشتیبان با روشهای متداول
با توجه به این نکته که روش توان واحد جریان یانگ نسبت به دیگر رویکردهای متداول قابلیت برآورد بهتر غلظت مواد رسوبی کف را داشته است، نویسنده را واداشت تا با بهره گیری از رویکرد توان واحد جریان و اضافه نمودن پارامترهای روش مربوطه به مدل پیشنهادی بتوان برآورد بهتری از غلطت مواد رسوبی کف داشت. آقای یانگ از چهار پارامتر بدون بعد به صورت ذیل استفاده نموده است:
(۵‑۲)
که سرعت سقوط ذره رسوبی، سرعت برشی، شیب خط انرژی، سرعت بحرانی و V سرعت جریان میباشد. از بین این متغیرها، سرعت سقوط ذرات و سرعت بحرانی نامعلوم هستند و قبل از وارد نمودن در مدل باید تعیین شوند. یانگ برای تعیین سرعت بحرانی رابطهای را ارائه نموده است که در فصل دو ذکر آن رفت. برای تعیین سرعت سقوط ذرات نیز از رابطه ارائه شده توسط سولسبی استفاده شده است. سولسبی رابطه (۵-۳) را برای سرعت سقوط ذرات رسوب پیشنهاد نمود که بر حسب قطر بدون بعد ذره بدست می آید (Soulsby, 1997). معادله (۵-۴) روش محاسبه قطر بدون بعد ذره را نشان میدهد.
(۵‑۳)
(۵‑۴)
با به دست آوردن متغیرهای سرعت سقوط و سرعت بحرانی و در نتیجه با اضافه کردن چهار پارامتر بدون بعد اخیر به پارامترهای مدل نخست، شبیهسازی دیگری نیز انجام شد و نتایج نسبتاً بهبود یافت اما به صورت گرافیکی قابل مشاهده نبودند. برای همین نمودار پراکندگی آن نمایش داده نشده است. با اضافه نمودن این چهار پارامتر، هنوز ضعفهای مدل اولی برطرف نشده و غلظتهای پایین دارای نوسان برآورد بالا و در تعداد معدودی نیز هنوز مقادیر منفی پیش بینی می شود. مقادیر مربوط به پارامتر تنظیم و پارامتر کرنل در مدلسازی ثانویه به ترتیب مساوی با ۰۵۴۲/۳۹ و ۱۱۰۱/۱۷ به دست آمدند. با جستوجو در مبانی نظری هیدرولیک رسوبات و مرور رویکردهای پیشین، دیده می شود که اکثر روابط به صورت لگاریتمی گزارش شده اند. حتی اگر به رابطه یانگ نظر بیفکنیم، میبینیم که پارامترهای بدون بعد با مقیاس لگاریتمی به هم پیوند خوردهاند. برای همین در مدلسازی نهایی همه ورودی ها و خروجیها را به صورت لگاریتمی در مبنای ۱۰ مقیاس نموده و دوباره شبیهسازی دیگری بر روی کلیه پارامترها انجام می شود. و در انتهای شبیهسازی مقادیر خروجی را به مقیاس اولیه خود برگردانده و با مدلسازی ثانویه که بهتر از مدل اولیه گزارش شده است، مقایسه ای به صورت گرافیکی انجام گرفت که در شکل (۵-۹) قابل مشاهده است. در اینجا نیز مقادیر مربوط به پارامتر تنظیم و پارامتر کرنل به ترتیب مساوی با ۵۷۵۱/۱ و ۹۱۶۹/۰ به دست آمدند. تابع برآورد مربوط به مدل نهایی رویکرد نخست را میتوانید در رابطه زیر مشاهده نمائید. مقیاسهای لگاریتمی در مبنای ۱۰ هستند.
(۵‑۵)
شکل ۵‑۹: مقایسه مدل ثانویه LSSVR با مدل نهایی (مقیاس لگاریتمی)
در این تحقیق عملکرد مدل با بررسی تفاضل بین مقادیر مشاهدهای و مقادیر پیش بینی شده متغیرهای وابسته (غلظت رسوب)، یا به عبارتی با بررسی خطاها سنجیده می شود.
روشهای صحت سنجی آماری که در این پایان نامه مورد استفاده قرار میگیرند، عبارتند از:
ضریب تعیین چندگانه[۵۳] شاخصی آماری است که معمولاً برای تحلیلهای رگرسیونی کاربرد دارد. این شاخص بسیار مفید بوده چون نسبت واریانس یک متغیر را که توسط متغیرهای دیگری قابل پیش بینی است، میدهد. این شاخص[۵۴] دقت مدل را با یک مدل ساده و معیار میسنجد و اطلاعات مفیدی را در مورد نکویی برازش[۵۵] به ما میدهد. یک برازش عالی[۵۶] مقدار ضریب تشخیصِ برابر با یک، برازش نسبتاً خوب مقدارِ نزدیک به یک، و یک برازش بد[۵۷] مقدار نزدیک به صفر را نتیجه میدهد. همچنین ممکن است مقدار ضریب تعیینِ چندگانه منفی شود که نشان دهندهء این است که مدل نمیتواند برای دادههایی که موجب آموزش ماشین میشوند، پیش بینی خوبی انجام دهد. فرمولی که برای ضریب تعیین چندگانه مورد استفاده قرار میگیرد به صورت زیر است:
(۵‑۶)
(۵‑۷)
(۵‑۸)
(۵‑۹)
(۵‑۱۰)
که مقادیر مشاهدهای، مقادیر شبیهسازی شده و متوسط مقادیر مشاهدهای میباشد.
این شاخص نباید با مجذور ضریب همبستگی[۵۸] یکی در نظر گرفته شود تنها زمانی این دو مقدار با هم برابرند که از تحلیل رگرسیون خطی ساده[۵۹] برای شبیهسازی استفاده شود ولی هنگام به کارگیری تکنیکهای مدلسازی مانند ماشین بردار پشتیبان با هم تفاوت دارند. همچنین باید توجه داشته باشیم که هنگام شبیهسازی با داده های آزمون، ضریب تشخیص به وسیله میانگین داده های آزمون محاسبه می شود. به هر حال، استثناهایی وجود دارد که باعث می شود فقط به ضریب تعیین چندگانه، به عنوان یک شاخص برای بررسی عملکرد درست مدل، اکتفا نشود.
ضریب همبستگی اندازهای است که بیان می کند که مقادیر اندازه گیری و شبیهسازی به چه میزان به هم همبسته هستند ( به عبارتی دیگر، وقتی مقادیر اندازه گیری افزایش مییابند، مقادیر شبیهسازی شده هم سیر افزایشی دارند یا برعکس).
(۵‑۱۱)
مقادیر ضریب همبستگی بین صفر و یک است و هر چه این مقدار به یک نزدیکتر باشد، مقادیر اندازه گیری و شبیهسازی همبستگی بیشتری نسبت به هم دارند و بالعکس. به طور کلی همبستگی بزرگتر از ۸۵/۰ قوی، و همبستگی کوچکتر از ۵/۰ ضعیف خوانده می شود.
میانگین مربعات خطا[۶۰]، یک مقیاس آماری از تفاضل بین مقادیر هدفِ مجموعه داده های مشاهدهای و مقادیر خروجی شبیهسازی شده از طریق مدل است. این شاخص، میانگین کلیه مربعات تفاضل مقادیر شبیهسازی و مقادیر واقعی است. مقادیر خطا به این دلیل به توان دو میرسند تا اثر مقادیر بزرگِ خطا را بهتر نشان دهند و از طرفی دیگر تا اثر مقادیر مثبت و منفی ناشی از تفریق را حذف کنند. جذر میانگین مربعات خطا[۶۱] هم، همانطور که از اسم آن پیداست، ریشه دوم میانگین مربعات خطاها است.
(۵‑۱۲)
شاخص پراکندگی[۶۲]، مقیاسی است که میزان پراکندگی داده ها را برحسب درصد نسبت به نیمساز ربع اول سیستم دکارتی در نمودار پراکندگی نشان میدهد. مقدار این شاخص از تقسیم جذر میانگین مربعات خطا بر متوسط مقادیر اندازه گیری به دست می آید.
(۵‑۱۳)
همچنین ممکن است که کیفیت مدلسازی با خطای نسبی[۶۳] سنجیده شود که طبق تعریف برابر با نسبت میانگین قدر مطلق خطاها بر متوسط مقادیر مشاهدهای است و مقدار آن برحسب درصد میباشد.
(۵‑۱۴)
با بهره گرفتن از شاخص های مذکور میتوان قابلیت عملکرد مدل حداقل مربعات رگرسیون بردار پشتیبان را همراه با رویکردهای متداول به طور عام سنجید. همانگونه که در جدول (۵-۱) مشاهده می شود، هر سه مدل شبیهسازی به مراتب بهتر از رویکردهای متداول عمل کرده و مقادیر شبیهسازی دارای همبستگی بالایی با مقادیر مشاهدهای و مقادیر خطاها و خطای نسبی مدل LSSVR بسیار پایینتر از روشهای مرسوم است. این نتایج برتری روش رگرسیون بردار پشتیبان را بر رویکردهای متداول تضمین نموده و میتوان از این مدل به عنوان یک روش جایگزین استفاده نمود.
همانطور که پیشتر ذکر شد، اضافه نمودن چهار پارامتر بدون بعد یانگ به مدل رگرسیون بردار پشتیبان، تا حدی باعث بهبود نتایج نسبت به مدلسازی نخست شد. اما نکته قابل توجه در این است هنگامی که کلیه پارامترهای بدون بعد ورودی و خروجی به مدل را در مقیاس لگاریتمی در مبنای ۱۰ وارد مدل میشوند، از طرقی دیده می شود که مقادیر جذر میانگین مربعات خطاها و شاخص پراکندگی افزایش یافته و به تبع آن مقادیر ضریب همبستگی و ضریب تعیین چندگانه کاهش مییابند. ولی از طرف دیگر مشاهده می شود که درصد دادههایی که خطای نسبی آنها از ۴۰ درصد پایینتر است بیشتر شده و باعث کاهش پراکندگی و توزیع بهتر نمودار هیستوگرام خطاها می شود. به نظر میرسد دو معیار جذر میانگین مربعات
[یکشنبه 1400-08-16] [ 01:58:00 ق.ظ ]
|