شکل ‏۵‑۶: نمودار پراکندگی داده ­های آزمون (مدل نخست LSSVM)

شکل ‏۵‑۷: نمودار پراکندگی کل داده ­ها (مدل نخست LSSVM)
به دلیل این که در مدل نخست یک روش فراکاوشی[۵۲] با یکی از رویکردهای یادگیری ماشین ترکیب شده است لذا، سرعت اجرای مدل بسیار کندتر از زمانی است که تنها یکی از این دو روش استفاده شود اما مدل ترکیبی در رسیدن به جواب دقیق­تر بهتر کمک می­ کند. شکل­های (۵-۲) و (۵-۳) شیوه همگرایی مدل به سمت مقادیر بهینه پارامترهای تنظیم و کرنل را نشان می­دهد که محور افقی شماره تکرار و محور قائم مقدار پارامترها را گزارش می­ کند. همان گونه که از این شکل­ها ملاحظه می­ شود، سرعت همگرایی الگوریتم اجتماع ذرات بالا بوده و در زمان کم­تری در جهت رسیدن به بهترین جواب نسبت به دیگر روش­های فراکاوشی از قبیل الگوریتم ژنتیک، کولونی مورچه­ها و … به کاربر کمک می­ کند.
شکل (۵-۴) بیانگر هیستوگرام خطای داده ­های آزمون است که محور افقی نماینده خطای نسبی و محور قائم نیز نماینده فراوانی داده ­ها است. در نگاه اول به این شکل مشاهده می­ شود که میزان خطاهای شبیه­سازی بالا به چشم می ­آید ولی در واقع برای شبیه­سازی غلظت رسوبات رضایت بخش است زیرا پدیده رسوب ماهیت دینامیکی داشته و نیز برای انتقال آن نیاز به یک محرک دارد برای همین این وضعیت منجر به ایجاد همچین خطایی شده است. به عبارتی دیگر در اندازه ­گیری خصوصیات محرّک، که در این­جا آب است، اگر خطایی صورت گرفته باشد این خطا به مراتب بیشتری در مدل شبیه­سازی انتقال رسوب خود را نشان می­دهد. از منظری دیگر، خود واژه رسوب تعریف نشده بوده مگر این که یک محرّک مانند آب به آن معنا ببخشد و فرایند فرسایش و رسوب­گذاری را به وجود بیاورد. برای همین میزان خطاها نسبت به رویکردهای متداول، که در ادامه به بحث آن پرداخته می­ شود، رضایت­بخش­تر می­باشد.
پایان نامه - مقاله - پروژه
شکل­های (۵-۵) تا (۵-۷) به نمودار پراکندگی معروف بوده که مقدار غلظت­های برآورد، محور قائم، را نسبت به غلظت­های اندازه ­گیری، محور افقی، نشان می­دهد. همان­طور که از این اشکال پیداست مدل توانسته با یک همبستگی نسبتاً رضایت­بخشی به داده ­ها برازش شود ولی در بعضی جاها مشاهده می­ شود که نوسان برآورد غلظت­های بالا نسبت به غلظت­های پایین بسیار کمتر است. دلیل این چنین وضعیتی در دو چیز است؛ نخست این­که هر چه میزان غلظت پایین­تر باشد، دقت اندازه ­گیری آن پایین­تر بوده و نیز طیق پیش­گفته­ها میزان خطای شبیه­سازی برای داده ­های با غلظت پایین بیشتر و حتی در تعداد معدودی از داده ­های با غلظت نزدیک به صفر غلظت منفی به دست می ­آید، که در حدود ۵/۱ درصد کل داده ­ها می­باشد، و غیر قابل قبول است دلیل وجود غلظت­های منفی را می­توان به ماهیت ریاضیاتی مدل ماشین بردار پشتیبان برگرداند در حالی که ماهیت رسوب، یک ماهیت فیزیکی است. دوم این که در مدل حداقل مربعات ماشین بردار پشتیبان کمینه­سازی مربعات خطا را مدنظر قرار داده است نه خطای نسبی. و با توجه به این که داده ­ها محدوده وسیعی از غلظت­ها را شامل می­ شود، لذا مدل ترجیح می­دهد که حین شبیه­سازی خطای بیشتری را نسبت به مقادیر کوچک­تر اختصاص بدهد تا مقادیر غلظت بالا. و از این طریق باعث کمینه کردن مربعات خطا همراه با حاشیه پیش ­بینی می­ شود.
نتایج مربوط به مدل نخست با تعدادی از رویکردهای متداول معروف نظیر رویکرد انجلاند و هانزن، رویکرد ایکرز و وایت، رویکرد گراف و رویکرد توان واحد جریان یانگ مقایسه شد. همان طور که در شکل (۵-۸) دیده می­ شود، رویکرد انجلاند و هانزن نرخ انتقال رسوبات کف را بیشتر از مقادیر واقعی غلظت رسوب برآورد نموده و در مقابل، به ترتیب اولویت رویکرد گراف و سپس رویکرد ایکرز و وایت غلظت رسوب را کم برآورد می­ کنند. رویکرد توان واحد جریان یانگ نسبت به سه روش متداول مذکور بهتر عمل نموده و همبستگی بیشتری با مقادیر مشاهداتی دارد. مدل حداقل مربعات رگرسیون بردار پشتیبان نوسان پایین­تری نسبت به روش­های دیگر داشته و دارای تراکم بیشتری در اطراف نیمساز ربع اول است و به طور کلی توانسته است نرخ انتقال کل رسوبات کف آبراهه­ ها را نسبت به رویکردهای متداول بهتر برآورد کند. اما روش توان واحد جریان در غلظت­های پایین­تر از ۵۰ ppm قابل مقایسه با روش رگرسیون بردار پشتیبان بوده و پیش ­بینی بهتری داشته است. تابع برآورد نهایی که توسط مدل­سازی اولیه­ رویکرد نخست پیشنهاد می­ شود را می­توانید در رابطه­ (۱-۵) مشاهده نمائید. در این رابطه Xi ها، که i مقدار ۱ تا ۵۲۱ را به خود می­گیرد، ویژگی­های ورودی کلیه­ داده ­های آموزشی و آزمون را شامل می­ شود و  ضریب لاگرانژ متناظر نمونه­ iام است. برای برآورد داده ­های راست­سنجی می­توان ویژگی­های ورودی هر کدام از نمونه­ها را جایگزین X کرد که در نهایت مقدار خروجی مربوطه بیانگر میزان غلظت نمونه­ مزبور می­باشد.
(‏۵‑۱)
شکل ‏۵‑۸: مقایسه مدل اولیه حداقل مربعات ماشین بردار پشتیبان با روش­های متداول
با توجه به این نکته که روش توان واحد جریان یانگ نسبت به دیگر رویکردهای متداول قابلیت برآورد بهتر غلظت مواد رسوبی کف را داشته است، نویسنده را واداشت تا با بهره­ گیری از رویکرد توان واحد جریان و اضافه نمودن پارامترهای روش مربوطه به مدل پیشنهادی بتوان برآورد بهتری از غلطت مواد رسوبی کف داشت. آقای یانگ از چهار پارامتر بدون بعد به صورت ذیل استفاده نموده است:
(‏۵‑۲)
که  سرعت سقوط ذره رسوبی،  سرعت برشی،  شیب خط انرژی،  سرعت بحرانی و V سرعت جریان می­باشد. از بین این متغیرها، سرعت سقوط ذرات و سرعت بحرانی نامعلوم هستند و قبل از وارد نمودن در مدل باید تعیین شوند. یانگ برای تعیین سرعت بحرانی رابطه­ای را ارائه نموده است که در فصل دو ذکر آن رفت. برای تعیین سرعت سقوط ذرات نیز از رابطه ارائه شده توسط سولسبی استفاده شده است. سولسبی رابطه (۵-۳) را برای سرعت سقوط ذرات رسوب پیشنهاد نمود که بر حسب قطر بدون بعد ذره بدست می ­آید (Soulsby, 1997). معادله (۵-۴) روش محاسبه قطر بدون بعد ذره را نشان می­دهد.
(‏۵‑۳)
(‏۵‑۴)
با به دست آوردن متغیرهای سرعت سقوط و سرعت بحرانی و در نتیجه با اضافه کردن چهار پارامتر بدون بعد اخیر به پارامترهای مدل نخست، شبیه­سازی دیگری نیز انجام شد و نتایج نسبتاً بهبود یافت اما به صورت گرافیکی قابل مشاهده نبودند. برای همین نمودار پراکندگی آن نمایش داده نشده است. با اضافه نمودن این چهار پارامتر، هنوز ضعف­های مدل اولی برطرف نشده و غلظت­های پایین دارای نوسان برآورد بالا و در تعداد معدودی نیز هنوز مقادیر منفی پیش ­بینی می­ شود. مقادیر مربوط به پارامتر تنظیم و پارامتر کرنل در مدل­سازی ثانویه به ترتیب مساوی با ۰۵۴۲/۳۹ و ۱۱۰۱/۱۷ به دست آمدند. با جست­و­جو در مبانی نظری هیدرولیک رسوبات و مرور رویکردهای پیشین، دیده می­ شود که اکثر روابط به صورت لگاریتمی گزارش شده ­اند. حتی اگر به رابطه یانگ نظر بیفکنیم، می­بینیم که پارامترهای بدون بعد با مقیاس لگاریتمی به هم پیوند خورده­اند. برای همین در مدل­سازی نهایی همه ورودی­ ها و خروجی­ها را به صورت لگاریتمی در مبنای ۱۰ مقیاس نموده و دوباره شبیه­سازی دیگری بر روی کلیه پارامترها انجام می­ شود. و در انتهای شبیه­سازی مقادیر خروجی را به مقیاس اولیه خود برگردانده و با مدل­سازی ثانویه که بهتر از مدل اولیه گزارش شده است، مقایسه­ ای به صورت گرافیکی انجام گرفت که در شکل (۵-۹) قابل مشاهده است. در اینجا نیز مقادیر مربوط به پارامتر تنظیم و پارامتر کرنل به ترتیب مساوی با ۵۷۵۱/۱ و ۹۱۶۹/۰ به دست آمدند. تابع برآورد مربوط به مدل نهایی رویکرد نخست را می­توانید در رابطه­ زیر مشاهده نمائید. مقیاس­های لگاریتمی در مبنای ۱۰ هستند.
(‏۵‑۵)
شکل ‏۵‑۹: مقایسه مدل ثانویه LSSVR با مدل نهایی (مقیاس لگاریتمی)
در این تحقیق عملکرد مدل با بررسی تفاضل بین مقادیر مشاهده­ای و مقادیر پیش ­بینی شده متغیرهای وابسته (غلظت رسوب)، یا به عبارتی با بررسی خطاها سنجیده می­ شود.
روش­های صحت سنجی آماری که در این پایان نامه مورد استفاده قرار می­گیرند، عبارتند از:
ضریب تعیین چندگانه[۵۳] شاخصی آماری است که معمولاً برای تحلیل­های رگرسیونی کاربرد دارد. این شاخص بسیار مفید بوده چون نسبت واریانس یک متغیر را که توسط متغیرهای دیگری قابل پیش ­بینی است، می­دهد. این شاخص[۵۴] دقت مدل را با یک مدل ساده و معیار می­سنجد و اطلاعات مفیدی را در مورد نکویی برازش[۵۵] به ما می­دهد. یک برازش عالی[۵۶] مقدار ضریب تشخیصِ برابر با یک، برازش نسبتاً خوب مقدارِ نزدیک به یک، و یک برازش بد[۵۷] مقدار نزدیک به صفر را نتیجه می­دهد. همچنین ممکن است مقدار ضریب تعیینِ چندگانه منفی شود که نشان دهندهء این است که مدل نمی­تواند برای داده­هایی که موجب آموزش ماشین می­شوند، پیش ­بینی خوبی انجام دهد. فرمولی که برای ضریب تعیین چندگانه مورد استفاده قرار می­گیرد به صورت زیر است:
(‏۵‑۶)
(‏۵‑۷)
(‏۵‑۸)
(‏۵‑۹)
(‏۵‑۱۰)
که  مقادیر مشاهده­ای،  مقادیر شبیه­سازی شده و  متوسط مقادیر مشاهده­ای می­باشد.
این شاخص نباید با مجذور ضریب همبستگی[۵۸] یکی در نظر گرفته شود تنها زمانی این دو مقدار با هم برابرند که از تحلیل­ رگرسیون خطی ساده[۵۹] برای شبیه­سازی استفاده شود ولی هنگام به کارگیری تکنیک­های مدلسازی مانند ماشین بردار پشتیبان با هم تفاوت دارند. همچنین باید توجه داشته باشیم که هنگام شبیه­سازی با داده ­های آزمون، ضریب تشخیص به وسیله میانگین داده ­های آزمون محاسبه می­ شود. به هر حال، استثناهایی وجود دارد که باعث می­ شود فقط به ضریب تعیین چندگانه، به عنوان یک شاخص برای بررسی عملکرد درست مدل، اکتفا نشود.
ضریب همبستگی اندازه­ای است که بیان می­ کند که مقادیر اندازه ­گیری و شبیه­سازی به چه میزان به هم همبسته هستند ( به عبارتی دیگر، وقتی مقادیر اندازه ­گیری افزایش می­یابند، مقادیر شبیه­سازی شده هم سیر افزایشی دارند یا برعکس).
(‏۵‑۱۱)
مقادیر ضریب همبستگی بین صفر و یک است و هر چه این مقدار به یک نزدیک­تر باشد، مقادیر اندازه ­گیری و شبیه­سازی همبستگی بیشتری نسبت به هم دارند و بالعکس. به طور کلی همبستگی بزرگتر از ۸۵/۰ قوی، و همبستگی کوچکتر از ۵/۰ ضعیف خوانده می­ شود.
میانگین مربعات خطا[۶۰]، یک مقیاس آماری از تفاضل بین مقادیر هدفِ مجموعه داده ­های مشاهده­ای و مقادیر خروجی شبیه­سازی شده از طریق مدل است. این شاخص، میانگین کلیه مربعات تفاضل مقادیر شبیه­سازی و مقادیر واقعی است. مقادیر خطا به این دلیل به توان دو می­رسند تا اثر مقادیر بزرگِ خطا را بهتر نشان دهند و از طرفی دیگر تا اثر مقادیر مثبت و منفی ناشی از تفریق را حذف کنند. جذر میانگین مربعات خطا[۶۱] هم، همانطور که از اسم آن پیداست، ریشه دوم میانگین مربعات خطاها است.
(‏۵‑۱۲)
شاخص پراکندگی[۶۲]، مقیاسی است که میزان پراکندگی داده ­ها را برحسب درصد نسبت به نیم­ساز ربع اول سیستم دکارتی در نمودار پراکندگی نشان می­دهد. مقدار این شاخص از تقسیم جذر میانگین مربعات خطا بر متوسط مقادیر اندازه ­گیری به دست می ­آید.
(‏۵‑۱۳)
همچنین ممکن است که کیفیت مدل­سازی با خطای نسبی[۶۳] سنجیده شود که طبق تعریف برابر با نسبت میانگین قدر مطلق خطاها بر متوسط مقادیر مشاهده­ای است و مقدار آن برحسب درصد می­باشد.
(‏۵‑۱۴)
با بهره گرفتن از شاخص­ های مذکور می­توان قابلیت عملکرد مدل حداقل مربعات رگرسیون بردار پشتیبان را همراه با رویکردهای متداول به طور عام سنجید. همان­گونه که در جدول (۵-۱) مشاهده می­ شود، هر سه مدل شبیه­سازی به مراتب بهتر از رویکردهای متداول عمل کرده و مقادیر شبیه­سازی دارای همبستگی بالایی با مقادیر مشاهده­ای و مقادیر خطاها و خطای نسبی مدل LSSVR بسیار پایین­تر از روش­های مرسوم است. این نتایج برتری روش رگرسیون بردار پشتیبان را بر رویکردهای متداول تضمین نموده و می­توان از این مدل به عنوان یک روش جایگزین استفاده نمود.
همان­طور که پیش­تر ذکر شد، اضافه نمودن چهار پارامتر بدون بعد یانگ به مدل رگرسیون بردار پشتیبان، تا حدی باعث بهبود نتایج نسبت به مدل­سازی نخست شد. اما نکته قابل توجه در این است هنگامی که کلیه پارامترهای بدون بعد ورودی و خروجی به مدل را در مقیاس لگاریتمی در مبنای ۱۰ وارد مدل می­شوند، از طرقی دیده می­ شود که مقادیر جذر میانگین مربعات خطاها و شاخص پراکندگی افزایش یافته و به تبع آن مقادیر ضریب همبستگی و ضریب تعیین چندگانه کاهش می­یابند. ولی از طرف دیگر مشاهده می­ شود که درصد داده­هایی که خطای نسبی آن­ها از ۴۰ درصد پایین­تر است بیشتر شده و باعث کاهش پراکندگی و توزیع بهتر نمودار هیستوگرام خطاها می­ شود. به نظر می­رسد دو معیار جذر میانگین مربعات

موضوعات: بدون موضوع  لینک ثابت


فرم در حال بارگذاری ...