بهبود تعامل مبتنی بر گفتار کاربر با لوازم خانگی هوشمند

[vc_row][vc_column][vc_column_text]امروزه لوازم خانگی هوشمند، با استفاده از رابط های کاربری کنترل می شوند. این رابط ها بعضاً می توانند گیج کننده و ناکارآمد بوده، باعث عدم رضایت کاربران شوند. یک روش برای برقراری تعامل بین انسان و دستگاه، گفتار است. زیرا ارتباط مبتنی بر گفتار آسان، طبیعی و کارآمد است. با همه این مزایا، استفاده از گفتار ممکن است باعث اشتباه فهمیده شدن منظور افراد توسط دستگاه شود. تولیدکنندگان دستگاه هوشمند برای کنترل دستگاه از مجموعه محدودی از کلمات استفاده می کنند که لازم است کاربران برای کار با دستگاه با این کلمات آشنا باشند. مشکل زمانی به وجود می آید که بین کلمات کنترلی دستگاه و کلماتی که کاربر برای برقراری ارتباط از آنها استفاده می کند، تفاوت ایجاد شود. در واقع دستگاه نمی تواند به نیاز کاربر پاسخ دهد و کاربر احساس نارضایتی می کند. در این پایان نامه با استفاده از ترکیب سیستم تشخیص فرامین صوتی با هستانشناسی به منظور درک معنا و مفهوم به جای درک ساختار فرامین توسط دستگاهها سعی در رفع چالش مذکور شده است. یکی از نیازهای اولیه برای داشتن هر سیستم تشخیص گفتار، وجود دادگان غنی برای آموزش و ارزیابی آن میباشد. با توجه به در دسترس نبودن دادگان حاوی فرامین صوتی برای کنترل لوازم خانگی هوشمند به زبان فارسی، در این پایان نامه به بررسی روند طراحی و جمع آوری یک مجموعه دادگان فرامین صوتی مستقل از گویشور برای کنترل لوازم خانگی هوشمند (تلویزیون، ضبط صوت، لامپ) مبتنی برگفتار فارسی پرداخته شده است. دادگان جمع آوری شده شامل 2737 فایل صوتی با حداقل طول 2 ثانیه و حداکثر 4 می باشد که در مدت زمان 1ساعت و 59 دقیقه و 50 ثانیه از 50 گویشور جمع آوری شده است. با توجه به این که یکی از راه های افزایش دقت سیستم های بازشناسی گفتار، بهبود مدل آوایی می باشد، در این پایان نامه از دو روش مدل مخفی مارکف (HMM) و شبکه عصبی حافظه کوتاه مدت ماندگار (LSTM) جهت ساخت مدل آوایی فارسی استفاده شده است. ویژگی های استخراج شده، ضرایب مل کپستروم، ضریب انرژی و مشتقات اول تا سوم می باشند. نتایج به دست آمده نشان می دهند که استفاده از روش حافظه کوتاه مدت ماندگار نسبت به روش مدل مخفی مارکف برای ساخت مدل آوایی دقت بازشناسی در سطح کلمه را به میزان 3 درصد بهبود داده است. همچنین استفاده از روش حافظه کوتاه مدت ماندگار به همراه هستان شناسی در تشخیص فرامین صوتی، در مقایسه با روش حافظه کوتاه مدت ماندگار بدون استفاده از هستان شناسی به میزان 50% بهبود داشته است. نکته ای که درباره (LSTM) وجود دارد این است که در این پایان نامه به دلیل محدودیت در حجم دادگان از (LSTM) به صورت یک شبکه عصبی ساده استفاده شده است که مانند (HMM) از گذار بین وضعیت ها استفاده نمی کند و نمی تواند مرزبندی و فاصله بین کلمات را تشخیص دهد. برای حل این مشکل تصمیم برآن شد که فایل به دست آمده از بازشناسی فرمان گفتار ورودی مبتنی بر مدل مخفی مارکف، بررسی شود و مرزبندی کلمات کلیدی تشخیص داده شده، و به عنوان ورودی به شبکه (LSTM)داده شود. لازم به ذکر است، سیستمی که در حالت واقعی مورد استفاده قرار می گیرد سیستم ترکیبی مبتنی بر (HMM) و (LSTM) است که در حالت استفاده از هستان شناسی نسبت به حالت بدون استفاده از هستان شناسی به میزان 50 درصد بهبود دقت تشخیص فرامین داشته است.[/vc_column_text]
Button Text
[/vc_column][/vc_row]
Rate this post
پیمایش به بالا