تشخیص صدا
این مقاله نیازمند ویکیسازی است. لطفاً با توجه به راهنمای ویرایش و شیوهنامه، محتوای آن را بهبود بخشید. |
این مقاله به هیچ منبع و مرجعی استناد نمیکند. |
تشخیص صدا یا شناسایی گوینده (به انگلیسی: Speaker Recognition یا Speaker Identification) یکی از مسائل علوم رایانه و هوش مصنوعی و مهندسی صدا است که هدف آن شناسایی یک فرد تنها از روی صدای شخص است.
تشخیص صدا توسط مدل پنهان مارکوف
[ویرایش]یکی از اصلیترین ابزارهای ریاضی برای حل این مسئله مدلهای پنهان مارکوف یا به اختصار م.پ.م هستند.
برای حل این مسئله با استفاده از روش فوق، مدلهای آماری ابتدا باید مورد آموزش قرار بگیرند. بدین منظور ابتدا مقدار قابل توجهی از صدای ضبط شده افراد پردازش میشود. دادههای پردازش شده که در حقیقیت مجموعه عظیمی از اعداد میباشند، متناوباً مورد استفاده قرار میگیرند تا م.پ.م برای هر گوینده به دست آید. در حقیقت م.پ.مها مانند یک ماشین عمل میکنند که ورودی آنها یک سری دادهاست و خروجیشان یک عدد برای هر مجموعهای از دادهها، به این صورت که آن عدد نشان دهنده اختلاف دادههای ورودی با م.پ.م هر ماشین است. برای آموزش م.پ.م، در هر تناوب دادهها به م.پ.م داده میشود و پارامترهای م.پ.م ذرهای تغییر داده میشود تا عدد خروجی (که نشان دهنده اختلاف دادهها با م.پ.م است) کوچکتر شود. برای اطمینان از اینکه تغییر پارامترهای م.پ.م در جهت درست انجام میگیرد و نهایتاً به حداقل شدن عدد خروجی میانجامد از یک روش ریاضی به نام Expectation Maximization استفاده میشود.
در نهایت بعد از آموزش این مدلها که با استفاده از صدای مرجع انجام شده، میتوان برای آزمایش سامانه صدای یکی از افرادی که قبلاً از صدای وی برای آموزش م.پ.م استفاده شده را به هر یک از م.پ.مها داد. م.پ.مای که کوچکترین عدد را تولید میکند به عنوان فرد شناسایی شده در نظر گرفته میشود.
سامانه فوق به دلایل مختلفی احتمال خطا دارد. شباهت صدای افراد به یکدیگر (که گاهی انسانها را نیز به اشتباه میاندازد)، صداهای حاشیه (نوفه)، محدودیت حجم دادههای مرجع برای آموزش و غیره از جمله این اشتباهها هستند. برای بالا بردن ضریب اطمینان سامانه شناسایی گوینده روشهای مختلفی بکار میرود که هر ساله نیز با پیشرفت تحقیقات در دنیا به آنها اضافه میشود. از جمله استفاده ترکیبی از تشخیص گفتار و تشخیص صدا که در آن نه تنها صدای گوینده بلکه کلمه(های) وی نیز مورد آزمایش قرار میگیرند. گوینده باید کلمات مشخصی را بکار ببرد تا سامانه به وی اجازه عبور بدهد. همچنین میتوان از یک عدد حداکثر برای مقایسه اعداد خروجی م.پ.م استفاده کرد، بهطوریکه م.پ.م مورد نظر نه تنها باید کوچکترین عدد را بدهد بلکه باید این عدد از یک عدد مرجع نیز کوچکتر باشد. در نتیجه این تغییر در سامانه ضریب ایمنی سامانه بالا میرود. این ضریب ایمنی به قیمت بالا رفتن درصد ردّ افراد از روی خطا صورت میگیرد و باعث میشود شخصی که به او باید اجازه عبور داده شود چند بار رمز خود را برای سامانه تکرار کند. مانند تمام سامانههایی بهینهسازی پارامترهای مختلف برای بهترین عملکرد سامانه در شرایط مورد نیاز لازم است. (به عنوان مثال در ورودی اتاق کنترل یک نیروگاه هستهای نیاز به حفاظت زیادی دارد که ممکن است در مورد درب ورودی کتابخانه دانشگاه نیاز نباشد!)