فناوری تشخیص گفتار - Developer Center
Developer Center

بازگشت   Developer Center > مباحث عمومي نرم افزاري > هوش مصنوعی و روباتيك
ثبت نام راهنما فهرست کاربران تقویم جستجو ارسالهاي امروز نشانه گذاري انجمن ها به عنوان خوانده شده

پاسخ
 
ابزارهای موضوع نحوه نمایش
قدیمی Thursday 22 June 2006, 10:30 PM   #1
s.sepehrvand
مدير انجمن
 
s.sepehrvand آواتار ها
 
تاریخ عضویت: Thursday 1 January 1970
نوشته ها: 128
با تشکر: 11
تشکر شده 82 بار 33 پست
s.sepehrvand کاربر عادی
Post فناوری تشخیص گفتار

فناوری تشخیص گفتار به رایانه‌ای که توانایی دریافت صدا را دارد (برای مثال به یک میکروفن مجهز است) این قابلیت را می‌دهد که صحبت کاربر را متوجه شود. این فناوری در تبدیل گفتار به متن و یا به عنوان جایگزینی برای ارتباط با رایانه کاربرد دارد.

برقراري ارتباط گفتاري با كامپيوترها به جاي استفاده از صفحه كليد و ماوس يكي از زمينه‌هاي تحقيقاتي مهم چند دهه‌ي اخير بوده است و شركت‌هاي بزرگي چون IBM، ALIT، Philips و Microsoft سالانه هزينه‌هاي هنگفتي را براي اين منظور پرداخت کرده و مي‌كنند.
به عنوان يک کاربر کامپيوتر، احتمالاً با قابليت گفتاري مجموعه آفيس به عنوان يكي از ويژگي‌هاي جذاب و تا حدي فانتزي برخورد كرده و يا با آن كار كرده‌ايد. به کمک اين قابليت شما به جاي استفاده از صفحه كليد براي تايپ مطالبتان، به راحتي با خواندن متن مورد نظر و انتقال گفتارتان به كمك يك ميكروفون معمولي به کامپيوتر، آنرا در محيط Word تايپ شده مي‌بينيد. حتي براي ذخيره كردن، کپي کردن، گذاشتن عكس در متن و . . . به جاي كليك‌هاي پشت سر هم و گاهي با تعداد بالا، مي‌توانيد فرمان مربوطه را به كمك گفتار به نرم‌افزار داده تا كار شما را انجام دهد.

جداي از اينكه توانايي درست كاركردن اين قابليت آفيس چقدر باشد، يك محدوديت بزرگ در سر راه استفاده از آن براي ما ايرانيان وجود دارد: اين قابليت فقط براي زبان انگليسي است. (البته زبان‌هاي چيني يا ژاپني را نيز مي‌توان استفاده كرد!). ايجاد چنيني سيستمي كه آنرا تشخيص يا بازشناسي گفتار (Speech recognition) مي‌نامند، در زبان فارسي، چندين سال از تحقيقات محققان، اساتيد و دانشجويان دانشگاه‌هاي مختلف كشور را به خود اختصاص داده است. اما جدي‌ترين جهشي كه در حدود ده سال پيش در اين زمينه ايجاد شد، ايجاد دادگان گفتاري فارس‌دات و يك سيستم اوليه تشخيص گفتار فارسي در مركز هوشمند علائم بوده است.

در ادامه و در طي يکي-دو سال اخير، مهم‌ترين دستاورد در اين تكنولوژي براي زبان فارسي، سيستم‌هاي تشخيص گفتار شركت عصرگويش پرداز (ASR Gooyesh Pardaz ) http://www.asr-gooyesh.com است. اين شركت که توسط گروهي از اساتيد و دانشجويان دانشگاه صنعتي شريف ايجاد شده است، تنها فعاليت تخصصي خود را در زمينه پردازش سيگنال گفتار و بويژه تشخيص‌خودكار آن قرار داده است و نرم‌افزارهايي را براي انجام كار تشخيص خودكار گفتار توسعه داده است.

نرم‌افزار نويسا كه براي ديكته خودكار مي‌باشد و نرم‌افزار نيوشا كه جهت تشخيص گفتار از پشت خط تلفن توسعه داده شده است، از دستاوردهاي آنهاست. از نظر فني، معيارهايي چون وابسته يا متعلق بوده به گوينده بودن سيستم، اندازه و تعداد واژگان، پيوسته يا گسسته بودن گفتار ورودي، استفاده از محدوديت‌هاي زباني و كارايي در محيط‌هاي واقعي توانمندي سيستم‌هاي تشخيص گفتار را مشخص مي‌كند.
در كاربردهايي مانند تشخيص گفتار تلفني، اطن سيستم لزوماً بايد مستقل از گوينده باشند اما سيستم ديكته مي‌تواند وابسته به گوينده خاص باشد و براي آن گوينده سيستم بهترين كارايي را داشته باشد. در كاربردهاي واقعي معمولاً سيستم را مستقل از گوينده مي‌سازند و موقع استفاده به صداي گوينده خاصي آنرا اصطلاحاً تطبيق مي‌كنند.
اين كار در قابليت گفتاري مجموعه آفيس به كمك خواندن متون اوليه در ويزارد سيستم انجام مي‌شود، چنين قابليتي در سيستم نويسا نيز وجود دارد. هر چه تعداد واژگاني كه سيستم مي‌تواند تشخيص دهد بيشتر باشد، شباهت ميان كلمات بيشتر شده و در نتيجه كارايي سيستم به ‌علت افزايش اشتباهات كاهش پيدا مي‌كند.
از اينر‌رو در كاربرداهاي واقعي معمولآً فقط واژگان متناسب با كاربرد مورد نظر را انتخاب مي‌كنند تا محدود شود. در قابليت گفتاري آفيس هم كه ادعا مي‌شود اكثر كلمات انگليسي را دارد، كارايي به شدت پايين است (كارايي پايين آن به علت اين است كه ما غيرانگليسي زبان هستيم!) ولي در محصولات محدودتر اين شركت مانند قابليت گفتار I-mate كارايي به مراتب بهتر است. گفتار كاربر مي‌تواند پيوسته و طبيعي و يا با مكث ميان كلمات همراه باشد، بديهي است كه حالت اول مطلوب هركاربري است. يكي از مشكلاتي كه محصولات نويسا و نيوشا تا حدي زيادي آن را حل كرده‌اند، استخراج و به‌كارگيري قابليت‌هاي زباني، زبان فارسي در حد نسبتاً کاملي است.

اين اطلاعات زباني مي‌تواند در ساير نرم‌افزارهايي كه نياز به اطلاعات زباني دارند، مانند مترجم‌ها و نرم‌افزارهاي OCR نيز بكار گرفته شود. اثر صداهاي اضافي و ناخواسته در كاربردهاي واقعي نرم‌افزارهاي تشخيص گفتار را در عمل دچار افت شديد كارايي مي‌نمايد، در محصولات فارسي ارائه شده با رويكردهاي مختلفي اين نقصان تا حد زيادي جبران شده است.

منبع :http://www.algorithmnevis.com
__________________
موفق ترين افراد دنيا کساني هستند که بيش تر از همه جواب رد شنيده اند .
s.sepehrvand آنلاین نیست.   پاسخ با نقل قول

.......
پاسخ

ابزارهای موضوع
نحوه نمایش

قوانین ارسال
You may not post new threads
You may not post replies
You may not post attachments
You may not edit your posts

BB code is فعال
شکلک ها فعال است
کد [IMG] فعال است
کدهای HTML غیر فعال است
انتخاب سریع یک انجمن


اکنون ساعت 02:05 AM برپایه ساعت جهانی (GMT - گرینویچ) +3.5 می باشد.





Powered by vBulletin Version 3.7.3
Copyright ©2000 - 2010, Jelsoft Enterprises Ltd.

Persian Language By Persian Forum Ver 1.0