![]() |
|
|
|
#1 |
|
مدير بخش
![]() ![]() تاریخ عضویت: Sunday 20 November 2005
نوشته ها: 50
با تشکر: 0 تشکر شده 28 بار 15 پست ![]() ![]() ![]() ![]() |
امير شهاب شهابي( دانشگاه آزاد اسلامي) و دكتر عبدالحسين صراف زاده(استاد يار دانشگاه تربيت معلم )
در اين مقاله، خلاصه پژوهش هاي انجام شده در زمينه پردازش زبان فارسي اعم از واكافت ساختواژي، نحوي و معنايي،نحوه بازنمايي معناي جملات و به كارگيري دانش بازنمايي شده، درك متن فارسي و ساختار دستور زبان فارسي و نيز نظريه كشتاري چامسكي در ساختار زبان فارسي و پژوهش هايي از اين قبيل گردآوري گرديده اند. اين مجموعه مي تواند در ارائه طريق به پژوهشگراني كه هدفشان تحقيق در حوزه پردازش زبان فارسي است، كمك موثري باشد.در ضمن، به موانع موجود به خصوص در زمينه ابهام معنايي اشاره گرديده و در خاتمه راه حل مناسبي براي ترجمه ماشيني فارسي مورد بررسي قرار گرفته است. مقدمه ترجمه خود كار متون، جزو اولين كاربردهاي غير محاسبه اي كامپيوتر است. ايده ترجمه ماشيني اولين بار در بحثي بين وارن ويور و آندره بوث شكل گرفت ( بوث، 1953 ). مدل آنان بر اساس جداولي طراحي شده بود كه در آنها براي رمز گشايي، از تواتر كلمات و حروف استفاده مي شد. با پيدايش تكنيك هايي چون جست و جوي دودوئي و روش تقليل مسأله در الگوريتم هاي برنامه سازي و ايده ويرايش ثانويه در ترجمه، اعتقاد به عملي بودن ترجمه ماشيني قوت گرفت. در پايان دهه 50 و اوايل 60، COMIT به عنوان اولين زبان همه منظوره پردازش نماد مطرح شد و برنامه هاي كمكي واژه پرداز به مرحله پياده سازي رسيد. از سوي ديگر در زمينه زبان شناسي، نسبت به ساخت جملات زبان، ديد الگوريتميكي تحت عنوان دستور زبان گشتاري مطرح گرديد ( چامسكي، 1975 ) نتيجه پروژه هاي دهه 60 كه بيشتر از آنها براي مقاصد سياسي استفاده مي شد، پيدايش دو شاخه اصلي در روش هاي ترجمه ماشيني بود. يكي از اين روش ها استفاده از فرم هاي اصلاح شده دستور زبان گشتاري و ديگري استفاده از اطلاعات آماري در مورد نقش كلمات در جمله و ترجمه آنها بود. در پايان دهه 70، اعتقاد عمومي بر آن بود كه ترجمه ماشيني بايد پيچيده تر از جابه جايي و جايگذاري كلمات زبان مبدا براي رسيدن به زبان مقصد باشد و ماشين بايد به نوعي يك فهم از معناي هر دو نوشتار پيدا كند. اين اعتقاد راه را براي استفاده از تكنيك هاي جديد هوش مصنوعي و به خصوص پردازش زبان طبيعي در ترجمه ماشيني هموار كرد. در اين مقاله با مرور بر ادبيات تحقيق، ابتدا به پژوهش هايي كه در زمينه درك متن فارسي و چگونگي واكافت واژه اي، ساختواژي، نحوي ومعنايي صورت گرفته، اشاره شده است و سپس اجزا و اركان يك سامانه مترجم فارسي بيان و مهمترين ركن آن يعني رفع ابهام معنايي از كلمات جمله هاي فارسي، مطرح گرديده است. در ضمن، روش هاي مختلف حل اين مشكل به اختصار بررسي و در پايان به موانع پرداخته شده است. از آنجا كه در زمينه ترجمه ماشيني زبان فارسي كمتر مطالعه شده است، اين تحقيق سعي در تعميم مطالعات به زبان فارسي دارد. پردازش زبان فارسي در سال 1372، در آزمايشگاه پردازش زبان طبيعي داشنگاه صنعتي شريف، مهرنوش شمس فرد ( 1373 ) سامانه اي به نام دنا طراحي و پياده نمود. در اين سامانه با به كارگيري نظريه وابستگي مفهومي شنك ( 1975 )، جمله هاي فارسي به شبكه اي از مفهوم ها و روابط ميان آنها تبديل مي شوند. گام هاي گوناگون پردازش جملات عبارت اند از واكافت واژه اي، واكافت ساختواژي، واكافت نحوي، واكافت معنايي و استنتاج. پس از آن، سه پروژه ديگر با تمركز بر بخش هاي گوناگون سامانه دنا 1 تعريف و اجرا شدند. هر يك از اين پروژه ها سعي در گسترش يكي از بخش هاي اين سامانه داشتند. يكي از آنها پروژه اي است كه روي پردازش نحوي جمله هاي نسبتا پيچيده زبان فارسي از جمله گروه هاي اسمي و جمله هاي مركب متمركز بوده ( مهديه، 1376 ). پروژه ديگر به طراحي و پياده سازي بخش واژگان و نيز اركان ساختواژي پرداخته ( رضا نيا، 1376 ) و سرانجام سومين پروژه، بخش استنتاج گر را با عمق بيشتري مورد توجه قرار داده است ( امامي، 1376 ). براي درك جمله هاي زبان فارسي، پس از برداشتن گام هاي گوناگون در زمينه پردازش ساختواژي و نحوي و پيش از به كارگيري شيوه هاي استنتاج بايد چارچوب مناسبي براي بازنمايي معناي جمله ها در نظر گرفته شود تا ضمن پردازش معنايي، جمله ها به اين زبان بازنمايي تبديل شوند. با توجه به اهميت پردازش معنايي در يك سامانه درك متن و ضرورت كار بيشتر در اين زمينه، پروژه اي براي بررسي شيوه هاي بازنمايي معنا، و انتخاب يك شيوه مناسب براي سامانه دنا 2 تعريف شد كه در طي اجراي پروژه با بررسي برخي شيوه هاي بازنمايي معنا، روش گراف هاي مفهومي به دليل تمركز تعداد زيادي از سامانه هاي زبان طبيعي بر آن، به عنوان شيوه مناسب تر انتخاب شد ( فضلي، 1377 ). در تحقيق ديگري ( شهابي، 1376 )، ابتدا،جمله هاي فارسي در محدوده معنايي خاص ( درخواست اشتغال به كار افراد براي يك سازمان ) توسط سيستم طراحي شده اخذ مي شد. در گام اول، پردازش روي شناخت واژه هاي آن و يا به عبارت ديگر واكافت واژه اي صورت مي گرفت كه هر نشانه از جمله با حروف آن خوانده مي شد و پس از اتمام كلمه، تشخيص داده مي شد كه چه كلمه اي است و آيا جزو كلمات با معني زبان است يا خير؟ سپس، گام دوم يعني واكافت ساختواژي شروع مي شد. به اين معنا كه آيا كلمه هاي مركب از تركيب صحيحي تشكيل شده اند يا خير؟ پس از آن، گام سوم يعني واكافت نحوي صورت مي گرفت. يعني آيا كلمه هاي تشكيل دهنده جمله دستور زبان فارسي را رعايت كرده اند و آيا جمله مزبور متعلق به زبان مي باشد يا خير؟ اين كار را سيستم به كمك دستور زباني كه براي جمله هاي فارسي در آن تعبيه شده است انجام مي دهد. اين دستور زبان كليه جمله هاي فارسي را شامل مي شود و در واقع پايانه هاي آن به كلمه فارسي ختم مي شود و در واقع پايانه هاي آن به كلمه هاي فارسي ختم مي شود ( باطني، 1374 )، پس از اينكه جمله اصلي تشخيص داده شد، شايد ژرف ساخت نياز به به تبديل داشته باشد؛ مثلا براي به دست آوردن جمله هاي سوالي يا مجهول و غيره احتياج به نوعي گشتار است كه ژرف سخت به رو ساخت تبديل نمايد ( مشكوة الديني، 1374 ) كه سيستم با وجود گشتارهاي موجود روي زبان با تبديل ژرف ساخت به رو ساخت به جمله مزبور مي رسد و واكافت نحوي پايان مي يابد. گام بعدي، واكافت معنايي يا استنباط معنا از جمله مذكور است. در اين مرحله از يك شبكه معنايي به عنوان بازنمايي دانش موجود درمعناي جمله استفاده شده است. در يك تحقيق ديگر ( شريفي، 1376 )، درك معناي جمله ها در ترجمه ماشيني به شكل ديگري صورت گرفته است و از هيچ يك از روش هاي فوق براي رسيدن به معناي جمله و تگهداري آن در يك پايگاه دانش استفاده نشده است. در اين روش سعي شده است روشي جهت ماشيني كردن عمل ترجمه از يك زبان محاوره اي به زبان محاوره اي ديگر ارائه شود. براي رسيدن به اين مقصود با در توجه به پيدايش شاخه هاي جديد هوش مصنوعي در زمينه شبيه سازي رفتار انسان و يادگيري ماشين، چگونگي پياده سازي مترجم در قالب يك سيستم يادگيرنده ارائه شده است. اين مترجم با استفاده از تجربيات قبلي خود در زمينه ترجمه تك تك كلمات و ترتيب قرار گرفتن آنها در جمله،ترجمه جملات با ساختارها و كلمات جديد را حدس مي زند و به صورت پويا به تكميل دانش خود در اين زمينه مي پردازد. از آنجا كه در اين روش ترجمه، براي طراحي الگوريتم هاي ارائه شده جهت ايجاد پايگاه دانش و استنتاج دانش از آن از هيچ گونه اطلاعات پيش فرضي در زمينه چگونگي ساختار جملات زبان هاي مبدا و مقصد و نقش كلمات در جمله استفاده نشده است، مترجم حاضر مستقل از زبان هاي مبدا و مقصد، توانايي انجام عمل ترجمه از هر زبان به زبان ديگر را دارد. ترجمه ماشيني براي اينكه بتوان جمله اي را از يك زبان ترجمه و به زبان ديگري تبديل نمود، ابتدا به يك روال تشخيص واژه ها يا واكافت واژه اي و واكافت ساختواژي نياز مي باشد، به طوري كه كلمات ساده و مركب آن زبان از ورودي تشخيص داده شود. سپس بايد تركيب كلمات از نظر نحوي صحيح باشد و جمله متعلق به آن زبان را ايجاد نمايد. حال براي اينكه اين جمله به زبان ديگري برگردان شود، بايد نقش و معناي هر كلمه مشخص و با توجه به دستور زبان مقصد و ترجمه كلمه با توجه به نقش آن، جمله زبان مقصد توليد شود. بنابراين ديده مي شود كه مهمترين بخش، مشخص كردن نقش و معناي كلمات مي باشد نقش كلمات با توجه به محل قرار گرفتن آن در جمله مشخص مي گردد، اما مسئله مهم معني كلمات مي باشد؛ جرا كه تعدادي از كلمات داراي چند معني مي باشد كه اين ابهام بايد به روش مناسبي رفع گردد ( مانينگ و شوتس، 2000 ). در ترجمه ماشيني ابهام هم در معناي كلمات زبان مبدا وجود دارد ( از نظر درك معني آن ) و هم در زبان مقصد و همين باعث مي گردد روند ترجمه دچار مشكل شود. در ادامه، بيشتر به روش هاي حل اين مشكل و موانعي كه در زبان فارسي وجود دارد، پرداخته مي شود. رفع ابهام معنايي كلمات يكي از اولين مشكلاتي كه هر سيستم پردازش زبان طبيعي با آن درگير است، مسئله ابهام معنايي و ساختاري كلمات است. بخش عمده اي از اين ابهام به كمك روالي به نام نشانه گذار بخش كننده جملات كه براي تعيين نقش كلمات در جمله به كار مي رود، مرتفع مي گردد( دلماس و زاورل، دمتريو و اتول، 2000؛ ويلكس، 1997 ). روال مذكور با تعيين نقش كلمه، ابهام ساختاري آن را مرتفع و در پيدا كردن معناي صحيح كلمات كمك شاياني مي نمايد. البته ابهام معنايي كلمات خيلي پيچيده تر از ابهام ساختاري آن است و براي رفع آن به روش هاي پيچيده تر نياز است. ولي روش نشانه گذار بخش كننده جملات در پيدا كردن معناي دقيق كمك مي كند و مراحل اوليه آن را انجام مي دهد. در واقع، رفع ابهام از معناي يك كلمه بر مي گردد به اينكه آن كلمه در چه جمله اي به كار رفته و با چه كلماتي همنشين گرديده است؛ جرا كه يك كلمه در يك جمله يك معني مي دهد، در حالي كه همان كلمه در جمله ديگر معناي ديگري به خود مي گيرد. رفع ابهام از معناي كلمات جملات يك زبان، از سه راه كلي مي تواند انجام پذيرد كه هر راه خود روش هاي متعددي دارد: اول روش ابهام با مربي يا سرپرست است كه مبناي آن مجموعه آموزشي برچسب دار است. روش دوم رفع ابهام بر مبناي منابع لغوي مانند فرهنگ لغت و يا فرهنگ تساروس است ( ويلكس و استيونس، 1997 و 1998 ). و بالاخره روش سو م رفع ابهام بدون مربي يا سرپرست است كه در اين حالت تنها مجموعه لغات و متون بدون برچسب در دسترس است ( كيت و ويلكس، 2000 ). الف ) روش رفع ابهام با مربي در اين روش يك مجموعه لغات ابهام زدايي شده براي آموزش در دسترس است. اين مجموعه، نمونه كلماتي است كه هر كدام يك كلمه مبهم W مي باشند و هر معني آنها با يك برچسب معنايي متناسب با متني كه در آن قرار مي گيرند تعريف شده اند ( SK ). اين كار باعث مي شود كه بتوان يك طبقه بندي آماري با سرپرست روي كلمات انجام داد. وظيفه اصلي اين روش، ايجاد يك روتين طبقه بندي كننده است كه كلمات جديد را بر اساس متن هايي كه قبلا تعريف شده اند ( CI ) در طبقه مناسب خود قرار مي دهد. رد رفع ابهام باسرپرست روش هاي مختلفي وجود دارد كه از جمله آنها مي توان از طبقه بندي بيس را نام برد ( ديو و دلمانس، 2000 ) و نيز نظريه اطلاعات كه رفع ابهام بر مبناي آن نظريه صورت مي گيرد ( مانينگ و شوتس، 2000 ). ب )روش رفع ابهام بر مبناي فرهنگ لغت اگر اطلاعاتي در مورد طبقه بندي معنايي يك كلمه وجود نداشته باشد، در اين صورت مي توان از مشخصات عمومي معناي يك كلمه در فرهنگ لغت استفاده نمود. در اين روش، تا كنون از سه نو اطلاعات استفاده شده است. نوع اول روش لسك است كه مستقيما از تعريف معناي كلمات در فرهنگ لغت استفاده مي شود. نوع دوم كه نشان مي دهد چگونه از اطلاعات طبقه بندي شده موجود در فرهنگ لغت مي توان طبقه بندي معنايي يك كلمه را با توجه به متني كه آن كلمه در آن وجود دارد، به دست آورد. ( يارافسكي، 199222 ) و سوم اطلاعاتي است كه از ترجمه يك كلمه به كمك يك فرهنگ لغت دو زبانه به دست مي آيد و استفاده از معناي كلمه در زبان مقصد براي رفع ابهام از معناي كلمه. ج ) رفع ابهام بدون مربي در اين روش بدون اينكه اطلاعاتي در زمينه معناي لغات وكلمات به كار رفته در متن موجود باشد،ابتدا كلمات از نظر معنايي خوشه بندي و سپس بررسي مي شود كه هر كلمه جديد به كدام خوشه نزديك تر است و به آن تعلق دارد و با توجه به اينكه به هر خوشه معناي خاصي اختصاص داده شده است، آن معني براي آن لغت در نظر گرفته مي شود و در ترجمه مورد استفاده قرار مي گيرد. در دو روش قبلي، براي رفع ابهام به يك سري اطلاعات اوليه از معناي لغات نياز بود، اما شرايطي، اگر چه نادر، پيش مي آيد كه هيچ گونه اطلاعاتي از معناي كلمات در دسترس نيست؛ مثلا در مورد اصطلاحات فني و يا پزشكي كه در فرهنگ هاي لغت عمومي پيدا نمي شود. در اين حالات خاص است كه روش رفع ابهام بدون سرپرست يا مربي مناسب است و در به دست آوردن معناي صحيح كلمه با توجه به متن كمك زيادي مي نمايد (كيت و ويلكس، 2000 ؛ مانينگ و شوتس، 200 ). موانع ترجمه ماشيني زبان فارسي همان طور كه در بالا توضيح داده شد، مهمترين بخش يك سامانه مترجم ماشيني، تشخيص نقش كلمات در جمله و تشخيص معناي صحيح آنها با توجه به متني است كه آن كلمه در آن قرار گرفته است. براي تشخيص معنا ي صحيح كلمات از سه روش مي توان استفاده نمود: در روش اول براي آموزش سامانه به يك مجموعه كلمات فارسي ابهام زدايي شده نياز مي باشد تا از روي آن بتوان عمل رفع ابهام براي كلمات جديد را در متن هاي مختلف انجام داد كه متأسفانه هنوز اين مجموعه به صورت يك فرهنگ فارسي قابل خواندن براي ماشين تهيه و تدوين نگرديده است. يعني اين اطلاعات به صورت دستي وجود دارند، اما نسخه رايانه اي از آنها با يك استاندارد معين براي تعريف هر كلمه و معني و نقش هاي مختلف آن وجود ندارد. بديهي است براي اين كار ابتدا با يد با يك مركز زبان شناسي معتبر، استاندارد ذخيره سازي اطلاعات و انواع آن را تدوين نمايد و سپس نسخه اي رايانه اي از اين اطلاعات جهت استفاده هاي بعدي تهيه شود. در روش دوم نيز سامانه مستقيما از يك فرهنگ لغت استفاده مي كند، باز هم در مورد زبان فارسي اين مشكل وجود دارد كه هنوز فرهنگ هاي لغت فارسي رايانه اي با يك استاندارد مشخص تهيه نشده اند. اين در حالي است كه در زبان انگليسي فرهنگ هاي متعددي مانند net LDOCE, Word يا Roget’s International Thesaurus به صورت MRD يا نسخ قابل خواندن توسط رايانه وجود دارند كه سامانه هاي مختلف مترجم ماشيني از آنها با يكي از روش هاي رفع ابهام مذكور بهره مي جويند. از روش سوم رفع ابهام نيز همان طور كه ديده شد صرفا براي لغات خاص و محدود فني يا پزشكي استفاده مي شود، نه براي كليه لغات فارسي و چون متأسفانه هنوز استفاده از اصطلاحات فني فارسي متداول و رايج نشده است، اين روش رفع ابهام در زبان فارسي زياد موفق نخواهد بود. از اين رو براي اينكه بتوان از يك مترجم قوي وبدون مشكل فارسي بهره مند شد، ابتدا بايد مقدمات بر شمرده را فراهم نمود و اين خود تلاش گروهي متشكل از زبان شناسان، مترجمان، اديبان و متخصان رايانه را مي طلبد كه سرآغازي خواهد شد براي رسيدن به اين هدف ملي. نتيجه گيري فراگيري ترجمه ماشيني عبارت اند از: واكافت واژه اي، واكافت ساختواژي، واكافت نحوي، واكافت معنايي، تشخيص نقش كلمات در جمله، تشخيص معناي صحيح كلمات ( با توجه به جمله حاوي و رفع ابهام از كلمات داراي معني مشابه و يافتن معني معادل كلمه در زبان مقصد و تبديل جمله زبان مبدا به جمله زبان مقصد با توجه به دستور زبان مقصد و در صورت نياز اعمال گشتارهاي مناسب براي تبديل جملات مقصد به شكل روساختي آن ). در اين راستا مهمترين بخش يك مترجم كه دقت در آن باعث بالا رفتن دقت كل عمل ترجمه مي گردد، رفع ابهام معنايي از كلمات جملات زبان مبدا ونيز رفع ابهام از ترجمه آنها به زبان مقصد مي باشد. براي رفع ابهام معنايي كلمات سه روش كلي وجود دارد كه عبارت اند از: ( الف ) رفع ابهام با مربي، (ب ) رفع ابهام بر مبناي فرهنگ لغت، و ( ج ) رفع ابهام بدون مربي. در روش اول مجموعه اي از لغات ابهام زدايي شده وجود دارد كه سامانه با آن لغات آموزش داده مي شود و اگر در حين عمل ترجمه با لغت جديدي برخورد كرد،با توجه به اطلاعات آموزش ديده تشخيص مي دهد كه كلمه مزبور با توجه به متني كه در آن قرار گرفته در چه طبقه اي قرار مي گيرد و معناي درست آن كدام است و آن را در ترجمه به كار مي برد. در روش دوم اساسا براي هر كلمه از كل فرهنگ لغت استفاده مي شود و با توجه به نقش كلمه و ديگر مشخصات آن با كمك فرهنگ لغت معني صحيح آن متناسب با جمله اي كه در آن قرار گرفته است، به دست مي آيد. بالاخره روش سوم كه روش رفع ابهام بدون مربي يا سرپرست است، مخصوص كلماتي است كه در فرهنگ هاي لغت معمولي وجود ندارند (اصطلاحات فني يا پزشكي و ... ) و بايد از فرهنگ هاي لغت تخصصي و يا دايرة المعارف ها بهره جست. اما مشكل اصلي بر سر راه رفع ابهام از كلمات فارسي اين است كه اگر از دو روش اول استفاده شود، به يك نسخه رايانه اي از مجموعه لغات همراه بانقش هاي مختلفي كه مي توانند به خود بگيرند و معاني مختلفي كه باتوجه به نقش هاي مختلف و يا همنشيني با كلمات مختلف به خود مي گيرند، نياز مي باشد كه متأسفانه اين نسخه رايانه اي و همچنين استاندارد ذخيره سازي اين دسته اطلاعات وجود ندارد كه بايد با كار گروهي متشكل از زبان شناسان، اديبان و متخصصان رايانه ايجاد و جهت سيستم هاي مترجم زبان فارسي صورت بگيرد. استفاده از روش سوم رفع ابهام نيز خاص لغات فني است كه در زبان فارسي هنوز كاملا جا نيفتاده است . بنابراين با توجه به اين كه دقت در رفع ابهام از معناي كلمات دقت مترجم را بالا مي برد، هنوز نمي توان سامانه هاي مترجم فارسي مناسب را تهيه و از آنها بهره برداري نمود. http://www.persian-language.org/Grou...asp?ID=44&P=16 |
|
|
|
| ....... | |
![]() |
| ابزارهای موضوع | |
| نحوه نمایش | |
|
|
موضوعات مشابه
|
||||
| موضوع | نویسنده موضوع | انجمن | پاسخ ها | آخرين نوشته |
| سيستم پيكربندی ASP.NET 2.0 | M.taghavi | ASP.NET 2 | 2 | Friday 17 March 2006 07:38 PM |
| نحوه ترجمه اسامی Domain توسط DNS | Sardabir | مقالات و آموزش | 0 | Sunday 27 November 2005 07:05 PM |
| نرم افزار های ترجمه به کمک کامپیوتر | Sardabir | شركتها و محصولات نرم افزاري داخلي | 0 | Saturday 26 November 2005 06:05 AM |
| نرم افزار ترجمه همزمان متون خارجي به زبان فارسي | shirzadi | اخبار و تازه هاي دنياي كامپيوتر وIT | 0 | Wednesday 2 November 2005 09:48 AM |