نوع مقاله : مقاله پژوهشی


1 استادیار پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک). تهران.ایران

2 پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک)، تهران، ایران


پیکره ­ها براساس زبان به‌کاررفته در متن‌های تشکیل ­دهندة آن­ها به پیکره­های تک­ زبانه، دوزبانه و چندزبانه گروه‌بندی می­شوند. پیکرة مقایسه ­ای، پیکره­ای است دوزبانه یا چندزبانه که شامل متن‌هایی است مشابه در حوزه­های موضوعی یکسان. با وجود کاربرد فراوان این نوع پیکره‌ها در پژوهش‌های گوناگون همچون پژوهش­های زبانی، ترجمة ماشینی و سامانه‌های خودکار بازیابی اطلاعات بینازبانی، پژوهشگران همواره با کمبود پیکره‌های مقایسه­ ای مواجه بوده‌اند. در این مقاله، به معرفی مراحل ساخت یک پیکرة مقایسه‌ای تخصصی به نام «پارسا» پرداخته شده‌است. این پیکره از چکیده­های فارسی و انگلیسی پایان­ نامه ­ها و رساله ­های ثبت‌شده در پژوهشگاه علوم و فناوری اطلاعات ایران (ایرانداک) ساخته شده‌است و شامل بیش از 89 میلیون واژه فارسی و 79 میلیون واژه انگلیسی است. محتوای این پیکره عمومی نیست و مشتمل بر متن‌های بسیار تخصصی در حوزه­های موضوعی کلان مانند علوم اجتماعی، علوم انسانی و هنر، فنی­ ومهندسی و رشته ­های مربوط به این حوزه­ها است و ازاین‌جنبه، برای پردازش­های زبانی که نیازمند بهره ­گرفتن از متن‌های تخصصی است، بسیار ارزشمند است. برای ساخت این پیکره، پس از نمونه ­گیری، داده­های فارسی وارد فرایند پیش ­پردازش (هنجارسازی و واحدسازی) شدند. برای ارزیابی این مرحله دقت (P)، فراخوان (R) و F1 سنجیده شد. دقت، 5614035088. 0، فراخوان،   0531561462. 0 و در پایان، F1 09711684370257966. 0 محاسبه شده‌است. سپس، داده­ها برچسب‌گذاری شدند (برچسب ­گذاری اجزای کلام) و برچسب­های متون فارسی کنترل شدند. داده­های انگلیسی نیز به‌صورت ماشینی برچسب‌گذاری شدند. شمار واژه‌های محتوایی (فعل، اسم، صفت، قید) داده­های فارسی این پیکره 57653813 و شمار واژه­های دستوری به‌همراه اعداد و علائم سجاوندی 31350125  است و بن­ واژه­های فارسی استخراج ­شده نیز شامل 41064 بن­ واژه است. شمار واژه­های محتوایی متون انگلیسی 45606686 و شمار واژه­های دستوری به‌همراه اعداد و علائم سجاوندی شامل 33662304 و بن‌واژه­های انگلیسی استخراج ­شده نیز شامل 12937 بن ­واژه است. پیکرۀ ساخته ‎شده قابلیت بسیار بالایی برای داده‌کاوی، پژوهش­های مربوط به ترجمه ماشینی و به‌کارگیری در تمام پژوهش‌هایی که بر روی متون علمی انجام می‌شود را دارا است.


عنوان مقاله [English]

Building a specialized comparable corpus: PARSA

نویسندگان [English]

  Elham Alayiaboozar
  Aliasghar Hojjatpanah

1 Assistant Professor, Iranian Research Institute for Information Science and Technology (IranDoc). Tehran.Iran

2 Iranian Research Institute for Information Science and Technology (IranDoc); Tehran. Iran

چکیده [English]

Based on the language used in their constituent texts, corpora are categorized as monolingual, bilingual, or multilingual. A comparable corpus is a bilingual or multilingual corpus that includes similar texts in the same subject areas. In other words, a comparable corpus is a collection of documents in two different languages ​​that cover similar topics. Comparable corpora can be composed of general texts, providing various possibilities for discourse analysis, pragmatics, analysis of text genres, and sociolinguistics. Examples of such corpora could include collections of encyclopedia entries, or literary texts from a certain period of time. However, the most common types of comparable corpora, which attract many audiences are those related to specialized fields and containing a high density of vocabulary and technical terms. Such a corpus is called a specialized comparable corpus. In this study, a specialized comparable corpus was built from the Persian and English abstracts of theses and dissertations registered in IranDoc. The corpus is named PARSA.

کلیدواژه‌ها [English]

  specialized corpus
  comparable corpus
  normalization
  tokenization
  tagging
