پیکرۀ زبانی چیست، مخزن شاهد رایانهای کدام است؟
تاریخ انتشار: ۸ تیر ۱۴۰۱ | کد خبر: ۳۵۳۵۶۹۱۴
یک زبانشناس و فرهنگنویس درباره تفاوتهای پیکرۀ زبانی با مخزن شاهد رایانهای میگوید: گردآوری مخزن شاهد رایانهای بهجای پیکره وقت و هزینۀ بسیار گزافی میطلبد و برای گردآوری آن عمرها و هزینههای بسیاری بیهوده تلف میشود؛ درحالیکه گردآوری پیکرۀ زبانی هم به هزینه و زمان بسیار کمتری نیاز دارد و هم امکانات بیشتری در اختیار کاربر قرار میدهد.
بیشتر بخوانید:
اخباری که در وبسایت منتشر نمیشوند!
فرهاد قربانزاده - زبانشناس و فرهنگنویس - در گفتوگویی با ایران اکونومیست دربارۀ پیشینۀ پیکرههای زبانی اظهار کرد: پیش از اختراع رایانه، زبانشناسان و زبانپژوهان برای پژوهشهای خود «مخزن شاهد» گردآوری میکردند. به این صورت که کتابی را میخواندند و زیر برخی واژهها و عبارتهای موجود در کتاب خط میکشیدند و آن را همراه با جملهای که واژه یا عبارتِ مورد نظر در آن بهکار رفته روی برگههای جداگانهای یادداشت میکردند. سپس این برگهها را براساس آن واژهها یا عبارتها الفبایی میکردند. به مجموع این برگهها «مخزن شاهد» گفته میشود.
او سپس گفت: از میان حدود سیصد واژۀ بهکاررفته در یک صفحه فقط امکان استخراج و برگهنویسیِ ده بیست واژه وجود دارد و اگر نگوییم برگهنویسیِ همۀ واژههای یک کتاب ناممکن است، این کار بسیار دشوار و پرهزینه و وقتگیر است. روشن است که روی برگههای مخزن شاهد جملههای بعدی و قبلی نوشته نمیشود یا فقط یکی دو جملۀ قبلی و بعدی نوشته میشود و خواننده برای دیدن جملههای دیگر، ناگزیر است به متن اصلی مراجعه کند.
قربانزاده همچنین با بیان اینکه در سال ۱۹۶۳ و ۱۹۶۴ و در دانشگاه براون نخستین پیکرۀ رایانهای به نام «پیکرۀ براون» گردآوری شد، اظهار کرد: تفاوت «پیکره» با «مخزن شاهد» در این است که برای گردآوری پیکره همۀ متن حروفنگاری میشود و افراد در انتخاب واژهها سلیقۀ خود را دخالت نمیدهند و آنچه در پیکره وارد میشود زبان واقعی است. پیکرۀ براون نزدیک به یکمیلیون واژه داشت. امروزه پیکرهای با یکمیلیون واژه کوچک شمرده میشود و پیکرههایی که در قرن بیستویکم در زبان انگلیسی گردآوری شدهاند چندین میلیارد واژه دارند. در دهۀ ۱۹۷۰، زبانشناسان و زبانپژوهانِ دیگر نیز دست به گردآوری پیکرۀ رایانهای زدند و این روند تاکنون ادامه داشتهاست.
این زبانشناس و فرهنگنویس سپس گفت: با رواج رایانه، دیگر گردآوری مخزن شاهد توجیهی ندارد، ولی در ایران دیده شدهاست که، بدون توجه به ویژگیها و پیشرفتهای روز در گردآوری پیکره، مخزن شاهد و پیکرۀ رایانهای را در هم آمیختهاند و چیزی گرد آورند که من پیشتر آن را «مخزن شاهد رایانهای» یا «پیکرۀ گسسته» نامیدهام. به این صورت که زیر واژههای دلخواهِ موجود در متن را خط میکشند تا آنها را گزینش کنند و سپس حروفنگار جملهای را که واژۀ مشخصشده در آن است حروفنگاری میکند. مخزن شاهد رایانهای نیز مانند مخزن شاهد کاغذی کاستیها و کمبودها و اشکالات پرشماری دارد. برای نمونه:
۱. برای تولید مخزن شاهد رایانهای یک نفر باید واژههای دلخواه را گزینش کند و یک نفر هم متن را حروفنگاری کند. به هریک از این افراد باید هزینۀ جداگانه پرداخت.
۲. اگر در یک جمله دو یا چند واژه انتخاب شده باشد، حروفنگار یک بار آن را حروفنگاری میکند و برای واژۀ دوم یا چندم آن را کپی میکند، ولی چون اسماً بیش از یک شاهد تولید کردهاست، هزینۀ دو یا چند شاهد را دریافت میکند.
۳. برای تولید پیکره میتوان از متنهای ازپیشحروفچینیشده، مانند متنهایی که در اینترنت در دسترس است، استفاده کرد. گاه نیز میتوان فایل کتاب را از ناشر تهیه کرد. روشن است که استفاده از این متنها چقدر از وقت و هزینه میکاهد. برای تولید مخزن شاهد رایانهای چنین امکانی وجود ندارد.
۴. تولید مخزن شاهد رایانهای بسیار وقتگیر است. چون یک نفر باید واژهها را انتخاب کند و حروفنگار نیز باید آغاز و پایان هر جمله را بیابد. این مسئله در متنهای کهن که گاه هر جمله به اندازۀ یک پاراگرافِ بلند است، ممکن است لغزش حروفنگار را در پی داشته باشد.
۵. چون یافتن دوبارۀ شاهدهای گزینششده در متنِ کتاب دشوار است، در عمل هیچ ویراستاری شاهد حروفنگاریشده را با متن کتاب مقابله و ویرایش نمیکند. ازاینرو، غلطهای پرشماری به شاهدها راه مییابد و پژوهشگر هنگام نقل شاهد در اثر خود، ناگزیر است شاهد را با کتاب اصلی مطابقت دهد. این کار بسیار زمانبر است.
۶. چون کاربرِ مخزن شاهد رایانهای به جملههای قبلی و بعدیِ شاهد دسترسی ندارد، هنگام استفاده از شاهد، در موارد پرشمار ناگزیر است به کتاب اصلی مراجعه کند و اگر کتاب در دسترس نباشد، با دشواریهایی روبهرو خواهد شد.
۷. چون متن کامل کتابها وارد مخزن شاهد رایانهای نشده و گاه یک جمله یا بیت دو یا چند بار وارد شده، امکان گرفتن بسامد دقیق وجود ندارد.
فرهاد قربانزاده با یادآوری اینکه در ایران گردآوری پیکرههای تاریخی کار دشواری نیست، توضیح داد: برخی مؤسسهها و شرکتها متنها را حروفنگاری کردهاند، مانند مؤسسۀ تحقیقات کامپیوتری علوم انسانی (نور) یا شرکت مهرارقام رایانه (تولیدکنندۀ نرمافزار دُرج). برخی وبگاهها، مانند گنجور، نیز پیکرۀ برخطاند. با پرداخت هزینهای اندک بسیاری از متنها را از این نهادها و شرکتها و وبگاهها میتوان تهیه کرد و بهجای بیست سال صرف وقت برای گردآوری پیکره، آن را در چند ماه گردآوری کرد.
او درباره نرمافزارهای پردازش پیکره نیز بیان کرد: این نرمافزارها این امکان را دارند که چند نویسه (کاراکتر) با دو فاصله در دو سوی آنها را یک واژه تشخیص دهند. سپس میتوانند این واژهها را الفبایی کنند یا براساس بسامد یا از انتها (زانسو) بچینند. ازاینرو، گزینش واژه برای درج در مخزن شاهد رایانهای نیز کاری بیهوده و وقتگیر و هزینهبر است. زیرا نرمافزار با زدن یک کلید میتواند این کار را انجام دهد.
این فرهنگنویس ادامه داد: امکان دیگرِ نرمافزارهای پردازش پیکره این است که چون میتوانند واژههای موجود در پیکره را بهصورت بسامدی نیز نمایش دهند، اگر واژهای فقط یکی دو شاهد داشته باشد، یا کهن و کمکاربرد و تخصصی و گویشی است یا غلط تایپی است. درنتیجه، میتوان غلطهای موجود در پیکره را نیز یافت و آنها را اصلاح کرد.
قربانزاده در پایان گفت: کوتاه آنکه گردآوری مخزن شاهد رایانهای بهجای پیکره وقت و هزینۀ بسیار گزافی میطلبد و برای گردآوری آن عمرها و هزینههای بسیاری بیهوده تلف میشود. درحالیکه گردآوری پیکرۀ زبانی هم به هزینه و زمان بسیار کمتری نیاز دارد و هم امکانات بیشتری در اختیار کاربر قرار میدهد.
منبع: خبرگزاری ایسنا برچسب ها: فرهاد قربانزاده ، سامانه پیکره فرهنگنویسی ، فرهنگنویسی ، زبانشناسی ، مخزن شاهد ، پیکره چیست ، مخزن شاهد چیست
منبع: ایران اکونومیست
کلیدواژه: فرهنگ نویسی زبان شناسی مخزن شاهد پیکره چیست برای گردآوری رایانه ای حروف نگاری قربان زاده فرهنگ نویس برگه ها واژه ها متن ها
درخواست حذف خبر:
«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را بهطور اتوماتیک از وبسایت iraneconomist.com دریافت کردهاست، لذا منبع این خبر، وبسایت «ایران اکونومیست» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۵۳۵۶۹۱۴ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتیکه در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.
با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.
خبر بعدی:
باجافزارها چطور باج میگیرند؟
پژوهشگران حوزه امنیت سایبری نسبت به روش جدید باجافزارها برای ورود به سیستمهای رایانهای و قفل کردن فایلها هشدار دادند.
به گزارش ایسنا، به نقل از آنا؛ همه ما کموبیش از خطرات بارگیری (دانلود) فایلهای ناشناخته در اینترنت آگاه هستیم؛ اما خوب است بدانیم که بارگذاری (آپلود) فایلها نیز میتواند منجر به مشکل شود. هنگام به اشتراکگذاری فایلها به صورت آنلاین مراقب باشید، زیرا ممکن است به رایانه شما آسیب برساند یا اطلاعات شخصی شما را در معرض خطر قرار دهد.
مرورگرهای وب امروزی بسیار قدرتمندتر از نسلهای قبلی مرورگرها هستند. آنها میتوانند دادهها را هم در مرورگر و هم در محل ذخیره فایل در رایانه دستکاری کنند. قابلیتهای مختلف در اینترنت و رایانه مانند ارسال و دریافت ایمیل، گوش دادن به موسیقی یا تماشای فیلم در عین آسان کردن کارها برای کاربران، متأسفانه راه سوءاستفاده هکرها از مرورگرها را نیز هموار کرده است تا با فریب کاربران از طریق باجافزارها وارد فایلهای شما شوند و آنها را قفل کنند. چنین اتفاقی به سادگی و در زمانی که سرگرم کارهای معمول و آنلاین هستید میافتد.
نویسنده مقاله حاضر میگوید: «من یک دانشمند کامپیوتر هستم که در مورد امنیت سایبری مطالعه میکنم. من و همکارانم نشان دادهایم که چگونه هکرها میتوانند از طریق رابط برنامهنویسی به فایلهای رایانه شما دسترسی پیدا کنند و به کمک برنامههای کاربردی وب در مرورگرهای مدرن به فایلهای سیستم شما برسند. این تهدید بیشتر متوجه مرورگرهای گوگل کروم و مایکروسافت ِاج (Microsoft Edge) است و در مورد مرورگرهای سافاری (برای اپل) یا موزیلا فایرفاکس صدق نمیکند. ۶۵ درصد از استفادۀ مرورگرها به کروم اختصاص دارد و اِج نیز سهم ۵ درصدی دارد. تا آنجا که من میدانم، تاکنون گزارشی مبنی بر استفاده هکرها از این دو مرورگر ثبت نشده است.»
باجافزارها چطور باج میگیرند؟
مرورگرهای امروزی هر کدام تقریباً یک سیستم عامل هستند. آنها میتوانند برنامههای نرم افزاری را اجرا کنند و فایلها را رمزگذاری کنند. این قابلیتها، همراه با دسترسی مرورگر به فایلهای رایانه میزبان (از جمله فایلهای موجود در فضای ابری، پوشههای مشترک و درایوهای خارجی) از طریق دسترسی به فایل سیستم (File System Access API) فرصت جدیدی را برای باجافزار ایجاد میکند.
تصور کنید میخواهید عکسها را روی یک ابزار آنلاین به صورت رایگان ویرایش کنید. هنگامی که عکسها را برای ویرایش آپلود میکنید، هر هکری که ابزار ویرایش را کنترل میکند میتواند از طریق مرورگر به فایلهای موجود در رایانه شما دسترسی داشته باشد. هکرها به پوشهای که از آن آپلود میکنید و همه زیرپوشهها دسترسی پیدا میکنند. سپس هکرها میتوانند فایلهای موجود در سیستم فایل شما را رمزگذاری و قفل کنند و برای رمزگشایی و باز کردن آنها باج بگیرند.
باج افزار یک مشکل رو به رشد است. در سال ۲۰۲۳، سازمانها بیش از ۱.۱ میلیارد دلار باج به نرمافزارهای مهاجمان پرداخت کردند و در هر ثانیه ۱۹ حمله باج افزاری سازمانها را هدف قرار دادند. افراد و سازمانها، شرکتهای بزرگ و جهانی، بانکها، ارائهدهندگان خدمات ابری، اپراتورها، سرویسهای نظارت بر تهدید، تولیدکنندگان تراشه، دولتها، مراکز پزشکی و بیمارستانها، شرکتهای بیمه، مدارس، دانشگاهها و حتی ادارات پلیس در رده قربانیان حملات باجافزاری هستند. امروزه باجافزار، رقابت تسلیحاتی شماره یک بین هکرها و متخصصان امنیتی است. باجافزارهای سنتی پس از اینکه هکرها شما را فریب دادند تا آن را دانلود کنید، روی رایانه شما اجرا میشود.
دفاع جدید برای تهدید جدید
محققان دانشگاه بینالمللی فلوریدا با همکاری گوگل نوع جدیدی از باج افزار را شناسایی کردهاند که میتواند رایانه شما را از طریق مرورگرهای وب آلوده کند. شناسایی این نوع باجافزار بسیار دشوار است و میتواند فایلهای شما را رمزگذاری کند و تا زمانی که باج را پرداخت نکنید، آنها را غیرقابل دسترس میکند. این باجافزار RøB نامیده دارد و در مرورگر اجرا میشود و معمولاً آنتیویروسهای سنتی نمیتوانند آن را شناسایی کنند.
برای مقابله با این تهدید جدید، محققان سه رویکرد دفاعی را برای محافظت از رایانه پیشنهاد کردهاند روش اول برنامه وب را بهطور موقت متوقف میکند تا فایلهای رمزگذاری شده را شناسایی کند. رویکرد دوم، فعالیت برنامههای وب در رایانه را برای شناسایی الگوهای باج افزارمانند رصد میکند. رویکرد سوم به کاربران در مورد خطرات اجازه دسترسی و ورود برنامههای کاربردی وب به فایل سیستم هشدار میدهد.
اگر میخواهید از رایانه خود محافظت کنید در مورد محل آپلود یا ذخیره فایلها بیشتر احتیاط کنید. هکرها میتوانند از آپلودهای شما برای دسترسی به رایانه شما استفاده کنند، بنابراین مراقب باشید که چه چیزی را بهصورت آنلاین به اشتراک میگذارید.
این گزارش از پایگاه اینترنتی دِ کانورسیشن به فارسی برگردان شده است.
انتهای پیام