Web Analytics Made Easy - Statcounter

یک زبان‌شناس و فرهنگ‌نویس درباره تفاوت‌های پیکرۀ زبانی با مخزن شاهد رایانه‌ای می‌گوید: گردآوری مخزن شاهد رایانه‌ای به‌جای پیکره وقت و هزینۀ بسیار گزافی می‌طلبد و برای گردآوری آن عمرها و هزینه‌های بسیاری بیهوده تلف می‌شود؛ درحالی‌که گردآوری پیکرۀ زبانی هم به هزینه و زمان بسیار کمتری نیاز دارد و هم امکانات بیشتری در اختیار کاربر قرار می‌دهد.

بیشتر بخوانید: اخباری که در وبسایت منتشر نمی‌شوند!

فرهاد قربان‌زاده - زبان‌شناس و فرهنگ‌نویس - در گفت‌وگویی با ایران اکونومیست دربارۀ پیشینۀ پیکره‌های زبانی اظهار کرد: پیش از اختراع رایانه، زبان‌شناسان و زبان‌پژوهان برای پژوهش‌های خود «مخزن شاهد» گردآوری می‌کردند. به این صورت که کتابی را می‌خواندند و زیر برخی واژه‌ها و عبارت‌های موجود در کتاب خط می‌کشیدند و آن را همراه با جمله‌ای که واژه یا عبارتِ مورد نظر در آن به‌کار رفته روی برگه‌های جداگانه‌ای یادداشت می‌کردند. سپس این برگه‌ها را براساس آن واژه‌ها یا عبارت‌ها الفبایی می‌کردند. به مجموع این برگه‌ها «مخزن شاهد» گفته می‌شود.

او سپس گفت: از میان حدود سیصد واژۀ به‌کاررفته در یک صفحه فقط امکان استخراج و برگه‌نویسیِ ده بیست واژه وجود دارد و اگر نگوییم برگه‌نویسیِ همۀ واژه‌های یک کتاب ناممکن است، این کار بسیار دشوار و پرهزینه و وقت‌گیر است. روشن است که روی برگه‌های مخزن شاهد جمله‌های بعدی و قبلی نوشته نمی‌شود یا فقط یکی دو جملۀ قبلی و بعدی نوشته می‌شود و خواننده برای دیدن جمله‌های دیگر، ناگزیر است به متن اصلی مراجعه کند.

قربان‌زاده همچنین با بیان این‌که در سال ۱۹۶۳ و ۱۹۶۴ و در دانشگاه براون نخستین پیکرۀ رایانه‌ای به نام «پیکرۀ براون» گردآوری شد، اظهار کرد: تفاوت «پیکره» با «مخزن شاهد» در این است که برای گردآوری پیکره همۀ متن حروف‌نگاری می‌شود و افراد در انتخاب واژه‌ها سلیقۀ خود را دخالت نمی‌دهند و آنچه در پیکره وارد می‌شود زبان واقعی است. پیکرۀ براون نزدیک به یک‌میلیون واژه داشت. امروزه پیکره‌ای با یک‌میلیون واژه کوچک شمرده می‌شود و پیکره‌هایی که در قرن بیست‌ویکم در زبان انگلیسی گردآوری شده‌اند چندین میلیارد واژه دارند. در دهۀ ۱۹۷۰، زبان‌شناسان و زبان‌پژوهانِ دیگر نیز دست به گردآوری پیکرۀ رایانه‌ای زدند و این روند تاکنون ادامه داشته‌است.

این زبان‌شناس و فرهنگ‌نویس سپس گفت: با رواج رایانه، دیگر گردآوری مخزن شاهد توجیهی ندارد، ولی در ایران دیده شده‌است که، بدون توجه به ویژگی‌ها و پیشرفت‌های روز در گردآوری پیکره، مخزن شاهد و پیکرۀ رایانه‌ای را در هم آمیخته‌اند و چیزی گرد آورند که من پیش‌تر آن را «مخزن شاهد رایانه‌ای» یا «پیکرۀ گسسته» نامیده‌ام. به این صورت که زیر واژه‌های دلخواهِ موجود در متن را خط می‌کشند تا آن‌ها را گزینش کنند و سپس حروف‌نگار جمله‌ای را که واژۀ مشخص‌شده در آن است حروف‌نگاری می‌کند. مخزن شاهد رایانه‌ای نیز مانند مخزن شاهد کاغذی کاستی‌ها و کمبودها و اشکالات پرشماری دارد. برای نمونه:
۱. برای تولید مخزن شاهد رایانه‌ای یک نفر باید واژه‌های دلخواه را گزینش کند و یک نفر هم متن را حروف‌نگاری کند. به هریک از این افراد باید هزینۀ جداگانه پرداخت.
۲. اگر در یک جمله دو یا چند واژه انتخاب شده باشد، حروف‌نگار یک بار آن را حروف‌نگاری می‌کند و برای واژۀ دوم یا چندم آن را کپی می‌کند، ولی چون اسماً بیش از یک شاهد تولید کرده‌است، هزینۀ دو یا چند شاهد را دریافت می‌کند.
۳. برای تولید پیکره می‌توان از متن‌های ازپیش‌حروف‌چینی‌شده، مانند متن‌هایی که در اینترنت در دسترس است، استفاده کرد. گاه نیز می‌توان فایل کتاب را از ناشر تهیه کرد. روشن است که استفاده از این متن‌ها چقدر از وقت و هزینه می‌کاهد. برای تولید مخزن شاهد رایانه‌ای چنین امکانی وجود ندارد.
۴. تولید مخزن شاهد رایانه‌ای بسیار وقت‌گیر است. چون یک نفر باید واژه‌ها را انتخاب کند و حروف‌نگار نیز باید آغاز و پایان هر جمله را بیابد. این مسئله در متن‌های کهن که گاه هر جمله به اندازۀ یک پاراگرافِ بلند است، ممکن است لغزش حروف‌نگار را در پی داشته باشد.
۵. چون یافتن دوبارۀ شاهدهای گزینش‌شده در متنِ کتاب دشوار است، در عمل هیچ ویراستاری شاهد حروف‌نگاری‌شده را با متن کتاب مقابله و ویرایش نمی‌کند. ازاین‌رو، غلط‌های پرشماری به شاهدها راه می‌یابد و پژوهشگر هنگام نقل شاهد در اثر خود، ناگزیر است شاهد را با کتاب اصلی مطابقت دهد. این کار بسیار زمان‌بر است.
۶. چون کاربرِ مخزن شاهد رایانه‌ای به جمله‌های قبلی و بعدیِ شاهد دسترسی ندارد، هنگام استفاده از شاهد، در موارد پرشمار ناگزیر است به کتاب اصلی مراجعه کند و اگر کتاب در دسترس نباشد، با دشواری‌هایی روبه‌رو خواهد شد.
۷. چون متن کامل کتاب‌ها وارد مخزن شاهد رایانه‌ای نشده و گاه یک جمله یا بیت دو یا چند بار وارد شده، امکان گرفتن بسامد دقیق وجود ندارد.

فرهاد قربان‌زاده با یادآوری این‌که در ایران گردآوری پیکره‌های تاریخی کار دشواری نیست، توضیح داد: برخی مؤسسه‌ها و شرکت‌ها متن‌ها را حروف‌نگاری کرده‌اند، مانند مؤسسۀ تحقیقات کامپیوتری علوم انسانی (نور) یا شرکت مهرارقام رایانه (تولیدکنندۀ نرم‌افزار دُرج). برخی وبگاه‌ها، مانند گنجور، نیز پیکرۀ برخط‌اند. با پرداخت هزینه‌ای اندک بسیاری از متن‌ها را از این نهادها و شرکت‌ها و وبگاه‌ها می‌توان تهیه کرد و به‌جای بیست سال صرف وقت برای گردآوری پیکره، آن را در چند ماه گردآوری کرد.

او درباره نرم‌افزارهای پردازش پیکره نیز بیان کرد: این نرم‌افزارها این امکان را دارند که چند نویسه (کاراکتر) با دو فاصله در دو سوی آن‌ها را یک واژه تشخیص دهند. سپس می‌توانند این واژه‌ها را الفبایی کنند یا براساس بسامد یا از انتها (زانسو) بچینند. ازاین‌رو، گزینش واژه برای درج در مخزن شاهد رایانه‌ای نیز کاری بیهوده و وقت‌گیر و هزینه‌بر است. زیرا نرم‌افزار با زدن یک کلید می‌تواند این کار را انجام دهد.

این فرهنگ‌نویس ادامه داد: امکان دیگرِ نرم‌افزارهای پردازش پیکره این است که چون می‌توانند واژه‌های موجود در پیکره را به‌صورت بسامدی نیز نمایش دهند، اگر واژه‌ای فقط یکی دو شاهد داشته باشد، یا کهن و کم‌کاربرد و تخصصی و گویشی است یا غلط تایپی است. درنتیجه، می‌توان غلط‌های موجود در پیکره را نیز یافت و آن‌ها را اصلاح کرد.

قربان‌زاده در پایان گفت: کوتاه آنکه گردآوری مخزن شاهد رایانه‌ای به‌جای پیکره وقت و هزینۀ بسیار گزافی می‌طلبد و برای گردآوری آن عمرها و هزینه‌های بسیاری بیهوده تلف می‌شود. درحالی‌که گردآوری پیکرۀ زبانی هم به هزینه و زمان بسیار کمتری نیاز دارد و هم امکانات بیشتری در اختیار کاربر قرار می‌دهد.

 

منبع: خبرگزاری ایسنا برچسب ها: فرهاد قربان‌زاده ، سامانه پیکره فرهنگ‌نویسی ، فرهنگ‌نویسی ، زبان‌شناسی ، مخزن شاهد ، پیکره چیست ، مخزن شاهد چیست

منبع: ایران اکونومیست

کلیدواژه: فرهنگ نویسی زبان شناسی مخزن شاهد پیکره چیست برای گردآوری رایانه ای حروف نگاری قربان زاده فرهنگ نویس برگه ها واژه ها متن ها

درخواست حذف خبر:

«خبربان» یک خبرخوان هوشمند و خودکار است و این خبر را به‌طور اتوماتیک از وبسایت iraneconomist.com دریافت کرده‌است، لذا منبع این خبر، وبسایت «ایران اکونومیست» بوده و سایت «خبربان» مسئولیتی در قبال محتوای آن ندارد. چنانچه درخواست حذف این خبر را دارید، کد ۳۵۳۵۶۹۱۴ را به همراه موضوع به شماره ۱۰۰۰۱۵۷۰ پیامک فرمایید. لطفاً در صورتی‌که در مورد این خبر، نظر یا سئوالی دارید، با منبع خبر (اینجا) ارتباط برقرار نمایید.

با استناد به ماده ۷۴ قانون تجارت الکترونیک مصوب ۱۳۸۲/۱۰/۱۷ مجلس شورای اسلامی و با عنایت به اینکه سایت «خبربان» مصداق بستر مبادلات الکترونیکی متنی، صوتی و تصویر است، مسئولیت نقض حقوق تصریح شده مولفان در قانون فوق از قبیل تکثیر، اجرا و توزیع و یا هر گونه محتوی خلاف قوانین کشور ایران بر عهده منبع خبر و کاربران است.

خبر بعدی:

باج‌افزارها چطور باج می‌گیرند؟

پژوهشگران حوزه امنیت سایبری نسبت به روش جدید باج‌افزارها برای ورود به سیستم‌های رایانه‌ای و قفل کردن فایل‌ها هشدار دادند.

به گزارش ایسنا، به نقل از آنا؛ همه ما کم‌وبیش از خطرات بارگیری (دانلود) فایل‌های ناشناخته در اینترنت آگاه هستیم؛ اما خوب است بدانیم که بارگذاری (آپلود) فایل‌ها نیز می‌تواند منجر به مشکل شود. هنگام به اشتراک‌گذاری فایل‌ها به صورت آنلاین مراقب باشید، زیرا ممکن است به رایانه شما آسیب برساند یا اطلاعات شخصی شما را در معرض خطر قرار دهد.

مرورگرهای وب امروزی بسیار قدرتمندتر از نسل‌های قبلی مرورگرها هستند. آنها می‌توانند داده‌ها را هم در مرورگر و هم در محل ذخیره فایل در رایانه دستکاری کنند. قابلیت‌های مختلف در اینترنت و رایانه مانند ارسال و دریافت ایمیل، گوش دادن به موسیقی یا تماشای فیلم در عین آسان کردن کارها برای کاربران، متأسفانه راه سوءاستفاده هکرها از مرورگرها را نیز هموار کرده است تا با فریب کاربران از طریق باج‌افزارها وارد فایل‌های شما شوند و آنها را قفل کنند. چنین اتفاقی به سادگی و در زمانی که سرگرم کارهای معمول و آنلاین هستید می‌افتد.

نویسنده مقاله حاضر می‌گوید: «من یک دانشمند کامپیوتر هستم که در مورد امنیت سایبری مطالعه می‌کنم. من و همکارانم نشان داده‌ایم که چگونه هکرها می‌توانند از طریق رابط برنامه‌نویسی به فایل‌های رایانه شما دسترسی پیدا کنند و به کمک برنامه‌های کاربردی وب در مرورگرهای مدرن به فایل‌های سیستم شما برسند. این تهدید بیشتر متوجه مرورگرهای گوگل کروم و مایکروسافت ِاج (Microsoft Edge) است و در مورد مرورگرهای سافاری (برای اپل) یا موزیلا فایرفاکس صدق نمی‌کند. ۶۵ درصد از استفادۀ مرورگرها به کروم اختصاص دارد و اِج نیز سهم ۵ درصدی دارد. تا آنجا که من می‌دانم، تاکنون گزارشی مبنی بر استفاده هکرها از این دو مرورگر ثبت نشده است.»

باج‌افزارها چطور باج می‌گیرند؟

مرورگرهای امروزی هر کدام تقریباً یک سیستم عامل هستند. آنها می‌توانند برنامه‌های نرم افزاری را اجرا کنند و فایل‌ها را رمزگذاری کنند. این قابلیت‌ها، همراه با دسترسی مرورگر به فایل‌های رایانه میزبان (از جمله فایل‌های موجود در فضای ابری، پوشه‌های مشترک و درایوهای خارجی) از طریق دسترسی به فایل سیستم (File System Access API) فرصت جدیدی را برای باج‌افزار ایجاد می‌کند.

تصور کنید می‌خواهید عکس‌ها را روی یک ابزار آنلاین به صورت رایگان ویرایش کنید. هنگامی که عکس‌ها را برای ویرایش آپلود می‌کنید، هر هکری که ابزار ویرایش را کنترل می‌کند می‌تواند از طریق مرورگر به فایل‌های موجود در رایانه شما دسترسی داشته باشد. هکرها به پوشه‌ای که از آن آپلود می‌کنید و همه زیرپوشه‌ها دسترسی پیدا می‌کنند. سپس هکرها می‌توانند فایل‌های موجود در سیستم فایل شما را رمزگذاری و قفل کنند و برای رمزگشایی و باز کردن آنها باج بگیرند.

باج افزار یک مشکل رو به رشد است. در سال ۲۰۲۳، سازمان‌ها بیش از ۱.۱ میلیارد دلار باج به نرم‌افزارهای مهاجمان پرداخت کردند و در هر ثانیه ۱۹ حمله باج افزاری سازمان‌ها را هدف قرار دادند. افراد و سازمان‌ها، شرکت‌های بزرگ و جهانی، بانک‌ها، ارائه‌دهندگان خدمات ابری، اپراتورها، سرویس‌های نظارت بر تهدید، تولیدکنندگان تراشه، دولت‌ها، مراکز پزشکی و بیمارستان‌ها، شرکت‌های بیمه، مدارس، دانشگاه‌ها و حتی ادارات پلیس در رده قربانیان حملات باج‌افزاری هستند. امروزه باج‌افزار، رقابت تسلیحاتی شماره یک بین هکرها و متخصصان امنیتی است. باج‌افزارهای سنتی پس از اینکه هکرها شما را فریب دادند تا آن را دانلود کنید، روی رایانه شما اجرا می‌شود.

دفاع جدید برای تهدید جدید

محققان دانشگاه بین‌المللی فلوریدا با همکاری گوگل نوع جدیدی از باج افزار را شناسایی کرده‌اند که می‌تواند رایانه شما را از طریق مرورگرهای وب آلوده کند. شناسایی این نوع باج‌افزار بسیار دشوار است و می‌تواند فایل‌های شما را رمزگذاری کند و تا زمانی که باج را پرداخت نکنید، آنها را غیرقابل دسترس می‌کند.  این باج‌افزار RøB نامیده دارد و در مرورگر اجرا می‌شود و معمولاً آنتی‌ویروس‌های سنتی نمی‌توانند آن را شناسایی کنند.

برای مقابله با این تهدید جدید، محققان سه رویکرد دفاعی را برای محافظت از رایانه پیشنهاد کرده‌اند روش اول برنامه وب را به‌طور موقت متوقف می‌کند تا فایل‌های رمزگذاری شده را شناسایی کند. رویکرد دوم، فعالیت برنامه‌های وب در رایانه را برای شناسایی الگوهای باج افزارمانند رصد می‌کند. رویکرد سوم به کاربران در مورد خطرات اجازه دسترسی و ورود برنامه‌های کاربردی وب به فایل سیستم هشدار می‌دهد.

اگر می‌خواهید از رایانه خود محافظت کنید در مورد محل آپلود یا ذخیره فایل‌ها بیشتر احتیاط کنید. هکرها می‌توانند از آپلودهای شما برای دسترسی به رایانه شما استفاده کنند، بنابراین مراقب باشید که چه چیزی را به‌صورت آنلاین به اشتراک می‌گذارید.

 این گزارش از پایگاه اینترنتی دِ کانورسیشن به فارسی برگردان شده است.

انتهای پیام

دیگر خبرها

  • باج‌افزار‌ها چطور باج می‌گیرند؟
  • نگاه تاریخی به خلیج فارس راه حل مناقشات منطقه‌ای
  • باج‌افزارها چطور باج می‌گیرند؟
  • کیس رایانه مینیاتوری + فیلم
  • تبدیل افکار خاموش ذهن به گفتار| ابزاری که اندیشه را واژه می‌کند!
  • بزرگترین بلوار ورودی جنوبی یزد ساماندهی می‌شود
  • احداث مخزن ۱۶۰ هزار مترمکعبی سیل‌بند پارک کوهستان در یزد + فیلم
  • فیلم| کدام دانشگاه‌های آمریکا شاهد برگزاری اعتراضات دانشجویی در حمایت از غزه است؟
  • تأمین آب آشامیدنی کهن دژ در بخش ناغان شهرستان کیار
  • پشت صحنه پیامک «آبفا»