AstekHPC

bigdata

قطعه بندی متون فارسی (tokenize) با استفاده از جی هضم (Jhazm)

قطعه بندی متن (Tokenizer)

به روش های تشخیص زبان در متون اشاره کردیم در این مبحث به نقش واحد ساز (Tokenizer) در پردازش متن میپردازیم. Tokenizer ابزاری برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، نمادهای معنادار مانند space و  tab و … . لازمه ی ایجاد این ابزار جمع آوری واحد هایی است که در زبان فارسی به عنوان واحد های مستقل معنایی شناخته می شوند. سپس بر اساس انتخاب هر کدام از این واحدها متن بر اساس آن شکسته خواهد شد. از نمونه های انگلیسی آن می توان به Flex، JLex، JFLex، ANTLR، Ragel و Quex اشاره کرد.

واحدساز (Tokenizer) مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند و آن را برای تحلیل های بعدی آماده میکند. در واقع این واحد ساز جزء مراحل پیش پردازش (pre process) متن به حساب میآید. در فرایتند تحلیل متون اغلب بعد از پارس (Pars) کردن متن عمل جداسازی کلمات با ابزار Tokenizer انجام میشود. معمولا بعد از این مرحله نوبت به مرحله حذف ایست‌واژه‌هایا Stop Wordsها میباشد که در مراحل بعدی به آن میپردازیم. در شکل زیر این مراحل به تصویر کشیده شده است. ابزار واحد ساز (Tokenizer) برای شکستن یک متن بر اساس واحدهای با معنی مانند کلمه، پاراگراف، جمله و نمادهای معنادار مانند space و tab است.

به عیارتی دیگر واحدسازی تکه­ تکه کردن سند به قسمت­های کوچک به نام واحد است. واحدسازی در سطح کلمات رخ می­دهد و واحدهای استخراج شده می­توانند به عنوان ورودی ماژول­های دیگر مانند ریشه­ یاب و برچسب­گذار استفاده شود. لازمه­ ی ایجاد این ابزار جمع ­آوری واحدهایی است که در زبان فارسی به عنوان واحدهای مستقل معنایی شناخته می­ شوند. متن بر اساس انتخاب هر کدام از این واحدها، شکسته خواهد شد. از نمونه­ های انگلیسی این ابزار می­توان به Flex، JLex، JFLex، ANTLR،Ragel  و Quex اشاره کرد.

این ابزار مرز کلمات را در متون تشخیص داده و متن را به دنباله‌ای از کلمات تبدیل می‌کند. کلمات چند بخشی، کلمات بهم چسبیده و ترکیب‌های خاصی مانند اعداد اعشاری، تاریخ و ساعت از چالش‌های موجود در تشخیص مرز کلمات است.

 

tokenizer را نباید با موارد زیر اشتباه گرفت.

چانکر (Chunker): ابزاری برای تشخیص گروه های اسمی، فعلی و …. در یک جمله. جهت تقویت الگوریتم های وابسته به برچسب زن معنایی (Semantic role labeler) لازم است، نه تنها نقش های کلمات مشخص گردند، بلکه باید وابستگی های کلمات به لحاظ نقشی در جمله مشخص گردند. از جمله نمونه های انگلیسی آن می توان به Illinois Chunker  اشاره کرد.

برچسب زن معنایی: ابزاری برای تشخیص نقش گرامری کلمه در جمله. این ابزار یکی از مهمترین نقش ها را در پردازش های زبانی بر عهده دارد. دقت در این ابزار بسیار حائز اهمیت است. این ابزار باید نقش های گرامری کلمات در جمله ها مانند فعل، فاعل، مفعول مستقیم، مفعول غیر مستقیم و …. را تشخیص دهد. از جمله نمونه های انگلیسی آن می توان به OpenNlP، Illinois SRL، Swirl  و LTHSRL اشاره کرد. این ابزارها از الگوریتم پارسینگ charniak استفاده می کنند.

 

پردازش متن

تحلیل صرفی

POS, Tokenizer, lemmatizer

تحلیل نحوی

Chunker, Parser

تحلیل معنایی

Co-reference, NER, Event Detection

 


قطعه بندی متون
جایگاه قطعه بندی متون

 

مثالی از نمونه کد جاوا برای استفاده از ابزار قطعه بند یا tokenizer با کتابخانه jhazm:

import jhazm.tokenizer.WordTokenizer;
//jhazm tokenizer
WordTokenizer wordtokenizer = null;
try {
 wordtokenizer = new WordTokenizer(true);
} catch (IOException e) {
 // If document File was crrupted So Go to Next Doc
 continue;
}
ArrayList wordsList = new ArrayList<>(wordtokenizer.tokenize(textWithOutStopWords));

نقش و جایگاه واحدساز (Tokenizer) در پردازش متن


                                                 جایگاه واحد ساز

 

 ------------------------------------
منبع : خانه بیگ دیتای ایران
Login
HPCLab Media
HPCLab RSS

Site encyclopedia section

In this section, you will find articles and information you need.

Paper Categories
نرم افزار پایش کلاسترهای محاسباتی

این نرم افزار میزان استفاده از منابع محاسباتی و همچنین کار های در حال اجرا بر روی کلاستر را پایش میکند. به منظور نصب نسخه موبایل استک ابتدا JuiceSSH نصب شود.

Download More

PuTTY

PuTTY is a free and open-source terminal emulator, serial console and network file transfer application. It supports several network protocols, including SCP, SSH, Telnet, rlogin, and raw socket connection. It can also connect to a serial port.

Download More

Winscp

WinSCP is a free and open-source SFTP, FTP, WebDAV and SCP client for Microsoft Windows. Its main function is secure file transfer between a local and a remote computer.

Download More

VNC Viewer

VNC offers a deceptively simple service it allows you to view and control a remote system as though seated next to it, wherever you are.

Download More

NEWS

ابر رایانه واتسون جان زن مبتلا به سرطان را نجات داد

با این که توانایی این کامپیوتر عظیم برای شناسایی بیماری‌‌های مختلف و آنالیز علائم حیاتی بیماران بسیار بالا و احتمالا از هر پزشکی بر روی کره‌ی زمین دقیق‌تر است، اما مطمئنا حداقل تا چندین سال دیگر شاهد به کار گرفته شدن هوش مصنوعی و کامپیوترهای قدرتمندی نظیر ابر رایانه واتسون در مراکز درمانی و بیمارستان‌ها نخواهیم بود. علاوه بر این برای این که این نوع از سیستم‌های مبتنی بر AI بتوانند یک بیماری را ...

چین قدرتمندترین ابر کامپیوتر جهان را ساخت

بحث ابر کامپیوترها همواره برای عاشقان دنیای تکنولوژی و فناوری جذاب و در رتبه اول قرار داشته است. کامپیوتر از آغاز شروع به کار خود مسیر پر پیچ و خم را طی کرده‌اند تا به لپ‌تاپ‌های امروزی که وزنی کمتر از 2 کیلوگرم داشته و دارای سرعت پردازشی بسیار خوبی هستند، رسیده‌اند. جالب است بدانید کامپیوترهای اولیه حجمی به‌اندازه یک اتاق 20 متری را اشغال می‌کردند و برای روشن شدن نیازمند انرژی الکتریکی بسیار ...

IBM موفق به ساخت تراشه ای شد که می تواند مانند انسان فکر کند !

این تراشه که ترونورث نامیده می‌شود، هنوز نیازمند برنامه‌ای است که بتواند از عملکرد آن پشتیبانی کند زیرا عملکرد آن با تراشه‌های سنتی که هنوز در کامپیوترهای مدرن کاربردی هستند، متفاوت است. در پردازشگرهای سنتی، پردازشگر و حافظه از یکدیگر مجزا هستند، اما در مدل به‌هم‌پیوسته ترونورث، پردازش داده‌ها در زمانی مشابه تراشه‌های سنتی از کارایی بیشتری برخوردارند. در این تراشه به‌جای صفر و یک‌های دوتایی،‌ واحد‌های محاسباتی را اسپایک&zwnj ...

فوجيتسو و فروش يک ابر کامپيوتر 20 ترافلاپي به کانن

کاربران ابر کامپیوتر فوجیتسو را اغلب موسسه‌های تحقیقاتی و علمی تشکیل می‌دهند. اولین نمونه آن، به دانشگاه توکیو فروخته شد و سال گذشته هم اداره هواشناسی مرکزی تایوان، میزبان یکی از FX10 های ساخت فوجیتسو بود. به گفته سخن‌گوی شرکت، فروش یک نمونه تجاری به کانن نه اولین، بلکه یکی از مهم‌ترین معام.   ...

IBM موفق به ساخت تراشه ای شد که می تواند مانند انسان فکر کند !

این تراشه که ترونورث نامیده می‌شود، هنوز نیازمند برنامه‌ای است که بتواند از عملکرد آن پشتیبانی کند زیرا عملکرد آن با تراشه‌های سنتی که هنوز در کامپیوترهای مدرن کاربردی هستند، متفاوت است. در پردازشگرهای سنتی، پردازشگر و حافظه از یکدیگر مجزا هستند، اما در مدل به‌هم‌پیوسته ترونورث، پردازش داده‌ها در زمانی مشابه تراشه‌های سنتی از کارایی بیشتری برخوردارند. در این تراشه به‌جای صفر و یک‌های دوتایی،‌ واحد‌های محاسباتی را ...

درباره ما

شرکت دانش بنیان رایانش سریع هزاره ایرانیان به منظور طراحی، ساخت و گسترش کاربردهای رایانش سریع در علوم مختلف پایه گذاری شده است. این شرکت به دنبال ایجاد بستری با ظرفیت محاسباتی و ذخیره سازی بالا مبتنی بر CPU و GPU می باشد تا بتواند از آن طریق سرویسهای متعددی را به محققین، اساتید، دانشجویان تحصیلات تکمیلی و سایر علاقه مندان این حوزه ارائه نماید.


خدمات این شرکت در حوزه های زیر ارائه می گردد :

  • - رایانش سریع و ابری (HPC & Cloud Computing)
  • - کلان داده و پردازش داده های حجیم (Big Data Analysis)
  • - طراحی و پیاده سازی کلاسترهای محاسباتی مبتنی بر Linux
  • - طراحی و اجرای پروژه های انبار داده Data Warehouse
  • - مجازی سازی و اجرای شبکه های مبتنی بر نرم افزار (Software Defined Network)
شرکت دانش بنیان رایانش سریع هزاره ایرانیان