AstekHPC

bigdata

پردازش متن با Jhazm نسخه جاوا برای هضم برای زبان فارسی

jHazm نسخه جاوایی هضم از کتابخانه پایتون برای پردازش زبان فارسی است. کتابخانه HAZM برای انجام پردازش­ های لازم بر روی زبان فارسی توسط دانشجویان دانشگاه علم و صنعت در سال ۱۳۹۲ به صورت متن­ باز و با استفاده از کتابخانه NLTK منتشر شد. لایسنس این ابزار MIT میباشد. هضم، ابتدا برای زبان پایتون و بر روی سیستم عامل لینوکس طراحی شد ولی بعدها توسط تیم توسعه دهنده برای زبان جاوا و C# نیز بازطراحی شد.

 با توجه به این که نسخه Jhazm با زبان برنامه نویسی جاوا توسعه داده شده است قابلیت استفاده از آن در پلتفرم ها وجود دارد. تمیز و مرتب کردن متن، جداسازی جمله‌ها و واژه‌ها، ریشه‌یابی، تحلیل صرفی جمله، تجزیه نحوی جمله و غیره از قابلیت­های هضم است. در زیر عناوین مهم قابلیت های کتابخانه جی هضم آورده شده است.

  • تمیز کردن متن (Text cleaning) برای یادگیری normalizer  به آموزش نرمال سازی متن با jhazm  مراجعه کنید.     
  • قطعه بند کلمه و جمله (Sentence and word tokenizer)
  • ریشه یاب کلمه (Word lemmatizer)
  • ماژول بن یاب یا Stemmer
  • ماژول StopWord Remover
  • برچسب معنایی (POS tagger)
  • ماژول کار با عبارات با قاعده RegexPattern
  • تجزیه کننده وابستگی (Dependency parser)
  • تحلیل صرفی جمله
  • تجزیه نحوی جمله
  • واسط استفاده از داده‌های زبان فارسی
  • سازگاری با بسته NLTK

در آینده نزدیک تمام امکانات بالا به مرور آموزش داده خواهد شد.

                          پردازش متن با Jhazm

برای پیکره دادگان از منابع زیر استفاده میشود:

نیازمندی ها

برای یادگیری بیشتر ویدئوی زیر را که البته با زبان پایتون است را مشاهده کنید.

 

 

 ---------------------------------------------------

منبع : خانه بیگ دیتای ایران 

 

Login
HPCLab Media
HPCLab RSS

Site encyclopedia section

In this section, you will find articles and information you need.

Paper Categories
نرم افزار پایش کلاسترهای محاسباتی

این نرم افزار میزان استفاده از منابع محاسباتی و همچنین کار های در حال اجرا بر روی کلاستر را پایش میکند. به منظور نصب نسخه موبایل استک ابتدا JuiceSSH نصب شود.

Download More

PuTTY

PuTTY is a free and open-source terminal emulator, serial console and network file transfer application. It supports several network protocols, including SCP, SSH, Telnet, rlogin, and raw socket connection. It can also connect to a serial port.

Download More

Winscp

WinSCP is a free and open-source SFTP, FTP, WebDAV and SCP client for Microsoft Windows. Its main function is secure file transfer between a local and a remote computer.

Download More

VNC Viewer

VNC offers a deceptively simple service it allows you to view and control a remote system as though seated next to it, wherever you are.

Download More

NEWS

ابر رایانه واتسون جان زن مبتلا به سرطان را نجات داد

با این که توانایی این کامپیوتر عظیم برای شناسایی بیماری‌‌های مختلف و آنالیز علائم حیاتی بیماران بسیار بالا و احتمالا از هر پزشکی بر روی کره‌ی زمین دقیق‌تر است، اما مطمئنا حداقل تا چندین سال دیگر شاهد به کار گرفته شدن هوش مصنوعی و کامپیوترهای قدرتمندی نظیر ابر رایانه واتسون در مراکز درمانی و بیمارستان‌ها نخواهیم بود. علاوه بر این برای این که این نوع از سیستم‌های مبتنی بر AI بتوانند یک بیماری را ...

چین قدرتمندترین ابر کامپیوتر جهان را ساخت

بحث ابر کامپیوترها همواره برای عاشقان دنیای تکنولوژی و فناوری جذاب و در رتبه اول قرار داشته است. کامپیوتر از آغاز شروع به کار خود مسیر پر پیچ و خم را طی کرده‌اند تا به لپ‌تاپ‌های امروزی که وزنی کمتر از 2 کیلوگرم داشته و دارای سرعت پردازشی بسیار خوبی هستند، رسیده‌اند. جالب است بدانید کامپیوترهای اولیه حجمی به‌اندازه یک اتاق 20 متری را اشغال می‌کردند و برای روشن شدن نیازمند انرژی الکتریکی بسیار ...

IBM موفق به ساخت تراشه ای شد که می تواند مانند انسان فکر کند !

این تراشه که ترونورث نامیده می‌شود، هنوز نیازمند برنامه‌ای است که بتواند از عملکرد آن پشتیبانی کند زیرا عملکرد آن با تراشه‌های سنتی که هنوز در کامپیوترهای مدرن کاربردی هستند، متفاوت است. در پردازشگرهای سنتی، پردازشگر و حافظه از یکدیگر مجزا هستند، اما در مدل به‌هم‌پیوسته ترونورث، پردازش داده‌ها در زمانی مشابه تراشه‌های سنتی از کارایی بیشتری برخوردارند. در این تراشه به‌جای صفر و یک‌های دوتایی،‌ واحد‌های محاسباتی را اسپایک&zwnj ...

فوجيتسو و فروش يک ابر کامپيوتر 20 ترافلاپي به کانن

کاربران ابر کامپیوتر فوجیتسو را اغلب موسسه‌های تحقیقاتی و علمی تشکیل می‌دهند. اولین نمونه آن، به دانشگاه توکیو فروخته شد و سال گذشته هم اداره هواشناسی مرکزی تایوان، میزبان یکی از FX10 های ساخت فوجیتسو بود. به گفته سخن‌گوی شرکت، فروش یک نمونه تجاری به کانن نه اولین، بلکه یکی از مهم‌ترین معام.   ...

IBM موفق به ساخت تراشه ای شد که می تواند مانند انسان فکر کند !

این تراشه که ترونورث نامیده می‌شود، هنوز نیازمند برنامه‌ای است که بتواند از عملکرد آن پشتیبانی کند زیرا عملکرد آن با تراشه‌های سنتی که هنوز در کامپیوترهای مدرن کاربردی هستند، متفاوت است. در پردازشگرهای سنتی، پردازشگر و حافظه از یکدیگر مجزا هستند، اما در مدل به‌هم‌پیوسته ترونورث، پردازش داده‌ها در زمانی مشابه تراشه‌های سنتی از کارایی بیشتری برخوردارند. در این تراشه به‌جای صفر و یک‌های دوتایی،‌ واحد‌های محاسباتی را ...

درباره ما

شرکت دانش بنیان رایانش سریع هزاره ایرانیان به منظور طراحی، ساخت و گسترش کاربردهای رایانش سریع در علوم مختلف پایه گذاری شده است. این شرکت به دنبال ایجاد بستری با ظرفیت محاسباتی و ذخیره سازی بالا مبتنی بر CPU و GPU می باشد تا بتواند از آن طریق سرویسهای متعددی را به محققین، اساتید، دانشجویان تحصیلات تکمیلی و سایر علاقه مندان این حوزه ارائه نماید.


خدمات این شرکت در حوزه های زیر ارائه می گردد :

  • - رایانش سریع و ابری (HPC & Cloud Computing)
  • - کلان داده و پردازش داده های حجیم (Big Data Analysis)
  • - طراحی و پیاده سازی کلاسترهای محاسباتی مبتنی بر Linux
  • - طراحی و اجرای پروژه های انبار داده Data Warehouse
  • - مجازی سازی و اجرای شبکه های مبتنی بر نرم افزار (Software Defined Network)
شرکت دانش بنیان رایانش سریع هزاره ایرانیان