برای پردازش زبان طبیعی فارسی فعالیت ها و پروژه های بسیار زیادی انجام شده است. متاسفانه هنوز این تلاش ها نتیجهی کاملی نداشته است و زبان فارسی بر خلاف بیشتر زبان های مدرن به صورت کامل قابل پردازش نیست. عدم امکان پردازش کامل زبان فارسی باعث عدم وجود پیاده سازی فرامین صوتی فارسی در بسیاری از گجت ها و نرم افزارها شده است. تنها پیشرفتی که تا به حال موفق بوده است عرضه نرم افزار تجاری برای پردازش اعداد در زبان فارسی بوده است. در ادامه چند لینک مرتبط در خصوص پردازش زبان طبیعی (برای زبان فارسی) را فهرست کرده ام:
- پردازش متن و زبان طبیعی دانشکده برق و کامپیوتر دانشگاه تهران
- آزمایشگاه پردازش زبان طبیعی دانشگاه علم و صنعت ایران
- پایگاه داده های زبان فارسی
- هضم برای پردازش زبان فارسی در پایتون
- باز برای استخراج آزاد اطلاعات در زبان فارسی مبتنی بر بخش از دادههای روزنامه همشهری
- آزمایشگاه NLP دانشگاه شریف (متروکه)
- گروه پژوهشی پردازش صوت
- دستور زبان پارسی (نگارش آقای دکتر نوید فاضل)
- گروه پژوهشی دادگان
- داده های متنی مرتب شده زبان پارسی (Corpora)
- پارس خوان پروژه ای رایگان و منبع باز و خواننده متن فارسی است.
- فهرست منابع Association for Computational Linguistics برای زبان فارسی
- فهرست Persian NLP از آقای Jon Dehdari
- دادههای برچسب خورده بیجانخان
فهرست خوبی را جمع آوری کرده اید. امیدوارم بتوانید در طول سال های آتی آن را به روز هم نگه دارید.
با سلام،
ما در گروه مهندسی کامپیوتر دانشگاه گیلان هم الان مدت بیش از یک سال هست که گروه پردازش زبان طبیعی رو راه اندازی کردیم.
نشانی وبسیات ما: http://nlp.guilan.acir
به امید پیشرفت در این زمینه به خصوص برای زبان فارسی، و به امید اینکه دوستانی که در این شاخه فعالیت دارند همکاری و ارتباط بیشتری داشته باشند.
با سپاس-حسینی