چند مدّت پیش داشتم Google Labs رو دوباره لیستشو نگاه می کردم که ببینم گوگل چه محصولات جدیدی رو داره روش کار می کنه که در آینده ارائه بده. یه مورد خیلی جالب رو دیدم که خیلی جذبم کرد…
گوگل اسکرایب! می تونید توی این آدرس ببینیدش:
http://scribe.googlelabs.com
اول که واردش میشید به نظر فقط یک ادیتور ساده میاد، اما این ادیتور می تونه کلمه بعدی که می خواین بنویسید رو حدس بزنه! مثلاً بنویسید I'm so excited و بعد گوگل به شما پینهاد میده کلمه بعدی چی باشه! همینطوری اگر Space بزنید می تونید داستان بنویسید ).
همینطور اگر یک لینک بنویسید و Space بزنید خودش حدس میزنه به جای لینک چی قرار بده، مثلاً بنویسید syavash.com خودش با Siavash Mahmoudian جایگزین می کنه!
روش کار کردن این جور برنامه ها معمولاً خیلی سخت نیست، من حدس میزنم گوگل با بانک اطلاعاتی n-grams ای که در اختیار داره این کار رو کرده. هر n-gram مجموعه ای از n کلمه متوالی هست. مثلاً this is a book میشه یک ۴gram یا مثلاً He is the میشه یک ۳gram. گوگل یکی از بزرگترین مجموعه های n-gram رو بر اساس تمام کتاب هایی که به متن تبدیل کرده در زبان های مختلف داره.
نکته جالب این هست که می تونید این n-gram ها رو از این آدرس به صورت مجانی دریافت کنید و آزمایشات خودتونو انجام بدید:
http://ngrams.googlelabs.com/datasets
همینطور یک مقایسه گر خوب هم بر اساس تاریخ و کلمه داره که اینجا قابل دسترس هست:
http://ngrams.googlelabs.com
متأسفانی این n-gram ها هنوز برای زبان فارسی موجود نیستن، اما فکر می کنم خود ما ایرانیا بتونیم با Crawl کردن سایت های خبری و بلاگ ها دو مجموعه n-gram کتابی و غیر کتابی تهیه کنیم. اگر کسی مایل به کمک کردن بود حتماً بهم بگه.
تشکر سیاوش جان
من استفاده کردم و خیلی خیلی واسم جالب بود! مخصوصا زمانی که space میزنی خودش حدس میزنه کلمات بعدی رو و می نویسه!!!!
من به شدت تمایل به کمک تو این پروژه رو دارم.کجا رو باید امضا کنم؟ :پی
ey jan crawler:X man mimiram vase crawler…heif ke alan vaght nadaram:(