داده در خدمت زبان و ادبیات!

اول به این فکت توجه کنیم:

این رو که دیدم یاد گزارش تد (link) افتادم از google books و پیش خودم گفتم خیلی از تحلیل‌های تغییر و تحولات زبان فارسی از طریق ابزار داده امکان‌پذیره. فرض کنید بتونیم صفحات آنلاین روزنامه‌ها را که خیلی‌هایش به رایگان در دسترسه رو با ماشین بخوانیم و به فرهنگستان زبان و ادب فارسی گزارش بدهیم که چه تحولاتی در حال وقوع است. تحلیل‌های سیاسی و اقتصادی زیادی هم ذیل فقط همین تحلیل‌های شمارش کلمات قابل اجراست. مثلا پرتکرارترین کلمات در روزنامه‌های اصلاح‌طلب یا اصولگرا و یا پرتکرارترین کلمات در روزنامه‌های اقتصادی. احتمال میدم پیش از ما خیلی‌ها روش کار کرده باشند ولی از دید تطورات زبان فارسی شاید کمتر کسی به این ظرفیت توجه کرده باشد. چه کلماتی به مرور زمان از ادبیات گفتاری و نوشتاری ما حذف شدند و چه کلماتی افزوده شدند؟ آیا کلمات افزوده‌شده به زبان فارسی هستند یا زبان بیگانه؟ آیا اگر از بان بیگانه هستند معادل فارسی خوبی نداشته‌اند؟ چه رویدادهای مهمی استعمال یک کلمه را زیاد کرده است؟ فرمول سانسور یا پروپاگاندا قابل استخراج است.