সূচনা: বাংলা ভাষার শব্দমালার সংখ্যাগত গবেষণা

বাংলা ভাষার ডাটা কালেকশন ও অ্যানালাইজ করেছিলাম একবার তবে সেটাকে ইমপ্রুভ করে আবার করছি। এখন ওটার সাথে আরো কি কিছু যোগ করা উচিত নাকি সেটা জানানোর অনুরোধ থাকলো সবার কাছে।

এখানে আমরা যা যা ক্যালকুলেট করবো তার সবকয়টাই আমাদের পরবর্তী অ্যানালাইসিসে কাজে লাগবে। যেকোন ডাটা সেট অ্যানালাইজ করতে আপাতত এই বিষয়গুলি ঠিক করেছি:

১) কোন বর্ণ কতবার আসলো
২) স্বরবর্ণগুলি এককভাবে কতবার আসলো
৩) ব্যঞ্জনবর্ণগুলি এককভাবে কতবার এসেছে
৪) ব্যঞ্জনবর্ণগুলি সংযুক্তভাবে কতবার এসেছে
৫) যুক্তবর্ণগুলির মাঝে সংযুক্ত হওয়ার বেলায় কোন অক্ষরের পরে বেশী ব্যঞ্জনবর্ণ সংযুক্ত হয়েছে
৬) স্বরবর্ণগুলির কার-রূপটা একক ব্যঞ্জনবর্ণের সাথে কয়বার,২টি ব্যঞ্জনবর্ণের যুক্তবর্ণের সাথে কয়বার আসছে, ৩টি ব্যঞ্জনবর্ণের যুক্তবর্ণের সাথে কয়বার আসছে
৭) য-ফলার সংখ্যা কতটি (এটা প্রয়োজন হবে কারণ ইউনিকোডে য-ফলাকে স্বীকৃতি দিয়ে একটা কোড দেয়া হয়েছে এর জন্যে সুতরাং আমরা য-ফলা হসন্ত চেপে য দিয়ে টাইপ করবো নাকি সরাসরি টাইপ করবো সেটার সিদ্ধান্ত নিতে এর ফ্রিকোয়েন্সী লাগবে)
৮) স্বরবর্ণের ব্যঞ্জনবর্ণের সাথে যুক্ত না হয়ে এককভাবে যুক্ত হওয়ার ঘটনা

এভাবে পাওয়া ডাটা থেকে আরো কিছু ডাটা আমরা পাবো যা আলাদা করে বের করার প্রয়োজন নেই:

#১) একটি বাক্যে যুক্তবর্ণের সর্বমোট সংখ্যা কত % ?? (এটা কাজে লাগবে অভ্র নাকি রোকেয়া স্টাইল কোনটা প্রাধান্য পাবে এটা ঠিক করতে, যদি যুক্ত বর্ণ বেশি হয় তাহলে মনে হয় অভ্র যাতে কি প্রেস কম করতে হয় নয়তো রোকেয়া -ব্যাপারটা এমন আরকি)
#২) স্বরবর্ণের আলাদা আলাদা রূপের কোনটার হার কত % ??? ( এটা কাজে লাগবে প্রভাতের ি ও ই এর জন্যে আলাদা কি রাখার স্টাইলের বিপরীতে রোকেয়া বা বিজয়ের h বা g চেপে সুইচিং স্টাইলের তুলনা করতে)

একটি ব্যবহারিক উদাহরণ (কপিপেস্ট উদাহরণ দিচ্ছি):

ধরুন, আমাদের যে বাক্য ইনপুট দেয়া হল তা হল:
এটা ক্যাডেট কলেজ ব্লগ। সদস্যদের ৯৯.৯৯% অবশ্যই ক্যাডেট

এখন এই বাক্যের অক্ষরগুলিকে বিভিন্নভাবে দেখলে আমরা যা যা গুণতে পারি তা হল:
১) মোট বর্ণ: ৪৫টি ( হসন্ত সহ)
-এটা=৩, ক্যাডেট=৭, কলেজ=৪, ব্লগ=৪, সদস্যদের=৮, ৯৯.৯৯%=৬, অবশ্যই=৬, ক্যাডেট=৭
২) স্বরবর্ণ গুলি একক রূপে এসেছে: ২ বার
- এটা তে “এ”, অবশ্যই তে “ই”
৩) একক ব্যঞ্জনবর্ণ: ১৫টি
টা, ডে, ট, ক, লে, জ, গ, স, দ, দে, র, ব, শ্য, ডে, ট
৪) সংযুক্ত ব্যঞ্জনবর্ণ: ৪টি
ক্যা, ব্ল, শ্য, ক্যা
৫) যুক্ত ব্যঞ্জনবর্ণগুলির সংযুক্তি তালিকার ক্রম:
য- ৩ বার (ক এর পরে য-ফলাতে, শ এর পরে য-ফলাতে), ল- ১ বার( ব এর পরে ল দিয়ে ব্লগ বানানে)
৬) স্বরবর্ণের কার রূপে সংযুক্ত হওয়ার ক্রম:
আ-কার= ১, এ-কার= ২
৭) য-ফলা ৩টি
৮) স্বরবর্ণের ব্যঞ্জনবর্ণের সাথে যুক্ত না হয়ে এককভাবে যুক্ত হওয়ার ঘটনা: ১টি
( অবশ্যই বানানে ই-কার হয়নি শ্য এর সাথে)

*********

এইতো মূল কনসেপ্ট এটাই…… এখন উদ্দেশ্য ডাটা সংগ্রহ করে স্ট্যাটিসটিক্যালি অ্যানালাইজ করা ও সেটার জন্যে প্রোগ্রামিং কোড লিখা……. আমার ইচ্ছা আছে সামহোয়ারইন ব্লগ, আমার ব্লগ, সচলায়তন, প্রথম আলো ব্লগ, টেকটিউনস, ক্যাডেট কলেজ ব্লগ ব্লগগুলি থেকে কমপক্ষে ৫ লক্ষ বাক্য সংগ্রহ করে তা অ্যানালাইজ করে সেটা নিয়ে কোন একটা পেপার দাঁড় করানোর চেষ্টা করা, বাংলা বর্ণের গঠন নিয়ে একটি পেপার লিখেছিলাম যেটি একটি কনফারেন্সে এক্সেপ্টেড হয়েছে তাই উৎসাহ এখন আরো ডাবল হয়ে গিয়েছে :)

ভাল থাকবেন

Leave a Reply

Your email address will not be published. Required fields are marked *