آواز کی پہچان کو سمجھنا

مسائل کو ختم کرنے کے لئے ہمارے آلے کو آزمائیں





خود سوفی پر آرام سے بیٹھے ہوئے تصور کریں اور صرف اپنے کمپیوٹر یا لیپ ٹاپ یا سیل فون کو آرڈر دیں کہ کوئی خط ٹائپ کرنا یا کچھ کمانڈز پر عمل کرنا جیسے آسان کام انجام دیں۔ کیا یہ ممکن ہے؟

یقینا یہ ہے ، وائس کی پہچان تصویر میں آجاتی ہے۔




تعریف کے مطابق جانا یہ انسانی تقریر کو تسلیم کرنے کا عمل ہے اور اسے متن کی شکل میں ضابطہ کشائی کرنا ہے۔

اصول

کا بنیادی اصول آواز کی پہچان اس حقیقت میں شامل ہے کہ کسی بھی انسان کے ذریعہ بولے گئے الفاظ یا الفاظ ہوا میں کمپن کا سبب بنتے ہیں ، جسے آواز کی لہروں کے نام سے جانا جاتا ہے۔ یہ لگاتار یا ینالاگ لہروں کو ڈیجیٹلائزڈ اور پروسیس کیا جاتا ہے اور پھر مناسب الفاظ اور پھر مناسب جملے کو ڈی کوڈ کیا جاتا ہے۔



آواز کی پہچان

تقریر کی شناخت کے نظام کے اجزاء

تو ایک بنیادی اسپیچ ریکگنیسیشن سسٹم پر مشتمل ہوتا ہے؟

تقریر کی شناخت کے نظام کے اجزاء

  • آلہ پر گرفت والی تقریر : یہ ایک مائکروفون پر مشتمل ہے ، جو صوتی لہر سگنلز کو برقی سگنلز اور ایک ینالاگ کو ڈیجیٹل کنورٹر میں تبدیل کرتا ہے جو کمپیوٹر کو سمجھنے والے مجرد ڈیٹا کو حاصل کرنے کے لئے ینالاگ سگنلز کو نمونے اور ڈیجیٹائز کرتا ہے۔
  • ایک ڈیجیٹل سگنل ماڈیول یا ایک پروسیسر : یہ خام تقریر سگنل پر کارروائی کرتا ہے جیسے فریکوینسی ڈومین کی تبدیلی ، صرف ضروری معلومات کی بحالی وغیرہ۔
  • پہلے سے طے شدہ سگنل اسٹوریج : تقریر کی شناخت کے مزید کام انجام دینے کے لئے پہلے سے تیار شدہ تقریر میموری میں محفوظ کی جاتی ہے۔
  • حوالہ تقریر کے نمونے : کمپیوٹر یا سسٹم پہلے سے طے شدہ تقریر کے نمونوں یا ٹیمپلیٹس پر مشتمل ہوتا ہے جو میموری میں پہلے سے ذخیرہ ہوتا ہے ، جس کو ملاپ کے حوالہ کے طور پر استعمال کیا جا.۔
  • پیٹرن مماثل الگورتھم : اصل الفاظ یا الفاظ کے انداز کا تعین کرنے کے لئے نامعلوم تقریر سگنل کا حوالہ تقریر کے نمونہ سے موازنہ کیا جاتا ہے۔
سسٹم کا کام کرنا

اب ہم دیکھتے ہیں کہ پورا نظام حقیقت میں کیسے کام کرتا ہے۔


سسٹم کا کام کرنا

  • تقریر کو دونک لہر کی شکل میں دیکھا جاسکتا ہے ، یعنی سگنل لے جانے والے پیغام کی معلومات۔ ایک عام انسان جو اس کے فن کاروں (تقریر کے اعضاء) کی محدود شرح کا حامل ہے وہ اوسطا 10 آواز فی سیکنڈ کی شرح سے تقریر کرسکتا ہے۔ اوسط معلومات کی شرح تقریبا 50 50-60 بٹس / سیکنڈ ہے۔ اس کا مطلب ہے کہ تقریر سگنل میں دراصل صرف 50 بٹس / سیکنڈ کی معلومات کی ضرورت ہے۔ یہ صوتی ویوفارم مائکروفون کے ذریعہ مطابق بجلی کے سگنل میں تبدیل ہوتا ہے۔ ینالاگ سے ڈیجیٹل کنورٹر مجلسی وقفوں پر لہر کی عین مطابق پیمائش کرکے اس ینالاگ سگنل کو ڈیجیٹل نمونوں میں بدل دیتا ہے۔
  • ڈیجیٹائزڈ سگنل میں وقتا فوقتا سگنلز کے ایک دھارے پر مشتمل ہوتا ہے جس میں فی سیکنڈ میں 16000 اوقات میں نمونہ لیا جاتا ہے اور یہ اصل انجام دینے کے لئے موزوں نہیں ہے تقریر کی پہچان عمل کے طور پر پیٹرن آسانی سے واقع نہیں کیا جا سکتا. اصل معلومات کو نکالنے کے ل time ، سگنل کو ٹائم ڈومین میں تعدد ڈومین میں سگنل میں تبدیل کیا جاتا ہے۔ یہ FFT تکنیک کا استعمال کرکے ڈیجیٹل سگنل پروسیسر نے کیا ہے۔ ڈیجیٹل سگنل میں ، ہر 1/100 کے بعد جزوویںایک سیکنڈ کا تجزیہ کیا جاتا ہے اور اس طرح کے ہر جزو کی فریکوئنسی اسپیکٹرم کی گنتی کی جاتی ہے۔ دوسرے الفاظ میں ڈیجیٹائزڈ سگنل فریکوئنسی ایمپلیٹیڈس کے چھوٹے حصوں میں تقسیم ہوتا ہے۔
  • ہر طبقہ یا تعدد کا گراف انسانوں کے ذریعہ کی جانے والی مختلف آوازوں کی نمائندگی کرتا ہے۔ کمپیوٹر مخصوص زبان کے ذخیرہ صوتیات کے ساتھ نامعلوم طبقات کی مماثلت انجام دیتا ہے۔ اس پیٹرن کی مماثلت 3 طریقوں سے کی جاتی ہے۔

صوتی صوتی نقطہ نظر کا استعمال : صوتی صوتی نقطہ نظر میں ، عام طور پر پوشیدہ مارکوف ماڈل استعمال ہوتا ہے۔ اس ماڈل نے تقریر کی پہچان کے ل non غیر عین ممکنہ ماڈل تیار کیا ہے۔ یہ ماڈل دو متغیروں پر مشتمل ہے - کمپیوٹر میموری میں محفوظ کردہ فونز کی مخفی ریاستیں اور ڈیجیٹل سگنل کے مرئی تعدد طبقہ۔ ہر فونم کی اپنی امکانی صلاحیت ہوتی ہے اور احتمال کے مطابق یہ طبقہ فونم کے ساتھ ملاپ کیا جاتا ہے اور اس کے بعد ملاپ والے فونیمز کو اکٹھا کرکے زبان کے محفوظ کردہ گرائمر قواعد کے مطابق صحیح الفاظ تشکیل دیتے ہیں۔

پیٹرن کی پہچان کے طریقہ کار کا استعمال : پیٹرن کی پہچان کے نقطہ نظر میں ، نظام کو کسی بھی زبان کے لئے ایک خاص تقریر کے نمونہ کے ساتھ تربیت دی جاتی ہے اور نامعلوم تقریر کے نمونوں کا موازنہ ریفرنس تقریر کے پیٹرن سے کیا جاتا ہے جس میں ٹائم وارپنگ کی تکنیک کا استعمال کرتے ہوئے سگنل کے مابین فاصلہ طے کیا جاتا ہے۔

مصنوعی ذہانت کا استعمال : مصنوعی ذہانت کا نقطہ نظر بنیادی علمی وسائل کے استعمال پر مبنی ہے جیسے ورنکرم پیمائش کی بنیاد پر بولی جانے والی آوازوں کا علم ، مناسب معنی خیز اور نحوی الفاظ کا علم۔

عوامل جن پر تقریر کی شناخت کا نظام انحصار کرتا ہے

تقریر کی شناخت کا نظام مندرجہ ذیل عوامل پر منحصر ہے:

  • الگ تھلگ الفاظ : بولے جانے والے لگاتار الفاظ کے مابین توقف کی ضرورت ہے کیونکہ مسلسل الفاظ اوورلپ ہوسکتے ہیں جب لفظ شروع ہوتا ہے یا ختم ہوتا ہے تو نظام کو سمجھنا مشکل ہوجاتا ہے۔ اس طرح مسلسل الفاظ کے درمیان خاموشی اختیار کرنے کی ضرورت ہے۔
  • سنگل اسپیکر : ایک ہی وقت میں تقریر کو ان پٹ دینے کی کوشش کرنے والے بہت سے اسپیکر اشاروں اور رکاوٹوں کو اوور لیپنگ کرنے کا سبب بن سکتے ہیں۔ استعمال شدہ تقریر کی شناخت کے زیادہ تر نظام اسپیکر پر منحصر نظام ہیں۔
  • ذخیرہ الفاظ : بڑی الفاظ کے ساتھ زبانیں چھوٹی الفاظ کے مقابلے میں پیٹرن میچنگ کے ل considered سمجھنا مشکل ہے کیونکہ مؤخر الذکر میں مبہم الفاظ ہونے کے امکانات کم ہیں۔
ونڈوز 7 پر تقریر کی شناخت کا نظام

میں تقریر کی شناخت کے نظام کے لئے ونڈوز 7 استعمال کرنے والے کسی بھی شخص کے لئے درج ذیل اقدامات کی سفارش کرنا چاہتا ہوں

  • اسٹارٹ مینو سے یا آئیکون پر کلک کرکے کنٹرول پینل کھولیں۔
  • آسانی کی رسائی کو منتخب کریں اور پھر تقریر کی شناخت پر کلک کریں۔
  • اگلا کلک کریں مائکروفون مرتب کریں اور دستیاب اختیارات میں سے ڈیسک ٹاپ مائکروفون کو منتخب کریں۔
  • آگے اسپیچ ٹیوٹوریل لیں اور دی گئی ہدایات پر عمل کریں۔
  • اس کے بعد ، بہتر اختیارات کے ل your اپنے کمپیوٹر کی تربیت کریں تاکہ کمپیوٹر آپ کے اسپیچ سگنل کا ایک خاص نمونہ محفوظ کرے۔ یہ 'اپنے کمپیوٹر کو بہتر طور پر سمجھنے کے لئے تربیت دیں' کے اختیار پر کلک کرکے اور پھر ہدایات پر عمل کرتے ہوئے کیا جاتا ہے۔
  • اب تقریر کی شناخت کے آئیکن کو شروع کریں اور اپنی تقریر کو کمپیوٹر پر ڈکٹیٹ کرنا شروع کریں۔ آپ کمپیوٹر لغت میں اپنے الفاظ بھی شامل کرسکتے ہیں۔
عملی تقریر کی شناخت کے نظام: HM2007 کا استعمال

اسپیچ ریکگنیشن آئی سی کا استعمال کرتے ہوئے ایک عملی تقریر کی شناخت کا نظام بنایا جاسکتا ہے HM2007 . HM2007 ایک 48 پن IC ہے جو تقریر کی شناخت کی تقریب فراہم کرتا ہے۔ یہ دو طریقوں میں کام کرتا ہے: دستی وضع یا سی پی یو وضع۔ دونوں طریقوں میں ، آئی سی کو صارف کی طرف سے الفاظ کو پہچاننے کے لئے سب سے پہلے تربیت دی جاتی ہے جو کہ ہر ایک کیجیے پر دبے ہوئے نمبر کے متعلق ہر لفظ کو کہتے ہیں۔ آئی سی ہر لفظ سگنل کو لفظ کے مطابق میموری کی جگہ پر اسٹور کرتا ہے۔ آئی سی سے ڈیٹا آؤٹ پٹ کو مائکرو قابو کرنے والے کے ساتھ انٹرفیس کیا جاتا ہے جہاں سے یہ ایل سی ڈی پر ظاہر ہوتا ہے۔

عملی تقریر کی شناخت کے نظام

عام طور پر ہم HM2007 آپریشن کے لئے دستی وضع استعمال کرتے ہیں۔

  • HM2007 ایک RDY پن پر مشتمل ہے جو ایک فعال کم پن ہے جس کی نشاندہی کرتے ہوئے آئی سی تربیت کے مقصد کے لئے تیار ہے۔
  • آواز کے ان پٹ کو آئی سی کے MICIN پن سے منسلک مائکروفون کے ذریعے دیا جائے گا۔
  • آای سی کو ایک کیپیڈ کے ساتھ انٹرفیس کیا جاتا ہے جو ہر لفظ سے مماثل نمبر ان پٹ فراہم کرنے کے لئے استعمال ہوتا ہے۔ آئی سی دو کاموں میں کام کرتا ہے۔ کلیئر اور ٹرین۔ جب کی بورڈ پر ٹرین کی بٹن دبائی جاتی ہے تو ، آئی سی اس کی تربیت کا عمل شروع کرتا ہے۔
  • صارف ‘ٹرین’ فنکشن کی کلید کو دبانے سے پہلے ایک نمبر کی دباتا ہے اور مائکروفون کو مطلوبہ لفظ کہتا ہے۔
  • آئی سی ایم ای (میموری ایبل ایبل) پن کو ایک اعلی سگنل بھیجتا ہے جو ایس آر اے ایم کے اسی ایم ای پن سے جڑا ہوا ہے۔ دبے ہوئے نمبر کے مطابق 8 بٹ ڈیٹا سگنل بیرونی بس کے ذریعہ ایس آر اے ایم (بیرونی رام) میں محفوظ کیا جاتا ہے۔
  • صوتی ان پٹ کا پتہ لگانے کے بعد ، RDY پن زیادہ منطق پر ہے اور آئی سی تسلیم شدہ حالت میں آجاتا ہے ، جہاں یہ شناخت کے عمل کو شروع کرتا ہے۔
  • عمل کا نتیجہ ڈی این بس (ڈیٹا ایبل ایبل) پن کے ساتھ ڈیٹا بس کے ذریعے دیا جاتا ہے۔
  • اس کے بعد 8 بٹ ڈیٹا مائیکروکنٹرولر کو سیریز انٹرفیس پروسیسر کے ذریعہ دیا جاسکتا ہے یا پھر لیچ آئی سی 74 ایچ سی 573 کا استعمال کرتے ہوئے پہلے لیچچ کیا جاسکتا ہے۔
  • مائکروکانٹرولر کو ایل سی ڈی کے ساتھ انٹرفیس کیا جاتا ہے اور اس طرح پروگرام کیا جاتا ہے کہ ڈسپلے پر متعلقہ لفظ ظاہر ہوتا ہے۔

واحد احتیاط جس کی ضرورت ہے وہ یہ ہے کہ ہمومنومس (اسی طرح کی آواز والے الفاظ) کا استعمال نہ کریں اور آواز میں جوش و خروش کا بھی خیال رکھیں۔

تو ، یہ سب کچھ کیسے ہے بنیادی تقریر کی شناخت کا نظام کام کرتا ہے۔ مزید کوئی معلومات شامل کرنے کا خیرمقدم کرتے ہیں۔

تصویری کریڈٹ

  • بذریعہ تقریر شناختی نظام گسٹٹک
  • اسپیچ ویوفارم ہیرا پھیری کے ذریعہ دادیسپ

تقریر اور اسپیکر کی پہچان کا تعارف - تقریر کی شناخت کے نظام کے اجزاء - رچرڈ ڈی پیوکوک اور ڈیرل ایچ گراف۔