[ad_1]
به لطف پیشرفت در پردازش گفتار و زبان طبیعی، امیدوارم روزی بتوانید از دستیار مجازی خود بپرسید بهترین مواد تشکیل دهنده سالاد چیست. اکنون این امکان وجود دارد که از گجت موجود در خانه خود بخواهید موسیقی پخش کند یا فرمان صوتی را روشن کنید، این ویژگی قبلاً در برخی از دستگاه ها وجود دارد.
اگر به زبان مراکشی، الجزایری، مصری، سودانی یا هر زبان عربی دیگری صحبت می کنید که با منطقه و منطقه بسیار متفاوت است، برخی از آنها همدیگر را نمی فهمند، داستان متفاوت است. اگر زبان مادری شما عربی، فنلاندی، مغولی، ناواهو یا هر زبان دیگری با سطح پیچیدگی گرامری بالا باشد، ممکن است احساس کنید که رها شده اید.
این ساخت و سازهای پیچیده باعث شد تا احمد علی به دنبال راه حلی برای خود بیفتد. او یک مهندس کلیدی برای گروه فناوری زبان عربی در مؤسسه تحقیقات کامپیوتری قطر (QCRI)، بخشی از بنیاد دانشگاه حمد بن خلیفه قطر و بنیانگذار عربیاسپیچ است، «جامعهای که به نفع زبان عربی و فناوری گفتار وجود دارد. “
علی سالها پیش در IBM مجذوب ایده صحبت کردن با ماشینها، لوازم خانگی و دستگاهها شد. آیا میتوانیم ماشینی بسازیم که قادر به درک زبانهای مختلف باشد – پزشکان اطفال مصری برای خودکار کردن نسخهها، معلمان سوری برای کمک به کودکان برای دریافت مواد اصلی از درسهایشان، یا سرآشپزهای مراکشی بهترین دستور العملهای کوسکوس را توضیح میدهند؟» او گفت. با این حال، الگوریتمهایی که این موتورها را نیرو میدهند، نمیتوانند حدود 30 نوع زبان عربی را غربال کنند، چه رسد به اینکه مفهوم آنها را درک کنند. امروزه اکثر ابزارهای تشخیص گفتار به انگلیسی و چند زبان دیگر محدود می شوند.
گسترش ویروس کرونا منجر به افزایش اتکا به فناوری صدا شده است، جایی که فناوری پردازش زبان طبیعی مردم را قادر میسازد دستورالعملهای ماندن در خانه و اقدامات اصلاحی فیزیکی را دنبال کنند. با این حال، در حالی که ما از دستورات صوتی برای کمک به خریدهای تجارت الکترونیک و مدیریت خانواده خود استفاده می کنیم، برنامه های کاربردی بیشتری در آینده وجود خواهد داشت.
میلیونها نفر در سراسر جهان از دورههای آنلاین عظیم اینترنت (MOOC) برای دسترسی آزاد و مشارکت نامحدود استفاده میکنند. تشخیص گفتار یکی از ویژگیهای اصلی در MOOC است که در آن دانشآموزان میتوانند در حوزههای خاصی از محتوای گفتاری دوره جستجو کنند و ترجمه را از طریق زیرنویس فعال کنند. فناوری گفتار این امکان را فراهم می کند که سخنرانی های دیجیتال به صورت متن در کلاس های درس دانشگاه بیان شود.
بر اساس مقاله اخیر در مجله Speech Technology، و پیشبینی میشود که بازار تشخیص صدا تا سال 2025 به 26.8 میلیارد دلار برسد، یک میلیون مصرفکننده و مصرفکننده حیوانات در سراسر جهان بر اساس رباتهای صوتی میآیند و نه تنها با وسایل یا ماشینهایشان تعامل دارند. . علاوه بر این، برای بهبود خدمات مشتری، تشویق نوآوری در مراقبت های بهداشتی، و بهبود دسترسی و ادغام برای افرادی که دارای موانع شنوایی، گفتاری یا مکانیکی هستند.
در نظرسنجی 2019، Capgemini پیشبینی کرد که تا سال 2022، بیش از دو سوم مصرفکنندگان به جای مراجعه به فروشگاه یا شعبه بانک، دستیار صوتی را انتخاب خواهند کرد. سهام می تواند به طور معقولی افزایش یابد، زیرا زندگی و تجارت فیزیکی و فیزیکی دور که جهان را آزار می دهد، جهان را برای بیش از یک سال و نیم مجبور کرده است.
با این حال، این دستگاه ها را نمی توان به جهان گسترده تر ارسال کرد. برای آن 30 نوع عربی و میلیون ها نوع، این یک فرصت از دست رفته است.
عربی برای ماشین آلات
رباتهای صوتی انگلیسی یا فرانسوی بسیار عالی هستند. با این حال، ماشین هایی که درک زبان عربی را آموزش می دهند، به دلایل زیادی دشوار هستند. این سه چالش متداول شناخته شده هستند:
- عدم وجود نشانه ها. عربی زبان ملی است، همانطور که به آن صحبت می شود. اکثر متنهای موجود هیچ نشانهای ندارند، به این معنی که فاقد تلفظی مانند حاد (´) یا grave (`) است که ارزش کاراکتر را نشان میدهد. در نتیجه تعیین اینکه حروف صدادار کجا می روند دشوار است.
- کمبود منابع. کمبود اطلاعات برچسب گذاری شده برای زبان های مختلف عربی وجود دارد. به طور کلی، آنها فاقد قوانین تلفظ استانداردی هستند که نحوه نوشتن یک زبان را تعریف می کند، از جمله استاندارد یا املا، محدودیت ها، تقسیم کلمات و تاکید. این منابع در آموزش مدلهای رایانهای مهم هستند و این واقعیت که تعداد آنها بسیار کم است، توسعه تشخیص گفتار عربی را با مشکل مواجه کرده است.
- پیچیدگی مورفولوژیکی عرب زبانان در بسیاری از تغییرات کدنویسی نقش دارند. به عنوان مثال، در مستعمرات فرانسه – شمال آفریقا، مراکش، الجزایر و تونس – زبان ها شامل کلمات فرانسوی به شدت قرض شده هستند. در نتیجه تعداد زیادی کلمه به اصطلاح غیرکلمه وجود دارد که فناوری تشخیص گفتار نمی تواند آنها را بفهمد زیرا این کلمات عربی نیستند.
علی گفت: «اما میدان با سرعت برق در حال حرکت است. این یک تلاش مشترک بین بسیاری از محققان برای سریعتر کردن آن است. آزمایشگاه فناوری زبان عربی علی یک برنامه زبان عربی را برای آوردن ترجمه عربی به زبان عربی بومی هر منطقه هدایت می کند. به عنوان مثال، زبان عربی را می توان به چهار زبان منطقه ای تقسیم کرد: شمال آفریقا، مصری، خلیجی و شامی. با این حال، از آنجایی که زبان ناسازگار است، این می تواند به خوبی یک زبان در هر منطقه باشد. به عنوان مثال، یک زبان مادری مصری می تواند زبان اسکندریه را از هموطن خود از اسوان (1000 کیلومتر روی نقشه) تشخیص دهد.
ایجاد یک آینده فناوری برای همه
در این مرحله، ماشینها به همان اندازه رمزگذارهای انسانی دقیق هستند که تا حد زیادی به لطف پیشرفتها در شبکههای عصبی عمیق، زیرشاخههای یادگیری ماشینی در هوش مصنوعی بر اساس الگوریتمهای الهامگرفته از نحوه عملکرد مغز انسان، زیستشناسی و عملکرد است. با این حال، تا همین اواخر، تشخیص گفتار با هم کمی هک می شد. فناوری در طول تاریخ به ماژول های مختلفی برای مدل سازی صدا، کدگذاری آوایی و مدل سازی زبان متکی بوده است. همه ماژول ها باید به طور جداگانه آموزش داده شوند. اخیراً، محققان مدلهایی را آموزش میدهند که صدا را مستقیماً به رونویسی تبدیل میکنند و احتمالاً همه قسمتها را برای کار نهایی بهینه میکنند.
علیرغم این پیشرفت ها، علی هنوز نمی تواند به اکثر دستگاه ها به زبان عربی مادری خود دستورات صوتی بدهد. او گفت: «سال 2021 بود و من هنوز نمیتوانم با بسیاری از ماشینها به زبانم صحبت کنم. منظورم این است که اکنون دستگاهی دارم که می تواند انگلیسی من را بفهمد، اما تشخیص ماشینی کلمات عربی چند زبانه هنوز اتفاق نیفتاده است.
قرار دادن این موضوع در کانون کار علی، که منجر به اولین تحول در شناخت عربی و زبان آن شده است. کاری که تاکنون به دست آمده است، کارایی بی سابقه. این فناوری که QCRI Advanced Transcription System نام دارد، اکنون توسط شبکه های تلویزیونی الجزیره، DW و BBC برای رونویسی محتوای آنلاین استفاده می شود.
دلایل متعددی وجود دارد که علی و تیمش اکنون در ساخت این موتورهای کلمه موفق بوده اند. اساساً، او گفت: “این به منابعی در همه زبان ها نیاز دارد. ما باید منابعی بسازیم تا بتوانیم مدل ها را آموزش دهیم.” پیشرفت در پردازش کامپیوتری بدین معنی است که یادگیری ماشین فشرده در محاسبات در حال حاضر در پردازنده های گرافیکی انجام می شود که می توانند تصاویر پیچیده را به سرعت پردازش و نمایش دهند. همانطور که علی گفت: “ما معماری خوب، ماژول های خوب و داده هایی برای نمایش داریم.”
محققان QCRI و Kanari AI اخیراً مدلی را توسعه داده اند که می تواند به برابری انسان در اخبار پخش عربی دست یابد. این سیستم تاثیر سخنرانی های گزارش روزانه الجزیره را نشان می دهد. در حالی که میزان خطای خطای انسانی انگلیسی (HER) حدود 5.6 درصد است، تحقیقات نشان داده است که HER عربی به طور قابل توجهی بالاتر است و به دلیل سردرگمی صرفی در زبان و فقدان قوانین املایی استاندارد در عربی می تواند به 10 درصد برسد. به لطف پیشرفتهای اخیر در یادگیری عمیق و معماری، موتور تشخیص گفتار عربی میتواند عملکرد بهتری نسبت به سخنرانان بومی در اخبار پخش داشته باشد.
در حالی که به نظر می رسد تشخیص گفتار عربی استاندارد مدرن به خوبی کار می کند، محققان QCRI و Kanari AI در آزمایش دامنه پردازش زبان شرکت کرده اند و به نتایج عالی دست یافته اند. از آنجایی که هیچ کس در خانه عربی استاندارد مدرن صحبت نمی کند، توجه به زبان محلی چیزی است که ما نیاز داریم تا دستیار صوتی ما را درک کند.
این مقاله توسط موسسه تحقیقات کامپیوتری قطر، دانشگاه حمد بن خلیفه، عضو بنیاد قطر نوشته شده است این توسط تحریریه MIT Technology Review نوشته نشده است.
[ad_2]