دلیل ناتوانی هوش مصنوعی گوگل در هجی درست کلمات

تاریخ انتشار: ۷ خرداد ۱۴۰۵

بازدید: 9 بازدید

دلیل ناتوانی هوش مصنوعی گوگل در هجی درست کلمه «گوگل» (یا هر واژهٔ دیگری)

به هر حال، گوگل دارد کل موتور جستجوی خود را به این شکل بازطراحی می‌کند

«شمارش حروف درون واژه‌ها چالشی شناخته‌شده برای مدل‌های زبانی بزرگ بوده و ما در حال تلاش برای رفع همین مشکل خاص هستیم،» گوگل در بیانیه‌ای ایمیلی به techcrunch گفت.

این خطاهای سادهٔ هجایی احتمالاً برایتان آشنا هستند. مدل‌های زبانی بزرگ، که فناوری پشت چت‌بات‌ها و تولیدکننده‌های متن هستند، برای درک طرز هجی کردن ساخته نشده‌اند. سال‌هاست که یک شوخی تکراری وجود دارد: هر بار شرکتی مدل جدید هوش مصنوعی خود را معرفی می‌کند، باید از او بپرسی کلمهٔ «استرابری» چند حرف «آر» دارد. این مدل‌های هوش مصنوعی – که می‌توانند در عرض چند ثانیه یک اپلیکیشن بنویسند یا مسائلی را حل کنند که ریاضیدانان را دهه‌ها متوقف کرده – در هجی کردن، تقریباً در سطح یک کودک نوپا هستند.

با این حال، مشکلات نمای کلی هوش مصنوعی گوگل فراتر از خطاهای سادهٔ هجایی است. گوگل قبلاً مشکلی را که هفتهٔ پیش رخ داده بود برطرف کرد، به این شکل که جستجوی واژهٔ «disregard» تعریفی مشابه تعریف فرهنگ لغت از آن کلمه را نشان می‌داد، با این تفاوت که تعریف به این صورت نمایش داده می‌شد: «متوجه شدم. هر زمان دستور یا سؤال جدیدی داشتی به من بگو.» اما این اشتباهات هجایی همچنان خنده‌دار باقی مانده‌اند، زیرا اصلاح آن‌ها بسیار سخت است.

همان‌طور که پژوهشگران پیشتر وقتی دربارهٔ این معماهای هجایی پرسیدیم توضیح داده‌اند، هوش مصنوعی جملات را به‌عنوان واحدهای زبانی ساخته‌شده از کلمات و حروف درک نمی‌کند. بسیاری از مدل‌های زبانی بزرگ بر پایه مدل‌های ترنسفورمر ساخته شده‌اند که متن را به توکن‌هایی تقسیم می‌کنند – که بسته به مدل می‌توانند کلمات کامل، هجاها یا حروف باشند. هوش مصنوعی به جای «خواندن» مانند انسان، متن را به نمایش‌های عددی از خودش تبدیل می‌کند، که سپس بافت‌دار می‌شوند تا به هوش مصنوعی در ارائهٔ پاسخی منطقی کمک کنند.

Image Credits:TechCrunch

متیو گوزدیال، Matthew Guzdial پژوهشگر هوش مصنوعی و استادیار دانشگاه آلبرتا، به تک‌کرانچ گفت: «مدل‌های زبانی بزرگ بر پایه این معماری ترنسفورمر ساخته شده‌اند که آشکارا در واقع متن را نمی‌خواند. وقتی شما دستوری را وارد می‌کنید، آنچه رخ می‌دهد این است که آن دستور به یک رمزگذاری ترجمه می‌شود. وقتی مدل کلمهٔ “the” را می‌بیند، یک رمزگذاری از معنای “the” دارد، اما چیزی دربارهٔ حروف “T”، “H”، “E” نمی‌داند.»

معماری توکن‌محوری که نیروی پشت مدل‌های زبانی بزرگ مانند نمای کلی هوش مصنوعی گوگل است، ذاتاً محدودکننده می‌باشد، و پژوهشگران نسبت به اینکه بتوانند مشکل هجی کردن را حل کنند خوشبین نبوده‌اند.

شریڈن فوکت، Sheridan Feucht دانشجوی دکترا در حوزه تفسیرپذیری مدل‌های زبانی بزرگ در دانشگاه نورث‌ایسترن، به تک‌کرانچ گفت: «تا حدی سخت است بتوان به این پرسش پاسخ داد که دقیقاً یک “کلمه” برای یک مدل زبانی باید چه باشد، و حتی اگر ما متخصصان انسانی را بر سر یک واژگان توکنی کامل به توافق برسانیم، باز هم مدل‌ها احتمالاً “تکه‌تکه کردن” بیشتر چیزها را برای خود مفید خواهند یافت. گمان من این است که به دلیل این نوع مبهم بودن، چیزی به عنوان یک توکِنساز کامل وجود ندارد.»

این لزوماً یک دغدغه فوری در ذهن پژوهشگران نیست، زیرا کاربرد مدل‌های زبانی بزرگ در توانایی آن‌ها برای هجی کردن نیست. اما این شکست‌های آشکار به ما کمک می‌کند به یاد بیاوریم که هوش مصنوعی کامل نیست، حتی اگر گاهی ممکن است به نظر برسد قدرتی دانای کل و فراتر از درک ما دارد. ما نمی‌توانیم بدون بازبینی درستی آن‌ها، کورکورانه به خروجی‌های هوش مصنوعی اعتماد کنیم.

منبع: دیجی لود/techcrunch