دلیل ناتوانی هوش مصنوعی گوگل در هجی درست کلمه «گوگل» (یا هر واژهٔ دیگری)
به هر حال، گوگل دارد کل موتور جستجوی خود را به این شکل بازطراحی میکند
«شمارش حروف درون واژهها چالشی شناختهشده برای مدلهای زبانی بزرگ بوده و ما در حال تلاش برای رفع همین مشکل خاص هستیم،» گوگل در بیانیهای ایمیلی به techcrunch گفت.
این خطاهای سادهٔ هجایی احتمالاً برایتان آشنا هستند. مدلهای زبانی بزرگ، که فناوری پشت چتباتها و تولیدکنندههای متن هستند، برای درک طرز هجی کردن ساخته نشدهاند. سالهاست که یک شوخی تکراری وجود دارد: هر بار شرکتی مدل جدید هوش مصنوعی خود را معرفی میکند، باید از او بپرسی کلمهٔ «استرابری» چند حرف «آر» دارد. این مدلهای هوش مصنوعی – که میتوانند در عرض چند ثانیه یک اپلیکیشن بنویسند یا مسائلی را حل کنند که ریاضیدانان را دههها متوقف کرده – در هجی کردن، تقریباً در سطح یک کودک نوپا هستند.
با این حال، مشکلات نمای کلی هوش مصنوعی گوگل فراتر از خطاهای سادهٔ هجایی است. گوگل قبلاً مشکلی را که هفتهٔ پیش رخ داده بود برطرف کرد، به این شکل که جستجوی واژهٔ «disregard» تعریفی مشابه تعریف فرهنگ لغت از آن کلمه را نشان میداد، با این تفاوت که تعریف به این صورت نمایش داده میشد: «متوجه شدم. هر زمان دستور یا سؤال جدیدی داشتی به من بگو.» اما این اشتباهات هجایی همچنان خندهدار باقی ماندهاند، زیرا اصلاح آنها بسیار سخت است.
همانطور که پژوهشگران پیشتر وقتی دربارهٔ این معماهای هجایی پرسیدیم توضیح دادهاند، هوش مصنوعی جملات را بهعنوان واحدهای زبانی ساختهشده از کلمات و حروف درک نمیکند. بسیاری از مدلهای زبانی بزرگ بر پایه مدلهای ترنسفورمر ساخته شدهاند که متن را به توکنهایی تقسیم میکنند – که بسته به مدل میتوانند کلمات کامل، هجاها یا حروف باشند. هوش مصنوعی به جای «خواندن» مانند انسان، متن را به نمایشهای عددی از خودش تبدیل میکند، که سپس بافتدار میشوند تا به هوش مصنوعی در ارائهٔ پاسخی منطقی کمک کنند.
Image Credits:TechCrunch
متیو گوزدیال، Matthew Guzdial پژوهشگر هوش مصنوعی و استادیار دانشگاه آلبرتا، به تککرانچ گفت: «مدلهای زبانی بزرگ بر پایه این معماری ترنسفورمر ساخته شدهاند که آشکارا در واقع متن را نمیخواند. وقتی شما دستوری را وارد میکنید، آنچه رخ میدهد این است که آن دستور به یک رمزگذاری ترجمه میشود. وقتی مدل کلمهٔ “the” را میبیند، یک رمزگذاری از معنای “the” دارد، اما چیزی دربارهٔ حروف “T”، “H”، “E” نمیداند.»
معماری توکنمحوری که نیروی پشت مدلهای زبانی بزرگ مانند نمای کلی هوش مصنوعی گوگل است، ذاتاً محدودکننده میباشد، و پژوهشگران نسبت به اینکه بتوانند مشکل هجی کردن را حل کنند خوشبین نبودهاند.
شریڈن فوکت، Sheridan Feucht دانشجوی دکترا در حوزه تفسیرپذیری مدلهای زبانی بزرگ در دانشگاه نورثایسترن، به تککرانچ گفت: «تا حدی سخت است بتوان به این پرسش پاسخ داد که دقیقاً یک “کلمه” برای یک مدل زبانی باید چه باشد، و حتی اگر ما متخصصان انسانی را بر سر یک واژگان توکنی کامل به توافق برسانیم، باز هم مدلها احتمالاً “تکهتکه کردن” بیشتر چیزها را برای خود مفید خواهند یافت. گمان من این است که به دلیل این نوع مبهم بودن، چیزی به عنوان یک توکِنساز کامل وجود ندارد.»
این لزوماً یک دغدغه فوری در ذهن پژوهشگران نیست، زیرا کاربرد مدلهای زبانی بزرگ در توانایی آنها برای هجی کردن نیست. اما این شکستهای آشکار به ما کمک میکند به یاد بیاوریم که هوش مصنوعی کامل نیست، حتی اگر گاهی ممکن است به نظر برسد قدرتی دانای کل و فراتر از درک ما دارد. ما نمیتوانیم بدون بازبینی درستی آنها، کورکورانه به خروجیهای هوش مصنوعی اعتماد کنیم.