در یک عصر پاییزی، زمانی که خبرهای مربوط به هوش مصنوعی با سرعتی سرسامآور در شبکهها منتشر میشد، چند دوست قدیمی در کافهای نشسته بودند و درباره آینده بحث میکردند. یکی از آنها با شوق گفت که شاید تا دو سال دیگر ماشینهایی بسازیم که ذهنی شبیه ما داشته باشند. دیگری با تردید سر تکان داد و گفت که این وعدهها بزرگاند اما هیچکس دلیل واقعی برای عملی شدن واقعی آنها نداده. در همین میان گوشی من لرزید و پیامی درباره پیشبینی تازهای از یک مدیر فناوری درباره ظهور هوش فراانسانی آمد. همین لحظه به این فکر کردم که آیا این هیجان جمعی ریشهای واقعی دارد یا تنها حاصل برداشتهای سطحی از توان مدلهای زبانی است.
اما واقعا محدودیتهای مدلهای زبانی در رسیدن به هوش عمومی مصنوعی چیست؟
مدلهای زبانی و فاصلهٔ آنها با هوش انسانی
مدیران شرکتهای بزرگ فناوری تصویری ارائه میکنند که بر اساس آن رسیدن به هوش فراانسانی یک قدم کوچک باقی مانده است. از دید آنها مدلهای زبانی بزرگ یا همان LLMها با افزایش مقیاس و قدرت پردازشی میتوانند از مرزهای شناختی ما عبور کنند. اما تحلیل علمی موضوع نشان میدهد این ادعا همراستا با محدودیتهای بنیادی این مدلها نیست. این مدلها اساساً بر روی حجم عظیمی از دادههای متنی آموزش میبینند و خروجی را بر پایهٔ پیشبینی توالی توکنها تولید میکنند. این روند هرچند پیچیده است اما از منظر شناختی تنها شکلی از مدلسازی زبانی به شمار میرود. در برابر آن ذهن انسان شبکهای از سامانههای ادراکی، حافظهٔ سِیال، استدلال فضایی، قضاوت، نظریهٔ ذِهن و تواناییهای سنجشی متعددی دارد که هیچکدام به صورت مستقیم از زبان منشا نمیگیرند.
وقتی مدیران فناوری هوش عمومی مصنوعی را تنها با توسعهٔ مدلهای زبانی هممعنی میکنند، شکاف میان ادعا و واقعیت بیشتر آشکار میشود. زیرا حتی اگر مدلهای زبانی در نگارش یا پاسخدهی عملکردی شگفتآور داشته باشند، این مهارتها تنها بازتاب توانایی آنها در بازتولید الگوهای زبانی است نه آفرینش مفاهیم نوین. همین نکته نقطهٔ مرکزی «محدودیتهای مدلهای زبانی در رسیدن به هوش عمومی مصنوعی» است. ذهن انسان توانایی آزمایش کردن، ساختن فرضیه، نقض باورهای خود و شکلدهی نظریههای تازه دربارهٔ جهان را دارد. مدل زبانی نه جهان را تجربه میکند و نه اشیای فیزیکی را دستکاری میکند و نه از آزمون و خطا برایشان معنا دارد.
رابطهٔ زبان و تفکر از نگاه علوم اعصاب
نویسنده مقاله اصلی -Benjamin Riley- توضیح میدهد که علم عصبشناسی در دو دههٔ اخیر روشن کرده است که زبان و تفکر سامانههایی جداگانه در مغز هستند. اسکنهای fMRI نشان دادهاند که فعالیت نورونی هنگام حل مسئلهٔ ریاضی، پردازش روابط عِلّی یا فهم ذهن دیگران در شبکههایی متفاوت با شبکهٔ زبانی رخ میدهد. این یافتهها به شکل مستقیم ادعای برخی مدیران فناوری را که زبان را بستر اصلی تفکر معرفی میکنند رد میکند.
کودکانی که هنوز زبان را نیاموختهاند اما استدلال میکنند، کنجکاو میشوند، قوانین سادهٔ فیزیک را کشف میکنند و روابط علت و معلول را میفهمند. این واقعیت نشان میدهد که زبان ابزار ارتباط است نه منبع تفکر. حتی کسانی که بر اثر آسیب مغزی زبان خود را از دست میدهند، میتوانند از عهدهٔ بسیاری از کارکردهای شناختی برآیند. همین حقایق علمی پایهٔ مهمی برای بحث «محدودیتهای مدلهای زبانی در رسیدن به هوش عمومی مصنوعی» فراهم میکند.
انسانها زبان را برای انتقال محتوا، اشاره به اشیای جهان، تفسیر تجربه و انتقال دانش به نسلهای بعدی به کار میبرند. مدل زبانی تنها ساختار بیرونی همین زبان را تقلید میکند بدون آنکه تجربهای پشت آن باشد. این تفاوت ساختاری باعث میشود حتی مدلهای بسیار بزرگ همچنان در مرز ارتباط زبانی بمانند و به سطح تفکر خودبنیاد نرسند.
زبان به عنوان ابزار انتقال معرفت نه شکلدهندهٔ آن
پژوهشگران برجسته مانند Evelina Fedorenko و Edward Gibson نشان دادهاند که زبان به دلیل هزینهٔ شناختی پایین و کارآمدی بالای آن به عنوان ابزار انتقال اندیشه تکامل یافته است. زبان کُد کارآمدی است که امکان اشتراک معنا بین انسانها را فراهم میکند. همین ویژگی موجب شده زبان به صورت فرهنگی از نسلی به نسل بعد منتقل شود و ظرفیت شناختی ما را تقویت کند. اما زبان خود منبع تفکر نیست.
نویسنده در ادامه اشاره میکند که این واقعیت در تضاد با فرضیهٔ صنعت هوش مصنوعی است. صنعت گمان میکند که مدلسازی گستردهٔ زبان میتواند به شکل خودکار به مدلسازی تفکر منجر شود. اما شناخت انسانی شبکهای از تواناییها است که هر یک نیازمند تعامل با جهان، دریافت بازخورد، درک زمان، استفاده از حافظهٔ فعال و شکلدهی دانش سازهای هستند. هیچیک از این سازهها در مدل زبانی وجود ندارد.
این بخش از مقاله به شکلی روشن نشان میدهد که چرا گسترش مجموعهدادهها یا افزایش قدرت پردازشی سرورها تبدیل به هوش عمومی نمیشود. از آنجا که مدلهای زبانی تنها لایهٔ ظاهری زبان را تقلید میکنند، توانایی عبور از مرزهای دادهٔ ورودی را ندارند و نمیتوانند نارضایتی فعال از الگوهای موجود و تولید الگوهای تازه را تجربه کنند. انسانها مدلهای ذهنی خود را اصلاح میکنند و به ساحتهای جدید معنا میرسند. مدلها تنها تکثیرکنندهٔ الگوهای موجودند.
بحران اتکا به مقیاس و نقش نقدهای درون صنعت
در بخش دیگری از مقاله، نویسنده به موجی از انتقادها داخل خود صنعت اشاره میکند. برخی پژوهشگران مانند Yann LeCun که جایزهٔ تورینگ گرفتهاند، به صراحت گفتهاند که مدلهای زبانی هرچقدر بزرگ شوند نمیتوانند جهان را بفهمند، عملمحور نیستند و حافظهٔ پایدار ندارند. LeCun مفهوم مدلهای جهان را مطرح کرده است که سامانههایی هستند با قابلیت درک ساختارهای فیزیکی، حافظهٔ بلندمدت و توانایی طرحریزی کنشها. این رویکرد نشان میدهد که بخشی از صنعت نیز به محدودیتهای مدلهای زبانی در رسیدن به هوش عمومی مصنوعی آگاه شده است.
نویسنده سپس به دیدگاه گروهی از دانشمندان اشاره میکند که تعریفی تازه از هوش عمومی مصنوعی ارائه کردهاند. آنها هوش عمومی را تنها با توانایی پاسخگویی زبانی نمیسنجند، بلکه ترکیبی از شاخصهایی مانند حافظهٔ فعال، استدلال عِلّی، سرعت پردازش، دانش چندبُعدی، بینایی، شنوایی و توانایی بازیابی حافظه را در نظر میگیرند. این تعریف جدید رویکرد تکعاملی را کنار میگذارد و هوش را شبکهای از تواناییها میداند.
اما نویسنده هشدار میدهد که حتی این مدل چندمحوری نیز راهی مستقیم به سوی هوش انسانی ارائه نمیدهد. زیرا تعریف وزن نسبی هر توانایی، تعیین نحوهٔ ترکیب آنها و تبدیل این مجموعه به چیزی شبیه به ذهن انسان کاری بسیار پیچیده است. حتی اگر بتوانیم این قابلیتها را در یک سامانه جمع کنیم، هنوز نمیدانیم آیا این ترکیب کافی است تا سامانه بتواند از مرز اعتماد به دادهها عبور کرده و خلاقیت پارادایمی ایجاد کند.
جایگاه نارضایتی شناختی در نوآوری علمی و جایی که مدلهای زبانی کم میآورند
نویسنده در بخش پایانی مقاله به مفهوم تغییر پارادایم از نگاه توماس کوهن اشاره میکند. او میگوید بخش بزرگی از پیشرفتهای علمی زمانی رخ میدهد که پژوهشگران از چارچوبهای موجود ناراضی میشوند و پرسشهایی طرح میکنند که در فضای قبلی قابل پاسخ نبودند. این وضعیت با نوعی نارضایتی ذِهنی همراه است که انسان را به سمت شکستن محدودیتهای فکری میبرد.
در اینجا نویسنده استدلال میکند که مدلهای زبانی چنین نارضایتیای را تجربه نمیکنند. این مدلها مجموعهای از الگوهای آماری هستند که بر اساس دادههای ورودی رفتار میکنند. آنها نمیتوانند به این نتیجه برسند که دادههای موجود برای فهم جهان کافی نیست و باید مسیر تازهای اختراع کنند. حتی اگر بتوانند ترکیبهای تازه بسازند، همچنان در فضای معناهای پیشینی گرفتار میمانند و در دایرهٔ آنچه قبلاً ثبت شده دور میزنند. این همان هستهٔ مرکزی محدودیتهای مدلهای زبانی در رسیدن به هوش عمومی مصنوعی است.
از نگاه نویسنده، ماشینها میتوانند دادهها را بازآرایی کنند اما نمیتوانند نارضایتی معرفتی داشته باشند. آنچه دانشمندان را قادر ساخته نظریههایی مانند نسبیت یا مکانیک کوانتومی را بسازند، نه صرف ترکیب دادهها بلکه عبور از دادهها بوده است. این حرکت جهشی نیازمند تجربهٔ ذِهنی، شهود، ناراحتی از ناکامیهای مدل قبلی و پذیرش ریسک فکری است. مدل زبانی نه شهود دارد نه تجربه و نه ریسک میکند. همین موضوع باعث میشود حتی اگر به بهترین شکل کار کند، بیشتر شبیه سامانهای از استعارههای مرده باشد که تنها معناهای موجود را بازنویسی میکند.
خلاصهٔ نهایی
مدلهای زبانی بزرگ ابزارهایی هستند که ساختار زبان را تقلید میکنند اما توانایی ساخت معنا یا نظریه ندارند. پژوهشهای علوم اعصاب نشان میدهد تفکر انسان بر پایهٔ شبکههایی غیرزبانی شکل میگیرد که در مدلهای زبانی وجود ندارد. ادعای رسیدن به هوش عمومی مصنوعی تنها با افزایش مقیاس مدلها پشتوانهٔ علمی ندارد. به همین دلیل محدودیتهای مدلهای زبانی در رسیدن به هوش عمومی مصنوعی مسئلهای اساسی در فهم آیندهٔ سامانههای هوش مصنوعی است.
منبع
❓ پرسشهای رایج
۱. آیا مدلهای زبانی میتوانند بدون زبان به سطحی از هوش واقعی برسند؟
خیر، زیرا ساخت آنها کاملاً مبتنی بر زبان است و اگر زبان را حذف کنیم چیزی از مدل باقی نمیماند. ذهن انسان شبکهای چندبُعدی دارد اما مدل زبانی تنها یک بُعد را بازسازی میکند.
۲. چرا علوم اعصاب نقش زبان را در تفکر کمرنگ میداند؟
اسکنهای fMRI نشان میدهد شبکههای حل مسئله، استدلال عِلّی و نظریهٔ ذِهن مستقل از شبکهٔ زبانی فعال میشوند. این پدیده نشان میدهد زبان ابزار انتقال است نه منبع تفکر.
۳. آیا افزایش مقیاس مدلها میتواند محدودیتها را رفع کند؟
افزایش مقیاس خروجیها را روانتر میکند اما توانایی مدل برای ساخت تجربه، ادراک یا نارضایتی شناختی را افزایش نمیدهد. بنابراین نقش آن در رسیدن به هوش عمومی بسیار محدود است.
۴. مدلهای جهان چه تفاوتی با مدلهای زبانی دارند؟
مدلهای جهان از ساختارهای ادراکی، حافظهٔ پایدار و توانایی طرحریزی کنشها استفاده میکنند. همین ویژگیها آنها را به سوی شناخت عملمحور نزدیک میکند که در مدلهای زبانی وجود ندارد.
۵. چرا نویسنده از استعارهٔ استعارههای مرده استفاده میکند؟
زیرا مدلهای زبانی تنها الگوهای موجود را بازآرایی میکنند و نمیتوانند از چارچوب دادههای ورودی عبور کنند. آنها چیزی نو نمیآفرینند و در محدودهٔ معناهای گذشته میمانند.
source