در یک عصر پاییزی، زمانی که خبرهای مربوط به هوش مصنوعی با سرعتی سرسام‌آور در شبکه‌ها منتشر می‌شد، چند دوست قدیمی در کافه‌ای نشسته بودند و درباره آینده بحث می‌کردند. یکی از آنها با شوق گفت که شاید تا دو سال دیگر ماشین‌هایی بسازیم که ذهنی شبیه ما داشته باشند. دیگری با تردید سر تکان داد و گفت که این وعده‌ها بزرگ‌اند اما هیچ‌کس دلیل واقعی برای عملی شدن واقعی آنها نداده. در همین میان گوشی من لرزید و پیامی درباره پیش‌بینی تازه‌ای از یک مدیر فناوری درباره ظهور هوش فرا‌انسانی آمد. همین لحظه به این فکر کردم که آیا این هیجان جمعی ریشه‌ای واقعی دارد یا تنها حاصل برداشت‌های سطحی از توان مدل‌های زبانی است.

اما واقعا محدودیت‌های مدل‌های زبانی در رسیدن به هوش عمومی مصنوعی چیست؟

مدل‌های زبانی و فاصلهٔ آنها با هوش انسانی

مدیران شرکت‌های بزرگ فناوری تصویری ارائه می‌کنند که بر اساس آن رسیدن به هوش فرا‌انسانی یک قدم کوچک باقی مانده است. از دید آنها مدل‌های زبانی بزرگ یا همان LLMها با افزایش مقیاس و قدرت پردازشی می‌توانند از مرزهای شناختی ما عبور کنند. اما تحلیل علمی موضوع نشان می‌دهد این ادعا هم‌راستا با محدودیت‌های بنیادی این مدل‌ها نیست. این مدل‌ها اساساً بر روی حجم عظیمی از داده‌های متنی آموزش می‌بینند و خروجی را بر پایهٔ پیش‌بینی توالی توکن‌ها تولید می‌کنند. این روند هرچند پیچیده است اما از منظر شناختی تنها شکلی از مدل‌سازی زبانی به شمار می‌رود. در برابر آن ذهن انسان شبکه‌ای از سامانه‌های ادراکی، حافظهٔ سِیال، استدلال فضایی، قضاوت، نظریهٔ ذِهن و توانایی‌های سنجشی متعددی دارد که هیچ‌کدام به صورت مستقیم از زبان منشا نمی‌گیرند.

وقتی مدیران فناوری هوش عمومی مصنوعی را تنها با توسعهٔ مدل‌های زبانی هم‌معنی می‌کنند، شکاف میان ادعا و واقعیت بیشتر آشکار می‌شود. زیرا حتی اگر مدل‌های زبانی در نگارش یا پاسخ‌دهی عملکردی شگفت‌آور داشته باشند، این مهارت‌ها تنها بازتاب توانایی آنها در بازتولید الگوهای زبانی است نه آفرینش مفاهیم نوین. همین نکته نقطهٔ مرکزی «محدودیت‌های مدل‌های زبانی در رسیدن به هوش عمومی مصنوعی» است. ذهن انسان توانایی آزمایش کردن، ساختن فرضیه، نقض باورهای خود و شکل‌دهی نظریه‌های تازه دربارهٔ جهان را دارد. مدل زبانی نه جهان را تجربه می‌کند و نه اشیای فیزیکی را دستکاری می‌کند و نه از آزمون و خطا برایشان معنا دارد.

رابطهٔ زبان و تفکر از نگاه علوم اعصاب

نویسنده مقاله اصلی -Benjamin Riley- توضیح می‌دهد که علم عصب‌شناسی در دو دههٔ اخیر روشن کرده است که زبان و تفکر سامانه‌هایی جداگانه در مغز هستند. اسکن‌های fMRI نشان داده‌اند که فعالیت نورونی هنگام حل مسئلهٔ ریاضی، پردازش روابط عِلّی یا فهم ذهن دیگران در شبکه‌هایی متفاوت با شبکهٔ زبانی رخ می‌دهد. این یافته‌ها به شکل مستقیم ادعای برخی مدیران فناوری را که زبان را بستر اصلی تفکر معرفی می‌کنند رد می‌کند.

کودکانی که هنوز زبان را نیاموخته‌اند اما استدلال می‌کنند، کنجکاو می‌شوند، قوانین سادهٔ فیزیک را کشف می‌کنند و روابط علت و معلول را می‌فهمند. این واقعیت نشان می‌دهد که زبان ابزار ارتباط است نه منبع تفکر. حتی کسانی که بر اثر آسیب مغزی زبان خود را از دست می‌دهند، می‌توانند از عهدهٔ بسیاری از کارکردهای شناختی برآیند. همین حقایق علمی پایهٔ مهمی برای بحث «محدودیت‌های مدل‌های زبانی در رسیدن به هوش عمومی مصنوعی» فراهم می‌کند.

انسان‌ها زبان را برای انتقال محتوا، اشاره به اشیای جهان، تفسیر تجربه و انتقال دانش به نسل‌های بعدی به کار می‌برند. مدل زبانی تنها ساختار بیرونی همین زبان را تقلید می‌کند بدون آنکه تجربه‌ای پشت آن باشد. این تفاوت ساختاری باعث می‌شود حتی مدل‌های بسیار بزرگ همچنان در مرز ارتباط زبانی بمانند و به سطح تفکر خودبنیاد نرسند.

زبان به عنوان ابزار انتقال معرفت نه شکل‌دهندهٔ آن

پژوهشگران برجسته مانند Evelina Fedorenko و Edward Gibson نشان داده‌اند که زبان به دلیل هزینهٔ شناختی پایین و کارآمدی بالای آن به عنوان ابزار انتقال اندیشه تکامل یافته است. زبان کُد کارآمدی است که امکان اشتراک معنا بین انسان‌ها را فراهم می‌کند. همین ویژگی موجب شده زبان به صورت فرهنگی از نسلی به نسل بعد منتقل شود و ظرفیت شناختی ما را تقویت کند. اما زبان خود منبع تفکر نیست.

نویسنده در ادامه اشاره می‌کند که این واقعیت در تضاد با فرضیهٔ صنعت هوش مصنوعی است. صنعت گمان می‌کند که مدل‌سازی گستردهٔ زبان می‌تواند به شکل خودکار به مدل‌سازی تفکر منجر شود. اما شناخت انسانی شبکه‌ای از توانایی‌ها است که هر یک نیازمند تعامل با جهان، دریافت بازخورد، درک زمان، استفاده از حافظهٔ فعال و شکل‌دهی دانش سازه‌ای هستند. هیچ‌یک از این سازه‌ها در مدل زبانی وجود ندارد.

این بخش از مقاله به شکلی روشن نشان می‌دهد که چرا گسترش مجموعه‌داده‌ها یا افزایش قدرت پردازشی سرورها تبدیل به هوش عمومی نمی‌شود. از آنجا که مدل‌های زبانی تنها لایهٔ ظاهری زبان را تقلید می‌کنند، توانایی عبور از مرزهای دادهٔ ورودی را ندارند و نمی‌توانند نارضایتی فعال از الگوهای موجود و تولید الگوهای تازه را تجربه کنند. انسان‌ها مدل‌های ذهنی خود را اصلاح می‌کنند و به ساحت‌های جدید معنا می‌رسند. مدل‌ها تنها تکثیرکنندهٔ الگوهای موجودند.

بحران اتکا به مقیاس و نقش نقدهای درون صنعت

در بخش دیگری از مقاله، نویسنده به موجی از انتقادها داخل خود صنعت اشاره می‌کند. برخی پژوهشگران مانند Yann LeCun که جایزهٔ تورینگ گرفته‌اند، به صراحت گفته‌اند که مدل‌های زبانی هرچقدر بزرگ شوند نمی‌توانند جهان را بفهمند، عمل‌محور نیستند و حافظهٔ پایدار ندارند. LeCun مفهوم مدل‌های جهان را مطرح کرده است که سامانه‌هایی هستند با قابلیت درک ساختارهای فیزیکی، حافظهٔ بلندمدت و توانایی طرح‌ریزی کنش‌ها. این رویکرد نشان می‌دهد که بخشی از صنعت نیز به محدودیت‌های مدل‌های زبانی در رسیدن به هوش عمومی مصنوعی آگاه شده است.

نویسنده سپس به دیدگاه گروهی از دانشمندان اشاره می‌کند که تعریفی تازه از هوش عمومی مصنوعی ارائه کرده‌اند. آنها هوش عمومی را تنها با توانایی پاسخ‌گویی زبانی نمی‌سنجند، بلکه ترکیبی از شاخص‌هایی مانند حافظهٔ فعال، استدلال عِلّی، سرعت پردازش، دانش چندبُعدی، بینایی، شنوایی و توانایی بازیابی حافظه را در نظر می‌گیرند. این تعریف جدید رویکرد تک‌عاملی را کنار می‌گذارد و هوش را شبکه‌ای از توانایی‌ها می‌داند.

اما نویسنده هشدار می‌دهد که حتی این مدل چندمحوری نیز راهی مستقیم به سوی هوش انسانی ارائه نمی‌دهد. زیرا تعریف وزن نسبی هر توانایی، تعیین نحوهٔ ترکیب آنها و تبدیل این مجموعه به چیزی شبیه به ذهن انسان کاری بسیار پیچیده است. حتی اگر بتوانیم این قابلیت‌ها را در یک سامانه جمع کنیم، هنوز نمی‌دانیم آیا این ترکیب کافی است تا سامانه بتواند از مرز اعتماد به داده‌ها عبور کرده و خلاقیت پارادایمی ایجاد کند.

جایگاه نارضایتی شناختی در نوآوری علمی و جایی که مدل‌های زبانی کم می‌آورند

نویسنده در بخش پایانی مقاله به مفهوم تغییر پارادایم از نگاه توماس کوهن اشاره می‌کند. او می‌گوید بخش بزرگی از پیشرفت‌های علمی زمانی رخ می‌دهد که پژوهشگران از چارچوب‌های موجود ناراضی می‌شوند و پرسش‌هایی طرح می‌کنند که در فضای قبلی قابل پاسخ نبودند. این وضعیت با نوعی نارضایتی ذِهنی همراه است که انسان را به سمت شکستن محدودیت‌های فکری می‌برد.

در اینجا نویسنده استدلال می‌کند که مدل‌های زبانی چنین نارضایتی‌ای را تجربه نمی‌کنند. این مدل‌ها مجموعه‌ای از الگوهای آماری هستند که بر اساس داده‌های ورودی رفتار می‌کنند. آنها نمی‌توانند به این نتیجه برسند که داده‌های موجود برای فهم جهان کافی نیست و باید مسیر تازه‌ای اختراع کنند. حتی اگر بتوانند ترکیب‌های تازه بسازند، همچنان در فضای معناهای پیشینی گرفتار می‌مانند و در دایرهٔ آنچه قبلاً ثبت شده دور می‌زنند. این همان هستهٔ مرکزی محدودیت‌های مدل‌های زبانی در رسیدن به هوش عمومی مصنوعی است.

از نگاه نویسنده، ماشین‌ها می‌توانند داده‌ها را بازآرایی کنند اما نمی‌توانند نارضایتی معرفتی داشته باشند. آنچه دانشمندان را قادر ساخته نظریه‌هایی مانند نسبیت یا مکانیک کوانتومی را بسازند، نه صرف ترکیب داده‌ها بلکه عبور از داده‌ها بوده است. این حرکت جهشی نیازمند تجربهٔ ذِهنی، شهود، ناراحتی از ناکامی‌های مدل قبلی و پذیرش ریسک فکری است. مدل زبانی نه شهود دارد نه تجربه و نه ریسک می‌کند. همین موضوع باعث می‌شود حتی اگر به بهترین شکل کار کند، بیشتر شبیه سامانه‌ای از استعاره‌های مرده باشد که تنها معناهای موجود را بازنویسی می‌کند.

خلاصهٔ نهایی 

مدل‌های زبانی بزرگ ابزارهایی هستند که ساختار زبان را تقلید می‌کنند اما توانایی ساخت معنا یا نظریه ندارند. پژوهش‌های علوم اعصاب نشان می‌دهد تفکر انسان بر پایهٔ شبکه‌هایی غیرزبانی شکل می‌گیرد که در مدل‌های زبانی وجود ندارد. ادعای رسیدن به هوش عمومی مصنوعی تنها با افزایش مقیاس مدل‌ها پشتوانهٔ علمی ندارد. به همین دلیل محدودیت‌های مدل‌های زبانی در رسیدن به هوش عمومی مصنوعی مسئله‌ای اساسی در فهم آیندهٔ سامانه‌های هوش مصنوعی است.

منبع

❓ پرسش‌های رایج

۱. آیا مدل‌های زبانی می‌توانند بدون زبان به سطحی از هوش واقعی برسند؟

خیر، زیرا ساخت آنها کاملاً مبتنی بر زبان است و اگر زبان را حذف کنیم چیزی از مدل باقی نمی‌ماند. ذهن انسان شبکه‌ای چندبُعدی دارد اما مدل زبانی تنها یک بُعد را بازسازی می‌کند.

۲. چرا علوم اعصاب نقش زبان را در تفکر کم‌رنگ می‌داند؟

اسکن‌های fMRI نشان می‌دهد شبکه‌های حل مسئله، استدلال عِلّی و نظریهٔ ذِهن مستقل از شبکهٔ زبانی فعال می‌شوند. این پدیده نشان می‌دهد زبان ابزار انتقال است نه منبع تفکر.

۳. آیا افزایش مقیاس مدل‌ها می‌تواند محدودیت‌ها را رفع کند؟

افزایش مقیاس خروجی‌ها را روان‌تر می‌کند اما توانایی مدل برای ساخت تجربه، ادراک یا نارضایتی شناختی را افزایش نمی‌دهد. بنابراین نقش آن در رسیدن به هوش عمومی بسیار محدود است.

۴. مدل‌های جهان چه تفاوتی با مدل‌های زبانی دارند؟

مدل‌های جهان از ساختارهای ادراکی، حافظهٔ پایدار و توانایی طرح‌ریزی کنش‌ها استفاده می‌کنند. همین ویژگی‌ها آنها را به سوی شناخت عمل‌محور نزدیک می‌کند که در مدل‌های زبانی وجود ندارد.

۵. چرا نویسنده از استعارهٔ استعاره‌های مرده استفاده می‌کند؟

زیرا مدل‌های زبانی تنها الگوهای موجود را بازآرایی می‌کنند و نمی‌توانند از چارچوب داده‌های ورودی عبور کنند. آنها چیزی نو نمی‌آفرینند و در محدودهٔ معناهای گذشته می‌مانند.

 

دکتر علیرضا مجیدی

دکتر علیرضا مجیدی

پزشک، نویسنده و بنیان‌گذار وبلاگ «یک پزشک»

دکتر علیرضا مجیدی، نویسنده و بنیان‌گذار وبلاگ «یک پزشک».
با بیش از ۲۰ سال نویسندگی «ترکیبی» مستمر در زمینهٔ پزشکی، فناوری، سینما، کتاب و فرهنگ.
باشد که با هم متفاوت بیاندیشیم!

source

توسط salamathyper.ir