در سالهای اخیر، با گسترش روزافزون مدلهای زبانی و ابزارهای نوشتاری مبتنی بر هوش مصنوعی، پژوهشگران شاهد پدیدهای غیرمنتظره بودهاند: واژهها و عبارات بیمعنی و ساختگی که به شکلی کاملاً جدی وارد مقالات علمی میشوند و گاهی آنقدر معتبر جلوه میکنند که حتی داوران مجلات علمی هم متوجه بیاساس بودنشان نمیشوند.
یکی از نمونههای شگفتانگیز این خطا، عبارتیست بهنام «میکروسکوپ الکترونیِ گیاهی» (vegetative electron microscopy)؛ ترکیبی که در نگاه اول، بسیار حرفهای و فنی بهنظر میرسد اما در واقع هیچ معنای علمی مشخصی ندارد و حاصل یک رشته اشتباه پیدرپی در زنجیره تولید دادههای هوش مصنوعیست.
این ماجرا، فراتر از یک خطای تصادفی ساده است؛ بلکه نشانهای است از ظهور چیزی که پژوهشگران آن را «فسیل دیجیتال» مینامند. فسیلی که نه در دل خاک، بلکه در عمق دادههای دیجیتالی شکل گرفته است و حالا آرامآرام در حال گسترش در متون علمی، موتورهای جستوجو، مدلهای زبانی و ذهن دانشمندان است.
منشأ این فسیل دیجیتال کجاست؟
پژوهشها نشان میدهد که ریشه پیدایش اصطلاح «میکروسکوپ الکترونیِ گیاهی» به دهه ۱۹۵۰ بازمیگردد؛ یعنی زمانی که چند مقاله کلاسیک در زمینه باکتریشناسی برای اولینبار اسکن و دیجیتال شده بودند. در فرایند اسکن این مقالات، خطایی ظریف اما کلیدی اتفاق افتاد: متن مقاله که در به صورت ستونبندی شده بود، بهدرستی در متن اسکنشده تشخیص داده نشد. نتیجه این شد که واژه «گیاهی» (vegetative) که در انتهای یک ستون آمده بود، با واژه «الکترونی» (electron) از ابتدای ستون مجاور اشتباهاً ترکیب شد. خروجی این اسکن معیوب، عبارتی را تولید کرد که هیچگاه نباید وجود میداشت: vegetative electron microscopy یا همان «میکروسکوپ الکترونیِ گیاهی».
اما داستان به اینجا ختم نشد. دههها بعد، در سالهای ۲۰۱۷ و ۲۰۱۹، این اصطلاح برای اولینبار وارد دنیای مقالهنویسی علمی شد. برخی مقالات ایرانی در نسخه انگلیسی چکیده یا توضیح تصاویرشان، از همین ترکیب اشتباه استفاده کرده بودند. بررسیهای دقیقتر نشان داد که دلیل این اشتباه، تفاوت بسیار جزئی نگارشی بین واژههای رویشی و روبشی در زبان فارسی است که تفاوت آنها فقط یک نقطه است، و مترجمهای ماشینی مانند Google Translate آن را اشتباه تفسیر میکردند.
چگونه این اشتباه وارد حافظه مدلهای زبانی شد؟
بخش نگرانکننده ماجرا از اینجا آغاز میشود. پژوهشگران تصمیم گرفتند بررسی کنند که آیا مدلهای بزرگ هوش مصنوعی مانند ChatGPT این خطا را درون خود دارند یا نه. آنها بخشی از جملات اولیه مقالات اسکنشده را به مدلها دادند و از آنها خواستند جمله را ادامه دهند. مدل GPT-3 بهطور مکرر عبارت «میکروسکوپ الکترونیِگیاهی» را بهعنوان ادامه طبیعی جمله تولید میکرد. اما مدلهای قدیمیتر مانند GPT-2 یا BERT چنین عبارتی را پیشنهاد نمیدادند. این تفاوت نشان میدهد که «آلودگی دادهای» از یک نقطه خاص به بعد وارد شده است.
پژوهش بیشتر نشان داد که این عبارت اشتباه از طریق دیتاست بسیار عظیم CommonCrawl به مدلهای زبانی راه یافته است. CommonCrawl مجموعهای بزرگ از صفحات اینترنتی است که بسیاری از مدلهای هوش مصنوعی برای آموزش از آن استفاده میکنند. از آنجا که هیچ بررسی محتوایی عمیقی بر روی این دادهها انجام نمیشود، اصطلاحاتی مانند «میکروسکوپ الکترونیِ گیاهی» به راحتی در میان میلیونها گیگابایت متن وارد مدلها شده و اکنون، به بخشی از پیشفرضهای زبانی آنها تبدیل شده است.
چرا اصلاح چنین خطایی تقریباً غیرممکن است؟
در نگاه اول، شاید تصور کنیم که این خطا با یک اصلاح کوچک قابل حل است. اما واقعیت پیچیدهتر است. برای حذف چنین عبارتی از حافظه مدلهای هوش مصنوعی، باید دادههای آموزشی را از نو پالایش کرد، درحالیکه این دادهها در ابعادی عظیم – گاه چند میلیون گیگابایت – ذخیره شدهاند.
دسترسی به آنها نیز برای پژوهشگران مستقل تقریباً غیرممکن است، چرا که شرکتهایی مانند OpenAI یا Anthropic جزئیات دقیق آموزش مدلها را افشا نمیکنند.
از طرفی، اگر حتی بخواهیم با روشهایی مانند فیلتر کلیدواژهها این اصطلاح را حذف کنیم، با مشکل دیگری روبهرو میشویم: مقالاتی که در مورد این خطا هشدار دادهاند – مانند همین مقاله – هم ممکن است توسط فیلترها حذف شوند. بنابراین راهحل سادهای برای حذف «میکروسکوپ الکترونیِ گیاهی» وجود ندارد!
این اشتباه چه پیامدی برای جهان علم دارد؟
پدیدههایی مانند «میکروسکوپ الکترونیِ گیاهی» فقط یک شوخی زبانی نیستند. آنها نشانهای از چالشهای جدی در حوزه تولید، پالایش و انتشار دانش هستند. برخی نشریات علمی پس از شناسایی این خطا، مقالات را پس گرفته یا اصلاح کردهاند. اما برخی دیگر در برابر اصلاح مقاومت کردهاند و حتی تلاش کردهاند برای این اصطلاح توجیه علمی بیاورند.
به علاوه، ابزارهایی مانند Problematic Paper Screener طراحی شدهاند که محتوای مقالات را اسکن میکنند و در صورت مشاهده عباراتی مانند این، هشدار میدهند. اما این ابزارها فقط میتوانند با اشتباهات شناساییشده مقابله کنند؛ نه با خطاهایی که هنوز کشف نشدهاند.
این ماجرا همچنین به پدیده دیگری نیز مربوط میشود: ظهور اصطلاحات عجیب در مقالات هوش مصنوعی، مثل استفاده از ترکیبهایی مانند «آگاهی جعلی» (counterfeit consciousness) بهجای «هوش مصنوعی» برای دور زدن فیلترهای نرمافزاری. در مواردی حتی دیده شده که عبارت «من یک مدل زبانی هوش مصنوعی هستم» در مقالات علمی درج شده است!
چگونه باید با فسیلهای دیجیتال زندگی کرد؟
در حال حاضر، تولید دانش با ابزارهای هوشمند شتاب گرفته است. اما همانطور که سرعت بالا میرود، احتمال بروز خطا هم بیشتر میشود. هیچ سازمان یا نهاد مشخصی نیست که مسئول نظارت بر دادههای آموزشی مدلهای زبانی باشد. هیچ راه واحدی برای اصلاح اشتباهات شناختهشده وجود ندارد. و هیچ تضمینی نیست که خطاهای جدید، بهزودی در لایههای پنهان اطلاعات ما جا خوش نکنند.
برای مقابله با این وضعیت، سه راه وجود دارد:
۱. شفافیت بیشتر شرکتهای فناوری: باید اطلاعات دقیقتری درباره منابع آموزشی و روشهای پالایش دادهها منتشر کنند.
۲. نقد و ارزیابی مداوم از سوی پژوهشگران: جامعه علمی باید با دقت بیشتر از همیشه، مقالات را از منظر زبانی و محتوایی بررسی کند.
۳. بازبینی جدی در فرایند داوری علمی: ناشران و سردبیران باید آگاه باشند که هوش مصنوعی نهفقط ابزار کمکنویسنده، بلکه گاهی منشأ خطا نیز است.
منبع
source