در سال‌های اخیر، با گسترش روزافزون مدل‌های زبانی و ابزارهای نوشتاری مبتنی بر هوش مصنوعی، پژوهشگران شاهد پدیده‌ای غیرمنتظره بوده‌اند: واژه‌ها و عبارات بی‌معنی و ساختگی که به شکلی کاملاً جدی وارد مقالات علمی می‌شوند و گاهی آن‌قدر معتبر جلوه می‌کنند که حتی داوران مجلات علمی هم متوجه بی‌اساس بودنشان نمی‌شوند.

یکی از نمونه‌های شگفت‌انگیز این خطا، عبارتی‌ست به‌نام «میکروسکوپ الکترونیِ گیاهی» (vegetative electron microscopy)؛ ترکیبی که در نگاه اول، بسیار حرفه‌ای و فنی به‌نظر می‌رسد اما در واقع هیچ معنای علمی مشخصی ندارد و حاصل یک رشته اشتباه‌ پی‌در‌پی در زنجیره تولید داده‌های هوش مصنوعی‌ست.

این ماجرا، فراتر از یک خطای تصادفی ساده است؛ بلکه نشانه‌ای‌ است از ظهور چیزی که پژوهشگران آن را «فسیل دیجیتال» می‌نامند. فسیلی که نه در دل خاک، بلکه در عمق داده‌های دیجیتالی شکل گرفته است و حالا آرام‌آرام در حال گسترش در متون علمی، موتورهای جست‌وجو، مدل‌های زبانی و ذهن دانشمندان است.

منشأ این فسیل دیجیتال کجاست؟

پژوهش‌ها نشان می‌دهد که ریشه‌ پیدایش اصطلاح «میکروسکوپ الکترونیِ گیاهی» به دهه ۱۹۵۰ بازمی‌گردد؛ یعنی زمانی که چند مقاله کلاسیک در زمینه باکتری‌شناسی برای اولین‌بار اسکن و دیجیتال شده بودند. در فرایند اسکن این مقالات، خطایی ظریف اما کلیدی اتفاق افتاد: متن مقاله که در به صورت ستون‌بندی شده بود، به‌درستی در متن اسکن‌شده تشخیص داده نشد. نتیجه این شد که واژه‌ «گیاهی» (vegetative) که در انتهای یک ستون آمده بود، با واژه‌ «الکترونی» (electron) از ابتدای ستون مجاور اشتباهاً ترکیب شد. خروجی این اسکن معیوب، عبارتی را تولید کرد که هیچ‌گاه نباید وجود می‌داشت: vegetative electron microscopy یا همان «میکروسکوپ الکترونیِ گیاهی».

اما داستان به اینجا ختم نشد. دهه‌ها بعد، در سال‌های ۲۰۱۷ و ۲۰۱۹، این اصطلاح برای اولین‌بار وارد دنیای مقاله‌نویسی علمی شد. برخی مقالات ایرانی در نسخه‌ انگلیسی چکیده یا توضیح تصاویرشان، از همین ترکیب اشتباه استفاده کرده بودند. بررسی‌های دقیق‌تر نشان داد که دلیل این اشتباه، تفاوت بسیار جزئی نگارشی بین واژه‌های رویشی و روبشی در زبان فارسی است که تفاوت آنها فقط یک نقطه است، و مترجم‌های ماشینی مانند Google Translate آن را اشتباه تفسیر می‌کردند.

چگونه این اشتباه وارد حافظه‌ مدل‌های زبانی شد؟

بخش نگران‌کننده ماجرا از اینجا آغاز می‌شود. پژوهشگران تصمیم گرفتند بررسی کنند که آیا مدل‌های بزرگ هوش مصنوعی مانند ChatGPT این خطا را درون خود دارند یا نه. آن‌ها بخشی از جملات اولیه مقالات اسکن‌شده را به مدل‌ها دادند و از آن‌ها خواستند جمله را ادامه دهند. مدل GPT-3 به‌طور مکرر عبارت «میکروسکوپ الکترونیِگیاهی» را به‌عنوان ادامه‌ طبیعی جمله تولید می‌کرد. اما مدل‌های قدیمی‌تر مانند GPT-2 یا BERT چنین عبارتی را پیشنهاد نمی‌دادند. این تفاوت نشان می‌دهد که «آلودگی داده‌ای» از یک نقطه‌ خاص به بعد وارد شده است.

پژوهش‌ بیشتر نشان داد که این عبارت اشتباه از طریق دیتاست بسیار عظیم CommonCrawl به مدل‌های زبانی راه یافته است. CommonCrawl مجموعه‌ای بزرگ از صفحات اینترنتی است که بسیاری از مدل‌های هوش مصنوعی برای آموزش از آن استفاده می‌کنند. از آنجا که هیچ بررسی محتوایی عمیقی بر روی این داده‌ها انجام نمی‌شود، اصطلاحاتی مانند «میکروسکوپ الکترونیِ گیاهی» به راحتی در میان میلیون‌ها گیگابایت متن وارد مدل‌ها شده و اکنون، به بخشی از پیش‌فرض‌های زبانی آن‌ها تبدیل شده است.

چرا اصلاح چنین خطایی تقریباً غیرممکن است؟

در نگاه اول، شاید تصور کنیم که این خطا با یک اصلاح کوچک قابل حل است. اما واقعیت پیچیده‌تر است. برای حذف چنین عبارتی از حافظه مدل‌های هوش مصنوعی، باید داده‌های آموزشی را از نو پالایش کرد، درحالی‌که این داده‌ها در ابعادی عظیم – گاه چند میلیون گیگابایت – ذخیره شده‌اند.

دسترسی به آن‌ها نیز برای پژوهشگران مستقل تقریباً غیرممکن است، چرا که شرکت‌هایی مانند OpenAI یا Anthropic جزئیات دقیق آموزش مدل‌ها را افشا نمی‌کنند.

از طرفی، اگر حتی بخواهیم با روش‌هایی مانند فیلتر کلیدواژه‌ها این اصطلاح را حذف کنیم، با مشکل دیگری روبه‌رو می‌شویم: مقالاتی که در مورد این خطا هشدار داده‌اند – مانند همین مقاله – هم ممکن است توسط فیلترها حذف شوند. بنابراین راه‌حل ساده‌ای برای حذف «میکروسکوپ الکترونیِ گیاهی» وجود ندارد!

این اشتباه چه پیامدی برای جهان علم دارد؟

پدیده‌هایی مانند «میکروسکوپ الکترونیِ گیاهی» فقط یک شوخی زبانی نیستند. آن‌ها نشانه‌ای از چالش‌های جدی در حوزه‌ تولید، پالایش و انتشار دانش هستند. برخی نشریات علمی پس از شناسایی این خطا، مقالات را پس گرفته یا اصلاح کرده‌اند. اما برخی دیگر در برابر اصلاح مقاومت کرده‌اند و حتی تلاش کرده‌اند برای این اصطلاح توجیه علمی بیاورند.

به علاوه، ابزارهایی مانند Problematic Paper Screener طراحی شده‌اند که محتوای مقالات را اسکن می‌کنند و در صورت مشاهده‌ عباراتی مانند این، هشدار می‌دهند. اما این ابزارها فقط می‌توانند با اشتباهات شناسایی‌شده مقابله کنند؛ نه با خطاهایی که هنوز کشف نشده‌اند.

این ماجرا همچنین به پدیده‌ دیگری نیز مربوط می‌شود: ظهور اصطلاحات عجیب در مقالات هوش مصنوعی، مثل استفاده از ترکیب‌هایی مانند «آگاهی جعلی» (counterfeit consciousness) به‌جای «هوش مصنوعی» برای دور زدن فیلترهای نرم‌افزاری. در مواردی حتی دیده شده که عبارت «من یک مدل زبانی هوش مصنوعی هستم» در مقالات علمی درج شده است!

چگونه باید با فسیل‌های دیجیتال زندگی کرد؟

در حال حاضر، تولید دانش با ابزارهای هوشمند شتاب گرفته است. اما همان‌طور که سرعت بالا می‌رود، احتمال بروز خطا هم بیشتر می‌شود. هیچ سازمان یا نهاد مشخصی نیست که مسئول نظارت بر داده‌های آموزشی مدل‌های زبانی باشد. هیچ راه واحدی برای اصلاح اشتباهات شناخته‌شده وجود ندارد. و هیچ تضمینی نیست که خطاهای جدید، به‌زودی در لایه‌های پنهان اطلاعات ما جا خوش نکنند.

برای مقابله با این وضعیت، سه راه وجود دارد:

۱. شفافیت بیشتر شرکت‌های فناوری: باید اطلاعات دقیق‌تری درباره‌ منابع آموزشی و روش‌های پالایش داده‌ها منتشر کنند.
۲. نقد و ارزیابی مداوم از سوی پژوهشگران: جامعه‌ علمی باید با دقت بیشتر از همیشه، مقالات را از منظر زبانی و محتوایی بررسی کند.
۳. بازبینی جدی در فرایند داوری علمی: ناشران و سردبیران باید آگاه باشند که هوش مصنوعی نه‌فقط ابزار کمک‌نویسنده، بلکه گاهی منشأ خطا نیز است.

منبع

source

توسط salamathyper.ir