الگوریتم Paraphrasing چیست و چگونه محتوای اختصاصی تولید می‌کند؟

🎉«داستان هم‌مسیری» سال 1400 تریبون منتشر شد🎉

الگوریتم Paraphrasing گوگل

به‌ روزرسانی شده در 12 اردیبهشت 1401

چگونه الگوریتم Paraphrasing گوگل از محتوای شما مقاله ایجاد می‌کند؟

گوگل تحقیقات مربوط به الگوریتم جدیدی را منتشر کرده است که می‌تواند محتوای صفحات وب شما و رقبایتان را دریافت کرده و از ترکیب آن‌ها، مقالاتی «منسجم» ایجاد کند. الگوریتم جدید گوگل که الگوریتم Paraphrasing نام دارد، می‌تواند با ایجاد محتوای اصلی و بدون نیاز به فرستادن کاربر به سایر صفحات وب، به پرسش‌های او پاسخ دهد.

الگورتیم Paraphrasing چگونه کار می‌کند؟

الگوریتم جدید گوگل با جمع‌بندی محتوای وب، با استفاده از الگوریتمی کار می‌کند که محتوای شما را «استخراج» کرده و سپس قسمت‌های غیرمرتبط آن را بیرون می‌ریزد و حذف می‎کند. این الگوریتم، شبیه الگوریتم‌های مورد استفاده برای تولید featured snippetها عمل می‌کند.
این بخش‎ها «خلاصه‌های استخراجی» نامیده می‌شوند زیرا محتوا را از صفحات وب استخراج می‌کنند. خلاصه‌های استخراجی مانند تقلیل متن اصلی به مهم‌ترین جملات است. در واقع این الگوریتم می‎تواند از میان چندین مقاله و محتوا، محتوایی جدید و اختصاصی تولید کند.
سپس، Paraphrasing از نوع دیگری از الگوریتم به نام «خلاصه چکیده» استفاده می‌کند. خلاصه‌های چکیده، شکلی از نقل قول‌ها هستند.
نقطه ضعف Paraphrasing ساختگی یا همان خلاصه‌های چکیده، این است که تقریبا یک سوم خلاصه‌ها حاوی حقایق جعلی هستند.
تحقیقات جدید گوگل، راهی برای پیوستن به بهترین شکلِ هر دو روش بالا را کشف کرده است. آن‌ها از «خلاصه‌های استخراجی» برای بیرون کشیدن حقایق مهم از داکیومنت‌های وب استفاده می‌کنند و سپس رویکرد «خلاصه چکیده» را برای بیان مطالب به کار می‎برند. این رویکرد، یک داکیومنت جدید بر اساس اطلاعات موجود در وب ایجاد می‌کند و نسخه اختصاصی گوگل از ویکی پدیا را به وجود می‎آورد.
به گفته گوگل:«ما نشان می‌دهیم که تولید مقالات ویکی پدیای انگلیسی را می‌توان به عنوان خلاصه چند داکیومنت از داکیومنت‌های منبع، مورد بررسی قرار داد.»

این بدان معناست که گوگل می‌تواند در فضای اینترنت بگردد و اطلاعات مربوط به یک موضوع را از چندین صفحه وب مختلف جمع‎آوری کند.

سپس:«ما از خلاصه استخراجی برای شناسایی اطلاعات مهم و قابل توجه استفاده می‌کنیم.»

می‌دانید معنی این حرف چیست؟ یعنی گوگل از میان صفحات وب مختلف، مهم‌ترین جملات و بخش‌های آن را استخراج می‌کند.
مرحله بعدی استفاده از موارد زیر است:
«یک مدل انتزاعی عصبی برای تولید مقاله»
این بخش به ما می‌گوید که گوگل، معانی و بخش‌های مهم استخراج شده از هر مقاله را در نظر می‌گیرد و از «مدل انتزاعی عصبی» برای خلاصه کردن این حقایق (چیزهایی که از وب‎سایت‎های مختلف استخراج کرده) در جملات و پاراگراف‌های طبیعی برای ایجاد مقاله استفاده می‌کند.
گوگل می‌گوید مقالات به دست آمده از طریق الگوریتم Paraphrasing می‌تواند مورد بررسی انسانی قرار گیرد.

«ما نشان می‌دهیم که این مدل می‌تواند پاراگراف‌های چند جمله‌ای روان و منسجم ایجاد کند … وقتی داکیومنت‌های مرجع معین و معلوم می‌شود، نشان می‌دهیم می‌تواند اطلاعات واقعی مربوطه را که در … ارزیابی‌های انسانی منعکس شده است، استخراج کند».
Featured Snippetها نمونه‎‌ای از خلاصه‌های استخراجی هستند. این فرآیندی است که طی آن، کل صفحه وب بررسی شده و سپس کلمات و عبارات نامربوط کنار گذاشته می‌شوند و فقط چند جمله اصلی باقی می‌ماند که پاسخ سوال کاربر را بیان می‌کند.
یک الگوریتم مرتبط در گوگل وجود دارد که صفحات وب را برای Google Voice خلاصه می‌کند و Sentence Compression by Deletion with LSTM نام دارد.

آیا الگوریتم Paraphrasing گوگل محتوای شما را خلاصه می‌کند؟

الگوریتم Paraphrasing در مورد خلاصه کردن «داکیومنت‌های متعدد» و جمع‌بندی آن‌ها است. این الگوریتم را می‌توان در مورد کتاب‌ها اعمال کرد. همچنین می‌توان آن را برای پایگاه داده‌های اوپن سورس اطلاعات نیز به کار گرفت. از طرف دیگر، الگوریتم Paraphrasing در هر صفحه وب عمومی، از جمله محتوای شما اعمال می‌شود.
تحقیقاتی که از نتایج موتورهای جستجو و نتایج ویکی پدیا به عنوان منبع خلاصه‌های به دست آمده استفاده کرده، نشان می‎دهد که گاهی از آن‌ها برای تولید مقالات جدید استفاده می‌شود. این الگوریتم همچنین یک تست مقایسه‌ای انجام داده که دسته دومی از محتواها را با استفاده از رفرنس‌هایی که در ویکی پدیا به آن‌ها اشاره شده، تولید می‌کند.
این مقاله، فرآیند انجام شده را به صورت زیر شرح می‏دهد:
«داکیومنت‌های مرجع از یک موتور جستجو بدست می‌آیند و با موضوع ویکی پدیا، به عنوان کوئری مشابه رفرنس‌های موتور جستجوی ما استفاده می‌شود. با این حال، ما نتایج را با داکیومنت‌هایی که فقط در بخش مراجع مقالات ویکی پدیا پیدا می‌شوند، نشان می‌دهیم.»
ترجمه جملات بالا به زبان فارسی سلیس نشان می‌دهد که آن‎ها از موضوعات ویکی پدیا به عنوان کوئری جستجو و از صفحات نتایج موتورهای جستجو (SERP) و محتوای شما، به عنوان منبع اصلی برای ایجاد پاسخ‌های جدیدی که می‌توانند بدون نشان دادن یک صفحه به سوالات کاربران جواب دهند، استفاده می‌کنند.
مقاله تحقیقی در مورد این که آیا گوگل مشخص می‌کند که محتوایش را از محتوای شما برداشته است یا خیر، حرفی نمی‌زند. همچنین هیچ توضیحی در مورد اینکه آیا لینک‌هایی را به عنوان بخشی از SERP‌ یا به عنوان پیوند پاورقی به منابع اصلی اضافه می‌کند یا نه، وجود ندارد.

آیا گوگل دیگر قصد نمایش محتواهای شما ندارد؟

مقاله تحقیقاتی نتیجه می‌گیرد که آزمایش آن‌ها موفقیت‌آمیز بوده است. گوگل می‌تواند محتوای خود را با جمع‌بندی مطالب شما تولید کند، در نتیجه به پرسش کاربر به راحتی و بدون نیاز به کلیک روی سایت شما پاسخ دهد. خبر بدی برای مدیران سایت و تولیدکنندگان محتوا!
در مقاله تحقیقاتی گوگل آمده است:
«ما نشان دادیم که استخراج کردن ویکی پدیا می‌تواند باعث مشکل خلاصه‌سازی چند داکیومنتی شود.»
این عبارت «چند داکیومنتی» به معنای هر داکیومنتی است که آزادانه در دسترس باشد، از جمله صفحات وب شما و رقبایتان.
و این چیزی است که مقاله تحقیقاتی درباره موفقیت الگوریتم Paraphrasing می‌گوید:
«این مدل، به طور قابل توجهی از معماری encoder-decoder سنتی در توالی‌های طولانی بهتر عمل می‌کند و به ما امکان می‌دهد بسیاری از داکیومنت‌‏ها مرجع را بررسی کرده و مقالات منسجم و آموزنده ویکی پدیا را تولید کنیم».
این بدان معناست که گوگل می‌تواند از بسیاری از صفحات وب برای تولید مقالات «منسجم» و «آموزنده» استفاده کند و چنین چیزی می‌تواند یک تغییر نسبتا نگران‌کننده برای فعالان حوزه محتوا باشد.

آیا گوگل از الگوریتم Paraphrasing برای دستیار صوتی استفاده می‌کند؟

هنوز هیچ حرفی در مورد این نیست که آیا گوگل قصد دارد از الگوریتم Paraphrasing در دستیار صوتی خود استفاده کند یا نه. با این حال، این الگوریتم برای جستجوی دستیار صوتی بسیار مناسب است. جستجوی دستیار صوتی یعنی جستجوهای انجام شده از طریق تلفن همراه یا دستگاه اینترنت اشیا (IoT) که در خانه یا اتوموبیل از آن‌ها استفاده شده است.
اگر الگوریتم Paraphrasing در دستیار صوتی گوگل به کار برود و مثلا زمانی که کاربر درباره یک ستاره سینما سوال بپرسد، دستیار صوتی گوگل می‌تواند در پاسخ به سوال او از جملات مختلف استفاده کند، درست مانند اینکه از یک شخص واقعی سوال پرسیده‌ باشید.
گوگل مدت‌های طولانی دلش می‌خواست شبیه کامپیوتر دستیار صوتی در Star Trek باشد. در سال ۲۰۱۴، گزارش شد که نسخه قبلی جستجوی صوتی با نام بازیگری که صدای این کامپیوتر را در Star Trek بازی می‌کرد، رمزگذاری شده است. الگوریتمی مانند Paraphrasing کاملا برای استفاده در تنظیمات دستیار صوتی مناسب است.

جمع بندی

الگوریتم Paraphrasing یکی از چندین و چند الگوریتم گوگل است که محتوای صفحات مختلف وب را بررسی کرده و بخش‌هایی که اطلاعات چندان بااهمیتی ندارند را حذف می‌کند. تلاش این الگوریتم در این جهت است که بتواند خلاصه‌ای مفید و ارزشمند از محتوا صفحه را به کاربران ارائه دهد.

اشتراک‌گذاری‌:

دیدگاهتان را بنویسید

نشانی ایمیل شما منتشر نخواهد شد.