1394/9/5
در این مقاله سعی داریم تا راجع به الگوهای شناخته شده ی گوگل بحث کنیم.گرچه این الگوها برای موتورهای جستجو محرمانه هستند ولی متخصصین با آزمون و خطا توانسته اند به بعضی از این الگوها پی ببرند. هدف از این مقاله کمک به شما در رابطه با قرار دادن مطالبتان به بهترین شکل در سایتتان است. همچنین در این مقاله روشهایی مطرح شده است که نشان می دهد چگونه از یک موتور جستجو به نحو احسنت برای سایتمان استفاده کنیم.
کلمات کلیدی
موتورهای جستجو برنامه هایی هستند که موضوعات مورد نظر کاربران را به شکل کلمات کلیدی درون صفحات یا اسناد مختلف در اینترنت جستجو می کنند و نتایج را به صورت آدرس محل ذخیره ی این مطالب عرضه می کنند.
انواع و اجزای تشکیل دهنده موتور های جستجو
موتورهای جستجوی عمومی محتویات تمام سایت ها را بررسی می کنند و خلاصه ای از آنان را در یک پایگاه داده شاخص indexed database نگه داری می کنند.
موتور های جستجو از لحاظ پشتیبانی مالی و نیروی انسانی به دو دسته تقسیم می شوند:
بزرگترین مشکلات ساخت موتور جستجو
بزرگترین مشکل های ساخت موتور جستجو را می توان ناهمگونی وحشتناک اسناد و محتویات وب و راضی نگه داشتن انبوهی از کاربران بی تجربه و پر توقع برای جستجو دانست.
آن دسته از موتور های جستجویی که بر اساس تطبیق کلمات کلیدی با محتویات اسناد کار می کنند نتایجی را بر می گردانند که ارتباط کمی با موضوع مورد نظر کاربران دارند. پس موتورهای جستجو باید الگوریتم های بیشتر و پیچیده تری برای ارائه ی نتایج بهتر به کاربران داشته باشند.
انواع جستجو بر اساس ساختار
یک وبسایت از یک صفحه شروع شده و از طریق آن و هایپرلینک های موجود در آن به اعماق کل وبسایت طی مسیر می کند.
معماری کلی موتور های جستجو
اجزای تشکیل دهنده یک موتور جستجو هشت قسمت است: درون کاو، کنترل درون کاو، انباره صفحات، ماژول شاخص دهی،collection analysis module، index utility، موتور پرس وجو و ماژول رتبه بندی.
درون کاو یا خزنده (crawler)
تمامی موتور های جستجو یک ماژول عملیاتی به نام درون کاو دارند که کل وب سایت ها را بطور زمان بندی شده پیمایش می کند و به جمع آوری مطالب ذخیره شده در گوشه کنار وب می پردازند. هر درون کاو از تعدادی برنامه ی کوچک تشکیل شده است، که هر کدام از صفحه شروع یا هسته یک وبسایت آغاز بکار می کنند و پس از دریافت آن صفحه و تحویل به انباره صفحات page repository لینک های درون صفحه جاری و صفحات پیوند خورده را نیز به همین روال ذخیره می کنند.
کنترل درون کاو (control crawler)
مجموعه برنامه های درون کاوی را با تحویل URL مورد نظر راه اندازی کره و بکار درون کاوی می گمارد. این ماژول تعیین می کند صفحه بعدی که قرار است بررسی شود کدام است. ماژول crawler موظف است تمام آدرس ها یا URL های درون صفحات را استخراج و برای تصمیم گیری در اختیار ماژول کنترل درون کاو بگذارد.
تفاوت موتور های جستجو مختلف بیشتر در الگوریتم کنترل درون کاو است.
انباره صفحات (page repository)
بانک اطلاعاتی صفحاتی که توسط ماژول درون کاو استخراج می شود در انباره صفحات قرار می گیرد تا برای شاخص دهی و تحلیل محتوا در اختیار دیگر ماژول ها قرار گیرد. ماژول درون کاو آنقدر عملیات استخراج و ذخیره در انباره صفحات را انجام می دهد که یا منابع انباره صفحات تمام شود یا آنکه تمام آدرس ها استخراج شوند.
شاخص دهی (Indexer)
این ماژول کلمات موجود در صفحات را به همراه URL آن ها در یک جدول بسیار عظیم لیست می کند.
یک خروجی ماژول شاخص دهی بانک اطلاعاتی یا شاخص ساختاری Structure index است. این بانک چگونگی پیوند صفحات را نشان می دهد.
collection analysis module
که کنترل موارد زیر را به عهده دارد:
utility index
خروجی ماژولِ collection analysis است، که پس از تحلیل کل انباره صفحات بدست می آید. این شاخص ها می تواند متفاوت باشند مانند تعداد تصویر در یک صفحه تا تعداد لینک یا رتبه اقتصادی وبسایت صاحب آن صفحه و…
ماژول های درون کاو و شاخص دهی مدام باید در حال اعمال تغییرات صفحات وب باشند.
بعضی از موتورهای جستجو انباره صفحات خود را بطور کامل نگه داری می کنند.
موتور پرس و جو Query Engin
که وظیفه اش دریافت درخواست های جستجو از کاربران است.
رتبه بندی ranking
نتایج حاصل از جستجوی کلمات کلیدی کاربر را به نحوی رتبه دهی می کند تا مرتبط ترین صفحات بالاترین رتبه را بدست بیاورند و در ابتدای صفحه جستجو قرار گیرد.
عملکرد اجزای معماری در کنار هم
ماژول درون کاو موظف است صفحات وب را برای تحلیل و ایجاد شاخص بصورت جامع استخراج کرده و تحویل انباره صفحات بدهد. این ماژول با یک مجموعه اولیه از آدرس ها کار خود را شروع می کند این آدرس ها بصورت یک صف اولویت دار قرار می گیرند.
این ماژول آدرس لینک های موجود در یک URL را نیز بازیابی می کند. ماژول کنترل درون کاو آدرس های ملاقات شده را حذف می کند.
ماهیت دائما متغیر وب کنترل فرآیند درون کاوی وب را با پیچیدگی های زیر رو به رو می کند:
3 معیار برای انتخاب صفحات وجود دارد:
در معیار اول بازدید کاربران، فراوانی نسبی تمام کلمات کلیدی محاسبه می شود.
در معیار دوم صفحات یا سایت هایی که به یک صفحه ی خاص لینک کرده اند، به آن صفحه ی خاص امتیاز داده می شود.
در معیار سوم منظور از محل قرار گرفتن صفحه، آدرس صفحه، یا ماهیت آدرس صفحه از لحاظ .com, .net ،و… و میزان فاصله آن از صفحه اصلی وب سایت است.
مدل درون کاوی چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب از گستره بسیار عظیم وب است. دو الگو برای این موضوع است:
در روش اول، درون کاو پس از ملاقات و دریافت دقیقا n صفحه وب متوقف می شود (n عدد ثابتی است). صفحات نیز از پر اهمیت ترین به کم اهمیت ترین مرتب می شوند.
در روش دوم، دقیقا مانند الگوی کاوش و توقف عملیات انجام می شود با این تفاوت که صفحاتی دریافت و ذخیره می شوند، که اهمیت آنان از مقدار آستانه بیشتر باشد.
روش های تازه سازی و سرکشی به صفحات:
در تازه سازی یکنواخت و مدام سرکشی در زمان مشخص انجام می شود.
در تازه سازی متناسب با تغییر، سرکشی متناسب با دوره تناوب تغییر هر سایت انجام می شود. در این روش ابتدا نرخ تغییر صفحات یک وب سایت را بالا در نظر گرفته می شود و زمان کوتاهی برای مثال هر روز برای سرکشی سایت تنظیم می شود سپس اگر صفحه به مرور زمان تغییر نکرد این زمان برای سرکشی بیشتر می شود تا وقتی که به حد بیشینه ی خود برسد.
انباره ذخیره سازی صفحات به دلیل حجم زیاد اسناد شباهت چندانی با پایگاه داده های رایج ندارد. چالش هایی که انباره صفحات با آن ها روبرو است عبارت اند از:
گسترش پذیری تا بینهایت از حجم زیاد اسناد ناشی می شود که توسط صدها تا هزاران مقدار توزیع می شوند.
منظور از دسترسی دو گانه وجود دو نوع دسترسی است:
بهنگام سازی عظیم و توده ای باید انجام شود. سیستم ذخیره سازی باید اجازه بدهد که هم زمان با دسترسی ماژول های دیگر به انباره صفحات عملیات به روز رسانی نیز در جریان باشد.
صفحات منسوخ و حذف شده در به روز رسانی باید از انباره صفحات حذف شوند.
موتور های جستجو شاخص های زیر را از درون صفحات وب استخراج می کنند:
در شاخص لینک صفحات موجود در انباره، در قالب یک گراف جهت دار directional graph مدل می شوند. گره های این گراف صفحات وب هستند و لبه های گراف ارجاعاتی است که صفحات در قالب hyperlink به یکدیگر دارند. مجموعه لینک ها به بیرون links outward و به داخل incoming link مورد توجه است و مجوعه دوم یعنی لینک های به داخل مهمتر از لینک های به بیرون هستند.
شاخص متنی عبارت است از یک پایگاه اطلاعاتی از کل کلمات کلیدی ممکن در ادبیات هر زبان به همراه مجموعه غنی از مخفف ها و استعارات به همراه اندیس صفحاتی که این کلمات در درون آن ها وجود دارند. شاخص متنی شاخص واژگون inverted index نیز نامیده می شود.
رتبه دهی و تحلیل لینک چگونگی یا ترتیب تحویل صفحات حاوی کلمات کاربر را نشان می دهد.
ماژول رتبه دهی پس از غربال کردن نتایج بی ارزش یا کم ارزش آن ها را بر حسب اهمیتشان امتیاز دهی و مرتب می کند تا چیزی که کاربر دریافت می کند فهرست مرتب شده ای از صفحات مرتبط با کلیدواژه هایش باشد.
ماژول رتبه بندی در دو دسته کاملا متفاوت از اطلاعات بهره می گیرد:
عوامل موثر در ارزش یک صفحه از نظر ماژول رتبه بندی:
اطلاعات مندرج در بیرون صفحه:
بیشترین عوامل رتبه بندی بیرون صفحه تعداد ارجاعات و لینک هایی است که از دیگر صفحات، به صفحه ی مورد نظر شده اند.
برچسب ها
برچسب های توصیفی متن meta description tag
کدهای html که درون صفحات هستند و بازدید کنندگان سند آن ها را نمی بیند، در موتور های جستجو و رتبه بندی تاثیر زیادی دارند. مانند متاتگ ها که مشخص کننده ی کلمات کلیدی، توصیف کوتاه از محتوای صفحه، تاریخ آخرین ویرایش صفحه، و تازه سازی مجدد صفحه بر حسب ثانیه.
بر چسب alt
بخشی از تصاویر مربوط به محتوای صفحه هستند و بخشی دیگر لوگو، آیکون، نام تجاری یا برای تزئینات صفحه هستند، این برچسب توصیف یکایک تصاویر است. از آنجایی که مطالب داخل عکس نمی تواند توسط موتورهای جستجو دیده شوند از این برچسب برای فهم محتوای عکس استفاده می کنند.
فایل robots.txt
فایلی متنی است که بر روی سرویس دهنده وب و درون دایرکتوری اصلی هر سایت ذخیره می شود و مشخصات مسیرهای مجاز و غیر مجاز را به ربات های موتورهای جستجو عرضه می کند. این فایل زحمت درون کاو را کاهش خواهد داد.
الگوریتم های رتبه بندی
منظور از الگوریتم ها رتبه بندی الگوریتم هایی هستند که تصمیم می گیرند بر اساس چه کلمات کلیدی چه وبسایتی در چه صفحه و رده ای از نتایج جستجو قرار گیرد. الگوریتم های رتبه بندی امروزه بسیار پیچیده هستند و از هزاران پارامتر بهره می برند.
پارامتر های رتبه دهی 3 دسته اند:
مهمترین پارامتر کلمات هستند. اخیرا تکنیک های پیشرفته ای برای رتبه بندی ابداع شده که از رفتار کاربران به عنوان پارامتر استفاده می شود. شرکت گوگل از پیشتازان این روش است و با ایجاد امکان نظردهی کاربران بر نتایج این سیستم را نیز وارد الگوریتم های پیچیده خود کرده است.
وزن دهی به کلمات
برای هر کلمه ای در هر متنی یک وزنی با الگوی خاصی در نظر گرفته شده است. این وزن بیانگر تاثیر کلمه بر موضوع متن در مقایسه با سایر کلمات بکار رفته است.
اهمیت کلمات را می توان بر پایه شرایطی مشخص کرد:
وزن آماری کلمه تعداد تکرار آن کلمه در متن بر اساس توزیع کلمات در متن است که به دو دسته فراوانی مطلق و فراوانی نسبی تقسیم می شود.
مکان قرارگیری کلمه، اینکه کلمه در عنوان یا زیر عنوان یا بدنه متن یا چکیده متن قرار گیرد از معیار های وزن دهی به کلمات می باشد.
مفهوم هر کلمه که بیانگر ارتباط کلمه با کلمات دیگر است به بیانی دیگر مترادف یا متضاد بودن آن کلمه است.
از کاربرد های خاص کلمه می توان اسامی را در سیستمی که دنبال اسامی خاص می گردد مثال زد که اهمیت ویژه ای دارد.
ارزیابی کلمات کلیدی
معیارهای زیر برای کلماتی که از آستانه تعیین شده برای وزن دهی عبور می کنند می باشند:
جامعیت یعنی اینکه هر چه کلمات بیشتری از یک متن استخراج شود، احتمال بازیابی آن متن نیز بیشتر می شود.
تعیین کنندگی یعنی هر کلمه کلیدی تا چه حد دقیق، متن های مرتبط را مشخص کند.
پارامتر های وزن دهی
پارمترهای اصلی در وزن دهی:
یکی از کاربردی ترین روابط در حوزه بازیابی اطلاعات پارامتر tf.idf است
این پارامتر از حاصلضرب فراوانی کلمه در فراوانی معکوس سند بدست می آید. این روش مبتنی بر چند سند است که فراوانی کلمه، تعداد تکرار کلمه در یک سند خاص و فراوانی معکوس، تعداد اسنادی که این کلمه در آن اسناد ظاهر شده است را نشان می دهد. در این روش محاسبات کم ولی نتایج قابل قبول است.
در پارامتر سیگنال و نویز هر چه احتمال رخداد کلمه بیشتر می شود بار اطلاعاتی کمتری برای آن در نظر گرفته می شود. کلمات با اهمیت که دارای توزیع متمرکز هستند یعنی تنها در بعضی از اسناد متنی ظاهر شده اند میزان نویز کمتری دارند.
در پارامتر مقدار تمایز استفاده کلمه ای از سند به عنوان کلمه کلیدی که باعث کاهش تشابه این سند با سایر اسناد می شود مد نظر گرفته می شود. هر چه مقدار تمایز بیشتر باشد بیانگر تخصصی تر بودن این کلمه و اهمیت بیشتر آن در تمایز سند از سایر اسناد است.
بازیابی تحمل پذیر
بازیابی تحمل پذیر عبارت است از این که موتور جستجو بتواند اشتباهات کاربر را در ورود کلیدواژه یا عبارات پیش بینی کند و آن را جبران کند و یا پیشنهاد اصلاح آن را به کاربر ارائه دهد.
الگوریتم کلی غلط یابی املایی در موتورهای جستجو
مرحله اول: زمانی که غلط در درخواست کاربر وارد شد کلمات متناظر با آن را پیدا می کند و به همراه کلمه غلط به مرحله بعدی می فرستد.
محله دوم: اگر کلمه وارد شده در لغت نامه موجود نباشد مانند مرحله اول عمل می کند.
مرحله سوم: مانند حالت اول عمل می کند به شرطی که تعداد مستندات یافته شده در اثر درخواست وارد شده کمتر از مقدار از پیش تعیین شده باشد.
مرحله چهارم: وقتی که پرسش وارد شده تعداد مستنداتی کمتر از مقدار از پیش تعیین شده را باز گرداند در این صورت موتور جستجو پیشنهاد برای اصلاح کلمه به کاربر می دهد.
غلط یابی املایی
دو روش برای پیدا کردن غلط املایی عمدتا وجود دارد:
دو شیوه خاص غلط یابی از دیدگاه کلمه و جمله:
اگر در خواست کابر شامل چند کلمه باشد عمل غلط یابی را هر بار بر روی کلمات آن به طور جداگانه انجام می دهد که به این روش، روش کلمه مجزا می گویند.
در روش حساس به متن در کنار هم قرار گرفتن کلمات و تشکیل عبارت متداول بررسی می شود.
الگوریتم فاصله ویرایشی
فاصله ویرایشی بین دو رشته کاراکتر عبارت است از تعداد اعمالی که لازم است تا یکی را به دیگری تبدیل کند. این اعمال می توانند شامل حذف و درج و جابجایی باشند.
الگوریتم های تعریف و محاسبه فاصله ویرایشی عبارت اند از:
یکی از الگوریتم های مهم الگوریتم Leveshtein است
این الگوریتم از روش برنامه سازی پویا برای محاسبه فاصله بین دو رشته استفاده می کند.
برای مثال فاصله دو کلمه kitten و sitting برابر 3 است.
kitten –> sitten(substitution of ‘s’ for ‘k')
sitten –> sittin (substitution of ‘i’ for ‘e’)
sittin –> sitting(substitution of ‘g’ at the end)
الگوریتم مجاورت k-gram
این الگوریتم برای بررسی مجاورت دو رشته استفاده می شود. مجموعه N-gram شامل دنباله های n تایی یک رشته است.
مثال: رشته information که بصورت زیر است:
info – nfor – form – orma – rmat – mati – atio – tion
روش کلی بدین صورت است که ابتدا تمامی N-gram ها را تولید می کنیم و آن ها را اندیس گذاری می کنیم. وقتی خواستیم یک کلمه را اصلاح کنیم همین کار را با آن کلمه می کنیم.
برای این کار دو روش وجود دارد:
الگوریتم N-gram برای کشف غلط های ناشی از جای خالی نیز کار می کند.
غلط یابی حساس به متن
اگر کلمات وارد شده از نظر املایی صحیح باشند ممکن است اشتباهی از طرف کاربر در وارد کردن عبارت صورت گرفته و بار فقط بار معنایی را تغییر داده باشد، مانند "وب سایت فرودگاهی" بجای "وب سایت فروشگاهی".
برای چنین اصلاحاتی نمی توانیم از الگوریتم کلمه مجزا استفاده کنیم و به الگوریتم حساس به متن رجوع می کنیم.
دو روش برای این کار وجود دارد:
زمانی که دو کاربر مختلف دنبال موضوعی یکسان می گردند ممکن است از کلمات کلیدی متفاوتی استفاده کنند. میزان موفقیت کاربر از نظر سرعت و دقت بستگی به هوش و طرز فکر و دریافت ذهنی وی از عملکرد موتور جستجو دارد. تجربه نشان می دهد کاربران پس از مدتی با رفتار موتور جستجو آشنا می شوند و کلماتی را انتخاب می کنند که بهتر از گذشته عمل می کند.
مفهوم ربط
کلید واژه ها بایستی با شکل صحیح و در قالبی مناسب وارد شوند و در انتظار پاسخ از سوی موتور جستجو بود. اما کاربران مختلف کلید واژه های مختلفی را به موتور جستجو وارد می کنند چون تجارب، دانش و مهارت های متفاوتی دارند. و یک موتور جستجو باید قادر باشد جواب کاربرانی با شرایط مختلف را بدهد.
سه دانش لازم کاربر برای کار با موتور جستجو:
دانش ذهنی، دانش مورد نیاز برای تبدیل یک نیاز به یک در خواست قابل جستجو می باشد.
دانش فنی، مهارت های اساسی بکارگیری رایانه و ترکیب درخواست های وارد شده به عنوان عبارت های جستجوی خاص می باشد.
دانش معنایی، مشخص می کند که چگونه و در چه وقتی قابلیت موجود در موتور جستجو را باید بکار گرفت.
افزایش این سه دانش از طرف کاربر بصورت چشم گیری باعث بهبود نتیجه ی خروجی برای کاربر می شود. در ابتدا چون کاربر دانشی نسبت به مسئله ی جستجو شده ندارد عباراتش بی معنی و مفهوم خواهد بود و نتایج جالب نخواهند بود.
از آنجایی که هدفِ بازیابی اطلاعاتی، ایجاد ارتباط است از این رو هم ربط، کلید جدایی ناپذیرِ بازیابیِ موثر است. ربط، مقیاس موثر بودن میان منبع اطلاعات و کاربر است.
ربط از نظر کاربر با معیار های زیر بررسی می شود:
ربط از نظر سیستم بازیابی با معیار های زیر بررسی می شود:
کار اصلی موتور جستجو سنجش ارتباط اطلاعات ذخیره شده و اطلاعات در خواست شده است. به عبارتی دیگر با ارائه یک سوال به نظام، نظام بازیابی باید بررسی کند که آیا اطلاعات ذخیره شده مربوط به پرسش است یا نه، اما ایهام و استعارات پشت واژگان و نقص بیان مفاهیم با برخی واژگان این ارتباط (ربط) را مشخص می سازد.
نظر خواهی از کابر در رتبه بندی:
برای برطرف کردن مشکل سو تفاهم بین ذهن کاربر و الگوریتم های موتور جستجو اخیرا از الگوریتم های پیشرفته تری استفاده می شود که در آن نظر کاربر به عنوان یک پارامتر لحاظ می شود. گوگل یکی از موتور های جستجو است که پیشتاز این روش می باشد.
متا جستجوگرها
یک موتور جستجوگر به طور واسطه ای بین کاربر و موتور های جستجو قرار می گیرد، پرسش کاربر را دریافت می کند و آن را پالایش کرده و با استفاده از سرویس موتورهای جستجو، نتایج را از چندین موتور جستجوی دیگر دریافت و حاصل را ترکیب کرده و به کاربر ارائه می دهد. استفاده از این روش باعث می شود دامنه جستجو وسیع تر شود و نتایج بهتری حاصل شود.
سئو چیست؟
سئو به معنی بهینه سازی استفاده از موتور های جستجو برای سایت ها است.
SEO : Search Engine Optimization
یک صفحه ی وب را زمانی بهینه می گوییم که در حداقل یک موتور جستجو بیشترین امتیاز را داشته باشد. در واقع یعنی اینکه چه کار هایی انجام دهیم که وبسایت ما درصفحه اول نتایج جستجو قرار گیرد.
علم سئو درمورد روش های فنی مطالعه می کند:
یکی از کارهایی که متخصصان سئو انجام می دهند پیگیری تمام تغییرات عملکرد داخل موتور های جستجو است. بنابراین آن ها می توانند صفحات وب را بر طبق این تغییرات بهینه سازی کنند.
اهمین سئو برای این است که:
بهینه سازی باید بصورت مداوم بر روی وبسایت انجام شود و با یک بار اجرای بهینه سازی نتیجه مطلوب بدست نخواهد آمد.
مراحل بهینه سازی
اشتباهات در سئو
اشتباهات رایج در سئو که ممکن است توسط برنامه نویس و طراح صورت گیرد:
برای دریافت آخرین اخبار و مقالات مربوط به طراحی سایت، سئو، بازاریابی الکترونیک و تجارت الکترونیک به جمع هزار نفری ما بپیوندید.
مقالات طراحی سایت و سئو
آخرین ویدئو کلیپ ها