بررسی عملکرد موتور های جستجو

1394/9/5

بررسی عملکرد موتور های جستجو

در این مقاله سعی داریم تا راجع به الگوهای شناخته شده ی گوگل بحث کنیم.گرچه این الگوها برای موتورهای جستجو محرمانه هستند ولی متخصصین با آزمون و خطا توانسته اند به بعضی از این الگوها پی ببرند. هدف از این مقاله کمک به شما در رابطه با قرار دادن مطالبتان به بهترین شکل در سایتتان است. همچنین در این مقاله روشهایی مطرح شده است که نشان می دهد چگونه از یک موتور جستجو به نحو احسنت برای سایتمان استفاده کنیم.
کلمات کلیدی
موتورهای جستجو برنامه هایی هستند که موضوعات مورد نظر کاربران را به شکل کلمات کلیدی درون صفحات یا اسناد مختلف در اینترنت جستجو می کنند و نتایج را به صورت آدرس محل ذخیره ی این مطالب عرضه می کنند.

انواع و اجزای تشکیل دهنده موتور های جستجو
موتورهای جستجوی عمومی محتویات تمام سایت ها را بررسی می کنند و خلاصه ای از آنان را در یک پایگاه داده شاخص indexed database نگه داری می کنند.
موتور های جستجو از لحاظ پشتیبانی مالی و نیروی انسانی به دو دسته تقسیم می شوند:

موتور های جستجوی آزمایشی: در دانشگاه ها و موسسات پژوهشی شکل می گیرند، هدف آن ها آزمایش یک روش جدید، ارزیابی عملکرد و برآورد کیفیت نتایج یک الگوریتم است. نمی توانند یک مقیاس بزرگ را برای جستجو در بر بگیرند.
موتور های جستجوی تجاری: در کل اینترنت به جستجو می پردازند. از پشتیبانی مالی بزرگی برخوردار هستند و کیفیتشان باعث رضایت کاربران می شود و با رضایت کاربران سرمایه جذب خواهد شد.

بزرگترین مشکلات ساخت موتور جستجو
بزرگترین مشکل های ساخت موتور جستجو را می توان ناهمگونی وحشتناک اسناد و محتویات وب و راضی نگه داشتن انبوهی از کاربران بی تجربه و پر توقع برای جستجو دانست.
آن دسته از موتور های جستجویی که بر اساس تطبیق کلمات کلیدی با محتویات اسناد کار می کنند نتایجی را بر می گردانند که ارتباط کمی با موضوع مورد نظر کاربران دارند. پس موتورهای جستجو باید الگوریتم های بیشتر و پیچیده تری برای ارائه ی نتایج بهتر به کاربران داشته باشند.
انواع جستجو بر اساس ساختار

جستجوی مبتنی بر پیمایش وب و درون کاوی: بصورت هوشمند تمام وب سایت را درون کاوی و پیمایش می کنند. مجموعه اسناد و پرونده ها را دریافت کرده و دسته بندی می کنند. آیتم های مورد جستجو کاربران بر اساس شاخص های تهیه شده بررسی می کنند و فرآیند های دریافت، ذخیره، رده بندی، و شاخص دهی بر اساس الگوریتم ها، هوشمند و بصورت خودکار انجام می شود.
جستجوی مبتنی بر فهرست: با دخالت مستقیم و نظارت صاحبان وب سایت ها ثبت و سازماندهی می شود. بطور مثال کلیه اسناد در ده ها شاخه تقسیم می شوند (ورزشی، خبری، هنری، تجاری، و…) و تمامی این شاخه ها به چندین زیر شاخه تقسیم می شوند، مثلا شاخه ورزشی به شاخه های ورزش های هوازی، آبزی، و… تقسیم می شوند و خود این زیر شاخه ها نیز به زیر شاخه هایی تقسیم می شوند. صاحب یک سند موظف است آن را با توضیحات کافی که در ویراستارهای ویژه درج می شود در فهرست دایرکتوری متناسب با آن سند درج کند. کاربران شانس بیشتری در این روش برای یافتن نتیجه مطلوب خواهند داشت. این روش ممکن در بعضی مواقع کاربران ساده را راضی نکند زیرا این کاربران علاقه ای به جلو رفتن در میان این شاخه ها و زیر شاخه ها ندارند.
جستجوگر های مختلط: تلفیق سیستم فهرست غنی و یک موتور جستجو هستند، که دقیق ترین و کامل ترین پاسخ را برای کاربران فراهم می آورند. تلفیق این دو که فهرست ها را زیر و رو می کند و کاربر را به زیر شاخه مورد نظرش می رساند بسیار مطلوب است.

یک وبسایت از یک صفحه شروع شده و از طریق آن و هایپرلینک های موجود در آن به اعماق کل وبسایت طی مسیر می کند.
معماری کلی موتور های جستجو
اجزای تشکیل دهنده یک موتور جستجو هشت قسمت است: درون کاو، کنترل درون کاو، انباره صفحات، ماژول شاخص دهی،collection analysis module، index utility، موتور پرس وجو و ماژول رتبه بندی.
درون کاو یا خزنده (crawler)
تمامی موتور های جستجو یک ماژول عملیاتی به نام درون کاو دارند که کل وب سایت ها را بطور زمان بندی شده پیمایش می کند و به جمع آوری مطالب ذخیره شده در گوشه کنار وب می پردازند. هر درون کاو از تعدادی برنامه ی کوچک تشکیل شده است، که هر کدام از صفحه شروع یا هسته یک وبسایت آغاز بکار می کنند و پس از دریافت آن صفحه و تحویل به انباره صفحات page repository لینک های درون صفحه جاری و صفحات پیوند خورده را نیز به همین روال ذخیره می کنند.
کنترل درون کاو (control crawler)
مجموعه برنامه های درون کاوی را با تحویل URL مورد نظر راه اندازی کره و بکار درون کاوی می گمارد. این ماژول تعیین می کند صفحه بعدی که قرار است بررسی شود کدام است. ماژول crawler موظف است تمام آدرس ها یا URL های درون صفحات را استخراج و برای تصمیم گیری در اختیار ماژول کنترل درون کاو بگذارد.
تفاوت موتور های جستجو مختلف بیشتر در الگوریتم کنترل درون کاو است.
انباره صفحات (page repository)
بانک اطلاعاتی صفحاتی که توسط ماژول درون کاو استخراج می شود در انباره صفحات قرار می گیرد تا برای شاخص دهی و تحلیل محتوا در اختیار دیگر ماژول ها قرار گیرد. ماژول درون کاو آنقدر عملیات استخراج و ذخیره در انباره صفحات را انجام می دهد که یا منابع انباره صفحات تمام شود یا آنکه تمام آدرس ها استخراج شوند.
شاخص دهی (Indexer)
این ماژول کلمات موجود در صفحات را به همراه URL آن ها در یک جدول بسیار عظیم لیست می کند.
یک خروجی ماژول شاخص دهی بانک اطلاعاتی یا شاخص ساختاری Structure index است. این بانک چگونگی پیوند صفحات را نشان می دهد.
collection analysis module
که کنترل موارد زیر را به عهده دارد:

تمامی صفحات در حال تغییر.
ارتباط محتوایی لینک ها با صفحاتشان.

utility index
خروجی ماژولِ collection analysis است، که پس از تحلیل کل انباره صفحات بدست می آید. این شاخص ها می تواند متفاوت باشند مانند تعداد تصویر در یک صفحه تا تعداد لینک یا رتبه اقتصادی وبسایت صاحب آن صفحه و…
ماژول های درون کاو و شاخص دهی مدام باید در حال اعمال تغییرات صفحات وب باشند.
بعضی از موتورهای جستجو انباره صفحات خود را بطور کامل نگه داری می کنند.
موتور پرس و جو Query Engin
که وظیفه اش دریافت درخواست های جستجو از کاربران است.
رتبه بندی ranking
نتایج حاصل از جستجوی کلمات کلیدی کاربر را به نحوی رتبه دهی می کند تا مرتبط ترین صفحات بالاترین رتبه را بدست بیاورند و در ابتدای صفحه جستجو قرار گیرد.

عملکرد اجزای معماری در کنار هم
ماژول درون کاو موظف است صفحات وب را برای تحلیل و ایجاد شاخص بصورت جامع استخراج کرده و تحویل انباره صفحات بدهد. این ماژول با یک مجموعه اولیه از آدرس ها کار خود را شروع می کند این آدرس ها بصورت یک صف اولویت دار قرار می گیرند.
این ماژول آدرس لینک های موجود در یک URL را نیز بازیابی می کند. ماژول کنترل درون کاو آدرس های ملاقات شده را حذف می کند.
ماهیت دائما متغیر وب کنترل فرآیند درون کاوی وب را با پیچیدگی های زیر رو به رو می کند:

انتخاب صفحات
مدل درون کاوی
تازه سازی و سرکشی دوره ای به صفحات وب

3 معیار برای انتخاب صفحات وجود دارد:

مبتنی بر گرایشات کاربران interest driven
مبتنی بر شهرت صفحات popularity driven
مبتنی بر محل قرار گرفتن صفحات location driven

در معیار اول بازدید کاربران، فراوانی نسبی تمام کلمات کلیدی محاسبه می شود.
در معیار دوم صفحات یا سایت هایی که به یک صفحه ی خاص لینک کرده اند، به آن صفحه ی خاص امتیاز داده می شود.
در معیار سوم منظور از محل قرار گرفتن صفحه، آدرس صفحه، یا ماهیت آدرس صفحه از لحاظ .com, .net ،و… و میزان فاصله آن از صفحه اصلی وب سایت است.

مدل درون کاوی چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب از گستره بسیار عظیم وب است. دو الگو برای این موضوع است:

کاوش و توقف crawl and stop
کاوش و توقف مبتنی بر مقدار آستانه crawl and stop with threshold

در روش اول، درون کاو پس از ملاقات و دریافت دقیقا n صفحه وب متوقف می شود (n عدد ثابتی است). صفحات نیز از پر اهمیت ترین به کم اهمیت ترین مرتب می شوند.
در روش دوم، دقیقا مانند الگوی کاوش و توقف عملیات انجام می شود با این تفاوت که صفحاتی دریافت و ذخیره می شوند، که اهمیت آنان از مقدار آستانه بیشتر باشد.

روش های تازه سازی و سرکشی به صفحات:

تازه سازی یکنواخت و مدام
تازه سازی متناسب با تغییر

در تازه سازی یکنواخت و مدام سرکشی در زمان مشخص انجام می شود.
در تازه سازی متناسب با تغییر، سرکشی متناسب با دوره تناوب تغییر هر سایت انجام می شود. در این روش ابتدا نرخ تغییر صفحات یک وب سایت را بالا در نظر گرفته می شود و زمان کوتاهی برای مثال هر روز برای سرکشی سایت تنظیم می شود سپس اگر صفحه به مرور زمان تغییر نکرد این زمان برای سرکشی بیشتر می شود تا وقتی که به حد بیشینه ی خود برسد.
انباره ذخیره سازی صفحات به دلیل حجم زیاد اسناد شباهت چندانی با پایگاه داده های رایج ندارد. چالش هایی که انباره صفحات با آن ها روبرو است عبارت اند از:

گسترش پذیری تا بی نهایت scaleability
پشتیبانی از دسترسی هم زمان dual access mode
بهنگام سازی عظیم و توده ای large bulk updates
صفحات منسوخ absolete pages

گسترش پذیری تا بینهایت از حجم زیاد اسناد ناشی می شود که توسط صدها تا هزاران مقدار توزیع می شوند.
منظور از دسترسی دو گانه وجود دو نوع دسترسی است:

دسترسی مستقیم یا تصادفی که یک صفحه خاص را تحویل کاربر می دهد.
دسترسی جویباری که برای ماژول شاخص دهی نیاز است.

بهنگام سازی عظیم و توده ای باید انجام شود. سیستم ذخیره سازی باید اجازه بدهد که هم زمان با دسترسی ماژول های دیگر به انباره صفحات عملیات به روز رسانی نیز در جریان باشد.
صفحات منسوخ و حذف شده در به روز رسانی باید از انباره صفحات حذف شوند.
موتور های جستجو شاخص های زیر را از درون صفحات وب استخراج می کنند:

شاخص لینک link index
شاخص متنی text index

در شاخص لینک صفحات موجود در انباره، در قالب یک گراف جهت دار directional graph مدل می شوند. گره های این گراف صفحات وب هستند و لبه های گراف ارجاعاتی است که صفحات در قالب hyperlink به یکدیگر دارند. مجموعه لینک ها به بیرون links outward و به داخل incoming link مورد توجه است و مجوعه دوم یعنی لینک های به داخل مهمتر از لینک های به بیرون هستند.
شاخص متنی عبارت است از یک پایگاه اطلاعاتی از کل کلمات کلیدی ممکن در ادبیات هر زبان به همراه مجموعه غنی از مخفف ها و استعارات به همراه اندیس صفحاتی که این کلمات در درون آن ها وجود دارند. شاخص متنی شاخص واژگون inverted index نیز نامیده می شود.
رتبه دهی و تحلیل لینک چگونگی یا ترتیب تحویل صفحات حاوی کلمات کاربر را نشان می دهد.
ماژول رتبه دهی پس از غربال کردن نتایج بی ارزش یا کم ارزش آن ها را بر حسب اهمیتشان امتیاز دهی و مرتب می کند تا چیزی که کاربر دریافت می کند فهرست مرتب شده ای از صفحات مرتبط با کلیدواژه هایش باشد.

ماژول رتبه بندی در دو دسته کاملا متفاوت از اطلاعات بهره می گیرد:

اطلاعات مندرج در صفحه
اطلاعات مندرج در بیرون از صفحه یعنی درون صفحات دیگر.

عوامل موثر در ارزش یک صفحه از نظر ماژول رتبه بندی:

دفعات تکرار کلمات کلیدی
ترتیب و مجاورت کلمات کلیدی
محل درج کلمات کلیدی از لحاظ عنوان پاراگرافی یا متن معمولی
درج کلمات درون آدرس صفحه
پر رنگ بودن کلمات کلیدی
بهره گیری از برچسب های توصیفی meta description tag
بهره گیری از بر چسب alt tag

اطلاعات مندرج در بیرون صفحه:

تعداد ارجاعاتی که به صفحه داده شده است.
رده بندی جهانی سایت حاوی صفحه از لحاظ طراحی، تعداد بازدیدکننده، جذب ترافیک و…

بیشترین عوامل رتبه بندی بیرون صفحه تعداد ارجاعات و لینک هایی است که از دیگر صفحات، به صفحه ی مورد نظر شده اند.
برچسب ها
برچسب های توصیفی متن meta description tag
کدهای html که درون صفحات هستند و بازدید کنندگان سند آن ها را نمی بیند، در موتور های جستجو و رتبه بندی تاثیر زیادی دارند. مانند متاتگ ها که مشخص کننده ی کلمات کلیدی، توصیف کوتاه از محتوای صفحه، تاریخ آخرین ویرایش صفحه، و تازه سازی مجدد صفحه بر حسب ثانیه.

بر چسب alt
بخشی از تصاویر مربوط به محتوای صفحه هستند و بخشی دیگر لوگو، آیکون، نام تجاری یا برای تزئینات صفحه هستند، این برچسب توصیف یکایک تصاویر است. از آنجایی که مطالب داخل عکس نمی تواند توسط موتورهای جستجو دیده شوند از این برچسب برای فهم محتوای عکس استفاده می کنند.
فایل robots.txt
فایلی متنی است که بر روی سرویس دهنده وب و درون دایرکتوری اصلی هر سایت ذخیره می شود و مشخصات مسیرهای مجاز و غیر مجاز را به ربات های موتورهای جستجو عرضه می کند. این فایل زحمت درون کاو را کاهش خواهد داد.

الگوریتم های رتبه بندی
منظور از الگوریتم ها رتبه بندی الگوریتم هایی هستند که تصمیم می گیرند بر اساس چه کلمات کلیدی چه وبسایتی در چه صفحه و رده ای از نتایج جستجو قرار گیرد. الگوریتم های رتبه بندی امروزه بسیار پیچیده هستند و از هزاران پارامتر بهره می برند.
پارامتر های رتبه دهی 3 دسته اند:

کلمات (تعداد و موقعیت کلمات)
لینک ها (تعداد و ارجاعات)
آمار کاربران (کلیک یا رای کاربر)

مهمترین پارامتر کلمات هستند. اخیرا تکنیک های پیشرفته ای برای رتبه بندی ابداع شده که از رفتار کاربران به عنوان پارامتر استفاده می شود. شرکت گوگل از پیشتازان این روش است و با ایجاد امکان نظردهی کاربران بر نتایج این سیستم را نیز وارد الگوریتم های پیچیده خود کرده است.
وزن دهی به کلمات
برای هر کلمه ای در هر متنی یک وزنی با الگوی خاصی در نظر گرفته شده است. این وزن بیانگر تاثیر کلمه بر موضوع متن در مقایسه با سایر کلمات بکار رفته است.
اهمیت کلمات را می توان بر پایه شرایطی مشخص کرد:

وزن آماری کلمه
مکان قرار گیری کلمه
مفهوم هر کلمه
کاربرد خاص کلمه

وزن آماری کلمه تعداد تکرار آن کلمه در متن بر اساس توزیع کلمات در متن است که به دو دسته فراوانی مطلق و فراوانی نسبی تقسیم می شود.
مکان قرارگیری کلمه، اینکه کلمه در عنوان یا زیر عنوان یا بدنه متن یا چکیده متن قرار گیرد از معیار های وزن دهی به کلمات می باشد.
مفهوم هر کلمه که بیانگر ارتباط کلمه با کلمات دیگر است به بیانی دیگر مترادف یا متضاد بودن آن کلمه است.
از کاربرد های خاص کلمه می توان اسامی را در سیستمی که دنبال اسامی خاص می گردد مثال زد که اهمیت ویژه ای دارد.

ارزیابی کلمات کلیدی
معیارهای زیر برای کلماتی که از آستانه تعیین شده برای وزن دهی عبور می کنند می باشند:

جامعیت
تعیین کنندگی

جامعیت یعنی اینکه هر چه کلمات بیشتری از یک متن استخراج شود، احتمال بازیابی آن متن نیز بیشتر می شود.
تعیین کنندگی یعنی هر کلمه کلیدی تا چه حد دقیق، متن های مرتبط را مشخص کند.

پارامتر های وزن دهی
پارمترهای اصلی در وزن دهی:

tf.idf
سیگنال و نویز
مقدار تمایز

یکی از کاربردی ترین روابط در حوزه بازیابی اطلاعات پارامتر tf.idf است

این پارامتر از حاصلضرب فراوانی کلمه در فراوانی معکوس سند بدست می آید. این روش مبتنی بر چند سند است که فراوانی کلمه، تعداد تکرار کلمه در یک سند خاص و فراوانی معکوس، تعداد اسنادی که این کلمه در آن اسناد ظاهر شده است را نشان می دهد. در این روش محاسبات کم ولی نتایج قابل قبول است.
در پارامتر سیگنال و نویز هر چه احتمال رخداد کلمه بیشتر می شود بار اطلاعاتی کمتری برای آن در نظر گرفته می شود. کلمات با اهمیت که دارای توزیع متمرکز هستند یعنی تنها در بعضی از اسناد متنی ظاهر شده اند میزان نویز کمتری دارند.
در پارامتر مقدار تمایز استفاده کلمه ای از سند به عنوان کلمه کلیدی که باعث کاهش تشابه این سند با سایر اسناد می شود مد نظر گرفته می شود. هر چه مقدار تمایز بیشتر باشد بیانگر تخصصی تر بودن این کلمه و اهمیت بیشتر آن در تمایز سند از سایر اسناد است.

بازیابی تحمل پذیر
بازیابی تحمل پذیر عبارت است از این که موتور جستجو بتواند اشتباهات کاربر را در ورود کلیدواژه یا عبارات پیش بینی کند و آن را جبران کند و یا پیشنهاد اصلاح آن را به کاربر ارائه دهد.

الگوریتم کلی غلط یابی املایی در موتورهای جستجو
مرحله اول: زمانی که غلط در درخواست کاربر وارد شد کلمات متناظر با آن را پیدا می کند و به همراه کلمه غلط به مرحله بعدی می فرستد.
محله دوم: اگر کلمه وارد شده در لغت نامه موجود نباشد مانند مرحله اول عمل می کند.
مرحله سوم: مانند حالت اول عمل می کند به شرطی که تعداد مستندات یافته شده در اثر درخواست وارد شده کمتر از مقدار از پیش تعیین شده باشد.
مرحله چهارم: وقتی که پرسش وارد شده تعداد مستنداتی کمتر از مقدار از پیش تعیین شده را باز گرداند در این صورت موتور جستجو پیشنهاد برای اصلاح کلمه به کاربر می دهد.
غلط یابی املایی
دو روش برای پیدا کردن غلط املایی عمدتا وجود دارد:

فاصله ویرایشی (edit distance)
هم پوشانی k-gram

دو شیوه خاص غلط یابی از دیدگاه کلمه و جمله:

کلمه مجزا (isolated word)
حساس به متن (context-sensitive)

اگر در خواست کابر شامل چند کلمه باشد عمل غلط یابی را هر بار بر روی کلمات آن به طور جداگانه انجام می دهد که به این روش، روش کلمه مجزا می گویند.
در روش حساس به متن در کنار هم قرار گرفتن کلمات و تشکیل عبارت متداول بررسی می شود.

الگوریتم فاصله ویرایشی
فاصله ویرایشی بین دو رشته کاراکتر عبارت است از تعداد اعمالی که لازم است تا یکی را به دیگری تبدیل کند. این اعمال می توانند شامل حذف و درج و جابجایی باشند.
الگوریتم های تعریف و محاسبه فاصله ویرایشی عبارت اند از:

Hamming distance
Leveshtein distance
Damerau-Leveshtein distance
Jaro-Winker distance
Ukkonen
Hirshberg

یکی از الگوریتم های مهم الگوریتم Leveshtein است

این الگوریتم از روش برنامه سازی پویا برای محاسبه فاصله بین دو رشته استفاده می کند.
برای مثال فاصله دو کلمه kitten و sitting برابر 3 است.
kitten –> sitten(substitution of ‘s’ for ‘k')
sitten –> sittin (substitution of ‘i’ for ‘e’)
sittin –> sitting(substitution of ‘g’ at the end)

الگوریتم مجاورت k-gram
این الگوریتم برای بررسی مجاورت دو رشته استفاده می شود. مجموعه N-gram شامل دنباله های n تایی یک رشته است.
مثال: رشته information که بصورت زیر است:
info – nfor – form – orma – rmat – mati – atio – tion
روش کلی بدین صورت است که ابتدا تمامی N-gram ها را تولید می کنیم و آن ها را اندیس گذاری می کنیم. وقتی خواستیم یک کلمه را اصلاح کنیم همین کار را با آن کلمه می کنیم.
برای این کار دو روش وجود دارد:

ابتدا N-gram های کلمه را پیدا می کند و آن ها را با N-gram های دیکشنری مقایسه می کند
و نزدیکترین کلمه ی درست را پیدا می کند.
ابتدا کلمات مشابه کلمه اشتباه را با استفاده از الگوریتم Leveshtein برای یک فاصله ویرایشی معین، پیدا می کند سپس برای هر کدام از آن ها N-gram ها را تولید می کند، هر کدام از کلمات که تعداد بیشتری N-gram مشابه با کلمه اشتباه داشته باشد را به عنوان پیشنهاد ارائه می کند.

الگوریتم N-gram برای کشف غلط های ناشی از جای خالی نیز کار می کند.

غلط یابی حساس به متن
اگر کلمات وارد شده از نظر املایی صحیح باشند ممکن است اشتباهی از طرف کاربر در وارد کردن عبارت صورت گرفته و بار فقط بار معنایی را تغییر داده باشد، مانند "وب سایت فرودگاهی" بجای "وب سایت فروشگاهی".
برای چنین اصلاحاتی نمی توانیم از الگوریتم کلمه مجزا استفاده کنیم و به الگوریتم حساس به متن رجوع می کنیم.

دو روش برای این کار وجود دارد:

ساده ترین روش این است که برای هر کدام از کلمات وارد شده توسط کاربر به طور جداگانه، کلمات مشابه را، به روش های کلمه مجزا مانند فاصله ویرایشی و کا-گرم پیدا کنیم و ترکیبات مختلف آن ها را قرار دهیم. سپس عبارت تشکیل شده را بازیابی کرده هر کدام که تعداد نتایج بیشتری داشته است را به عنوان پیشنهاد به کاربر ارائه دهیم. این روش می تواند وقت زیادی بگیرد. مخصوصا وقتی تعداد کلمات مشابه زیاد باشد.
می توان از روش های تشخیص برای بهبود نتایج جستجو استفاده کرد. در این روش تمام ترکیبات ممکن را با کلمات مشابه تولید نمی کنیم، بلکه متداول ترین آنها را از روی آمار هم نشینی های دو کلمه ای تولید می کنیم و آن را برای سه کلمه گسترش می دهیم.

زمانی که دو کاربر مختلف دنبال موضوعی یکسان می گردند ممکن است از کلمات کلیدی متفاوتی استفاده کنند. میزان موفقیت کاربر از نظر سرعت و دقت بستگی به هوش و طرز فکر و دریافت ذهنی وی از عملکرد موتور جستجو دارد. تجربه نشان می دهد کاربران پس از مدتی با رفتار موتور جستجو آشنا می شوند و کلماتی را انتخاب می کنند که بهتر از گذشته عمل می کند.

مفهوم ربط
کلید واژه ها بایستی با شکل صحیح و در قالبی مناسب وارد شوند و در انتظار پاسخ از سوی موتور جستجو بود. اما کاربران مختلف کلید واژه های مختلفی را به موتور جستجو وارد می کنند چون تجارب، دانش و مهارت های متفاوتی دارند. و یک موتور جستجو باید قادر باشد جواب کاربرانی با شرایط مختلف را بدهد.
سه دانش لازم کاربر برای کار با موتور جستجو:

ذهنی
فنی
معنایی

دانش ذهنی، دانش مورد نیاز برای تبدیل یک نیاز به یک در خواست قابل جستجو می باشد.
دانش فنی، مهارت های اساسی بکارگیری رایانه و ترکیب درخواست های وارد شده به عنوان عبارت های جستجوی خاص می باشد.
دانش معنایی، مشخص می کند که چگونه و در چه وقتی قابلیت موجود در موتور جستجو را باید بکار گرفت.

افزایش این سه دانش از طرف کاربر بصورت چشم گیری باعث بهبود نتیجه ی خروجی برای کاربر می شود. در ابتدا چون کاربر دانشی نسبت به مسئله ی جستجو شده ندارد عباراتش بی معنی و مفهوم خواهد بود و نتایج جالب نخواهند بود.
از آنجایی که هدفِ بازیابی اطلاعاتی، ایجاد ارتباط است از این رو هم ربط، کلید جدایی ناپذیرِ بازیابیِ موثر است. ربط، مقیاس موثر بودن میان منبع اطلاعات و کاربر است.

ربط از نظر کاربر با معیار های زیر بررسی می شود:

وضعیت شناختی کاربر؛
ارزشی که به اطلاعات داده می شود؛
فوریت کاربرد دانش جستجو شده؛
دانش قبلی از همان موضوع؛
مشکلی که باید گشوده شود.

ربط از نظر سیستم بازیابی با معیار های زیر بررسی می شود:

محل کلید واژه؛
بسامد نسبی؛
وجود کلید واژه ها در متاتگ ها؛
محبوبیت وبسایت.

کار اصلی موتور جستجو سنجش ارتباط اطلاعات ذخیره شده و اطلاعات در خواست شده است. به عبارتی دیگر با ارائه یک سوال به نظام، نظام بازیابی باید بررسی کند که آیا اطلاعات ذخیره شده مربوط به پرسش است یا نه، اما ایهام و استعارات پشت واژگان و نقص بیان مفاهیم با برخی واژگان این ارتباط (ربط) را مشخص می سازد.
نظر خواهی از کابر در رتبه بندی:
برای برطرف کردن مشکل سو تفاهم بین ذهن کاربر و الگوریتم های موتور جستجو اخیرا از الگوریتم های پیشرفته تری استفاده می شود که در آن نظر کاربر به عنوان یک پارامتر لحاظ می شود. گوگل یکی از موتور های جستجو است که پیشتاز این روش می باشد.

متا جستجوگرها
یک موتور جستجوگر به طور واسطه ای بین کاربر و موتور های جستجو قرار می گیرد، پرسش کاربر را دریافت می کند و آن را پالایش کرده و با استفاده از سرویس موتورهای جستجو، نتایج را از چندین موتور جستجوی دیگر دریافت و حاصل را ترکیب کرده و به کاربر ارائه می دهد. استفاده از این روش باعث می شود دامنه جستجو وسیع تر شود و نتایج بهتری حاصل شود.

سئو چیست؟
سئو به معنی بهینه سازی استفاده از موتور های جستجو برای سایت ها است.

SEO : Search Engine Optimization
یک صفحه ی وب را زمانی بهینه می گوییم که در حداقل یک موتور جستجو بیشترین امتیاز را داشته باشد. در واقع یعنی اینکه چه کار هایی انجام دهیم که وبسایت ما درصفحه اول نتایج جستجو قرار گیرد.
علم سئو درمورد روش های فنی مطالعه می کند:

عنوان صفحه مناسب
تگ ها و متا تگ ها
کلمات کلیدی
توضیحات مناسب سایت
محتوایی که موتور جستجو به آن تمایل دارد

یکی از کارهایی که متخصصان سئو انجام می دهند پیگیری تمام تغییرات عملکرد داخل موتور های جستجو است. بنابراین آن ها می توانند صفحات وب را بر طبق این تغییرات بهینه سازی کنند.
اهمین سئو برای این است که:

اگر از این علم استفاده نشود بازدید کنندگان زیادی را از دست خواهیم داد؛
موتور های جستجو تنها وسیله شناساندن وبسایت ما در فضای مجازی هستند؛
برتر بودن در موتور های جستجو مشتریان زیادی را بسوی وبسایت ما دعوت می کند؛
91 درصد کاربران از موتور های جستجو استفاده می کنند؛
73 درصد معاملات آنلاین از طریق موتور های جستجو آغاز می شود.

بهینه سازی باید بصورت مداوم بر روی وبسایت انجام شود و با یک بار اجرای بهینه سازی نتیجه مطلوب بدست نخواهد آمد.

مراحل بهینه سازی

انتخاب نام دامنه مناسب که باید داری ویژگی های زیر باشد:
مرتبط با موضوع وبسایت باشد
کوتاه و مفید باشد
تایپ آن آسان باشد
ذهن مخاطب را درگیر کند
پرداخت هزینه به یک شرکت مطمئن و انتخاب میزبانی مناسب (هاستینگ) که دارای ویژگی های زیر باشد:
سرعت انتقال بالا
پهنای باند بالا
آپ تایم و داون تایم مناسب
طراحی مناسب سایت و یا استفاده از سیستم مدیریت محتوا. طراحی باید مناسب با موضوع و محتوای سایت باشد.
استفاده از کدهای html، کلمات کلیدی و لینک های داخلی و در کل، ساختار وب مناسب.
لینک هایی که به وبسایت ما اشاره می کنند باید تعدادشان زیاد باشد و این زمانی اتفاق می افتد که مطالب ما مفید و به درد بخور باشند.
حتما باید چیزی برای ارائه داشته باشیم وگرنه باید از فکر بالا بردن آمار بیرون بیایم.
مطالب را کپی نکنیم چون اینکار پس از چندین بازدید کاربر لو می رود.
با مخاطبین ارتباط نزدیک بر قرار کنیم، با قسمت هایی در سایت مثل فرم تماس با ما.
ثبت وبسایت در dmoz.org، به هر قیمتی ولی به درستی وبسایت خود را در این دایرکتوری ثبت کنیم، پس از مدتی نتیجه مطلوب را حتما می بینیم.
کاربر را نرنجانیم مانند سیستم هایی که دارای قسمت عضویت اجباری یا مسائلی از این قبیل هستند.
لینک بدهیم تا لینک بگیریم.
قالب سایت را با تمام مرورگر ها منطبق کنیم، و قالب را سبک بسازیم.
کلمات کلیدی وبسایت خود و وبسایت رقیب را به دقت بررسی کنیم و بهترین ها را انتخاب کنیم. برای این کار از ابزار ادوردز گوگل کمک بگیریم. توضیحات وبسایت نیز فراموش نشود. از کلمات کلیدی بروز استفاده کنیم.
عنوان وبسایت مناسب، کوتاه و روان استفاده کنیم و از به کار بردن بهترین، اولین و قدرتمندترین وبسایت بپرهیزیم.
از نوشتن چیز های مختلف بپرهیزیم و خود را روی یک موضوع خاص متمرکز کنیم.
برای وبسایت صفحه error 404 طراحی کنیم.
قسمت جستجو برای وبسایتمان طراحی کنیم.
مطالب بروز باشند و حداقل یک پست در روز ارسال کنیم.
می توان هر پست را بطور جداگانه در گوگل یا دیگر موتور های جستجو ثبت کرد.
داشتن وبلاگ ، فروم یا انجمن در وبسایت.
لینک های داخل شده به وبسایت زیاد باشند که معمولا صفحه اصلی بهترین معیار است همچنین افزایش لینک های داخلی تا حد ممکن بسیار مفید خواهد بود.
لینک های برگشتی سایت از سایت های معتبر دولتی و یا دانشگاهی را افزایش دهیم.
عضویت در دایرکتوری های معتبر.
صفحه کامل و مجزا درباره سیاست های حریم خصوصی privacy policy.
سرعت وبسایت خود را افزایش دهیم.
از یک افزونه مترجم استفاده کنیم تا کسانی که به زبان ما تسلط ندارند بتوانند از وبسایت استفاده کنند، در این حالت گستره بازدید کنندگان بسیار بالا می رود.
ساخت پوسته جدید و ایجاد تنوع برای کاربران.
مقالات خود را منتشر کنیم.
استفاده از لینک های منظم در صفحات مختلف وبسایت.
بطور حتم یک صفحه نقشه سایت طراحی کنیم.
از خصوصیات alt tag ها در توضیحات مرتبط با عنوان صفحه استفاده کنیم.
از فایل robots.txt در دایرکتوری ریشه ی خود استفاده کنیم.
در سایت خود با مقالات و مطالب خود چند بار لینک بدهیم.
صفحات را برای استفاده کاربران بسازیم نه برای موتور های جستجو.

اشتباهات در سئو
اشتباهات رایج در سئو که ممکن است توسط برنامه نویس و طراح صورت گیرد:

صفحات بیهوده: اشتباه بزرگی است که در صفحه اول وبسایت یک تصویر بسیار بزرگ و یک لینک که روی آن نوشته شده "برای ورود به وبسایت اینجا کلیک کنید" وجود داشته باشد. صفحه اصلی یا ایندکس مهمترین صفحه وبسایت است و بار ها توسط موتور های جستجو بررسی می شود پس نباید آن را به هدر داد.
منو های فلش: از فلش برای زیبایی وبسایت استفاده می شود، در حالی که لینک های موجود در این منو ها هیچ گاه توسط موتورهای جستجو دنبال نمی شود.
مطالب موجود در تصاویر و انیمیشن ها: یک جستجوگر نمی تواند کلمات موجود در عکس ها و انیمیشن ها را تشخیص دهد.
استفاده بیش از حد از تکنولوژی Ajax: مطالب در Ajax بصورت پویا بارگذاری و لود می شوند و این مطالب و صفحات توسط جستجو گر ها قابل طبقه بندی و خواندن نیستند برای این کار باید با هر تغییر URL را نیز تغییر داد.
استفاده از زیر شاخه ها: با تغییر شاخه اصلی بسیاری از صفحات از دست خواهند رفت.
لینک ها: هرگز از کلمات یکسان برای اتصال به صفحات دیگر استفاده نکنید زیرا از نظر جستجوگر لینک هایی با کلمات یکسان دارای مطالب یکسان هستند و دنبال نمی شوند.
title ها: اگر می خواهیم نام وبسایت در تمامی title ها باشد از ترکیب (“نام وبسایت” | “موضوع صفحه”) استفاده کنید. نباید تعداد زیادی از حروف در title ها استفاده شود، تعداد استاندارد 65 حروف است که بقیه توسط موتور جستجو حذف می شود. برخی فکر می کنند استفاده بیش از حد یک کلمه می تواند صفحه آن ها را در مورد آن کلمه در موقعیت بالاتری قرار دهد، که یک فرضیه ی اشتباه است، جستجوگرها این صفحات را به عنوان صفحات هرز شناسایی می کند.
توضیحات تصاویر: alt یا توضیحات تصویر نقش مهمی در شناسایی موضوع تصویر دارد و نباید به هیچ وجه نادیده گرفته شود.