business growth and success chart - isolated over a white background

در این مقاله، اجزای تشکیل دهنده و روش ها و الگوریتم هایی که در یک موتور جستجو بکار برده می شود ، تشریح می‌شود. با توجه به این که موتور های جستجو سعی بر این دارند که الگوریتم های خود را بصورت پنهان نگاه دارند اما میتوان روش کار کلی آنها را شبیه سازی کرد و به برخی از آن ها پی برد و از آن ها استفاده کرد. با بررسی الگوریتم ها و برخی از روالی که در موتور های جستجو بکار می روند می توان به نقطه ای رسید که شروع پیاده سازی یک موتور جستجو را برای ما فراهم می کند . در واقع هدف ، پیاده سازی و بهینه سازی عملکرد موتور های جستجو می باشد.

همچنین روش هایی مطرح خواهد شد که چگونه از یک موتور جستجو به نحو احسنت استفاده کنیم و وبسایت خود را در رده های اول رتبه بندی موتور های جستجو قرار دهیم ،

1- مقدمه

موتور جستجو یا همان جویشگر به برنامه ای گفته می شود که موضوعات مورد نظر کاربران را در قالب کلمات کلیدی درون اسناد و اطلاعات موجود در اینترنت کاوش می کند و نتایج را در قالب آدرس محل ذخیره عرضه می نماید. ممکن است یک وبسایت موتور جستجوی اختصاصی برای خود داشته باشد .

2- تعاریف ، انواع و اجزای تشکیل دهنده موتور های جستجو

موتور های جستحوی عمومی محتویات تمامی وبسایت ها را جستجو می کنند و چکیده ای از آنان را د یک پایگاه داده شاخص دهی شده indexed database نگه داری می کنند..

2-1- موتور های جستجو از لحاظ پشتیبانی مالی و نیروی انسانی به دو دسته تقسیم می شوند

دسته اول ، موتور های جستجوی آزمایشی: در دانشگاه ها و موسسات پژوهشی شکل می گیرند ، هدف آن ها آزمایش یک روش جدید ، ارزیابی عملکرد و برآورد کیفیت نتایج یک الگوریتم است. نمی توانند یک مقیاس بزرگ large scale را در بر بگیرند.

دسته دوم ، موتور های جستجوی تجاری: در پهنه کل اینترنت به جستجو می پردازند . از طریق پشتیبانی افراد حقیقی و حقوقی منابع مالی را دارا هستند و کیفیت باعث خواهد شد که رضایت کاربران حاصل شود و با رضایت کاربران سرمایه جذب خواهد شد.

2-2- بزرگترین مشکلات ساخت موتور جستجو

بزرگترین مشکل های ساخت موتور جستجو را می توان ناهمگونی وحشتناک اسناد و محتویات وب و راضی نگه داشتن انبوهی از کاربران بی تجربه و پر توقع دانست.

نکته : آن دسته از موتور های جستجویی که بر اساس تطبیق کلمات کلیدی با محتویات اسناد کار می کنند نتایجی را بر می گردانند که ارتباط کمی با موضوع مورد نظر کاربران دارند.

2-3- انواع جستجو بر اساس ساختار

نوع اول ، جستجوی مبتنی بر پیمایش وب و درون کاوی: بصورت هوشمند کلیه پهنه وب را درون کاوی و پیمایش می کند. مجموعه اسناد و پرونده ها را دریافت کرده و رده بندی می کند. بررسی آیتم های مورد جستجو کاربران بر اساس شاخص های تهیه شده صورت می گیرد. فرآیند های دریافت، ذخیره ، رده بندی ، و شاخص دهی بر اساس الگوریتم ها ، هوشمند و بصورت خودکار انجام می شود.

نوع دوم ، جستجوی مبتنی بر فهرست: با دخالت مستقیم و نظارت صاحبان اسناد و مستندات وب ثبت و سازماندهی می شود. بطور مثال کلیه اسناد در ده ها شاخه تقسیم می شود ( هنر ، ورزش ، تفریح ، خبر ، … ) و تمامی این شاخه ها به چندین زیر شاخه تقسیم می شوند ، مثلا شاخه هنر به شاخه های موسیقی ، سینما ، نقاشی و … تقسیم میشوند و خود این زیر شاخه ها نیز بر زیر شاخه هایی تقسیم میشوند .صاحب یک سند موظف است آن را با توضیحات کافی که در ویراستارهای ویژه درج می شود در فهرست دایرکتوری متناسب با آن سند درج کند. کاربران شانس بیشتری در این روش برای یافتن نتیجه مطلوب خواهند داشت. این روش ممکن در بعضی مواقع کاربران آماتور را راضی نکند زیرا این کاربران علاقه ای به جلو رفتن در میان این شاخه ها و زیز شاخه ها ندارند.

نوع سوم ، جستجوگر های مختلط: تلفیق سیستم فهرست غنی و یک موتور جستجو هستند ، دقیق ترین و کامل ترین پاسخ را برای کاربران فراهم می آورند . تلفیق این دو که فهرستها را زیر و رو می کند و کاربر را به زیر شاخه مورد نظرش میرساند بسیار مطلوب است.

نکته: یک وبسایت از یک صفحه شروع شده و از طریق آن و هایپر لینک های موجود در آن به اعماق کل وبسایت طی مسیر می کند.

2-4- معماری کلی موتور های جستجو

اجزای معماری تشکیل دهنده یک موتور جستجو هشت مورد است : درون کاو ، کنترل درون کاو ، انباره صفحات ، ماجول شاخص دهی ، collection analysis module ، index utility، موتور پرس و جو و ماجول رتبه بندی.

2-4-1- درون کاو یا خزنده crawler

تمامی موتور های جستجو به یک ماجول عملیاتی به نام درون کاو متکی هستند که پنه وسیع وب را بطور زمان بندی شده پیمایش می کند و به جمع آوری صفحات بیشمار ذخیره شده در گوشه کنار وب می پردازند. هر درون کاو از تعداد قابل توچهی برنامه کوچک تشکیل شده است که هر کدام از صفحه شروع یا هسته یک وبسایت آغاز بکار می کنند و پس از دریافت آن صفحه و تحویل به انباره صفحات page repository لینک های درون صفحه جاری و صفحات پیوند خورده را نیز به همین روال استخراج و ذخیره می کنند.

2-4-2- کنترل درون کاو control crawler

مجموعه برنامه های درون کاوی را با تحویل URL مورد نظر راه اندازی کره و بکار درون کاوی می گمارد. این ماجول است که تعیین می کند صفحه بعدی که قرار است ملاقات شود کدام است . ماجول خزنده موظف است تمام آدرس ها یا URL ها را درون صفحات استخراج و آن ها را برای تصمیم گیری در اختیار ماجول کنترل درون کاو بگذارد.

تفاوت موتور های جستجو مختلف بیشتر در الگوریتم کنتری درون کاو نمود پیدا می کند.

2-4-3- انباره صفحات یا page repository

بانک اطلاعاتی صفحاتی که توسط ماجول درون کاو استخراج می شود در انباره صفحات قرار میگیرد تا برای شاخص دهی و تحلیل محتوایی در اختیار دیگر ماجول ها قرار گیرد. ماجول درون کاو آنقدر عملیات استخراج و ذخیره در انباره صفحات را انجام میدهد که یا منابع انباره صفحات تمام شود یا آنکه تمام آدرس ها استخراج شوند.

2-4-4- ماجول شاخص دهی یا Indexer

این ماجول کلمات موجود در صفحات را به همراه URL آن ها در یک جدول بسیار عظیم لیست می کند.

یک خروجی ماجول شاخص دهی بانک اطلاعاتی یا شاخص ساختاری Structure index است . این بانک چگونگی پیوند خوردن صفحات را نشان می دهد.

2-4-5- collection analysis module

این قسمت کنترل موارد زیر را به عهده دارد:

تمامی صفحات در حال تغییر هستند
احتمال دارد لینکی که در یک صفحه است هیچ ربطی به این صفحه از لحاظ محتوایی نداشته باشد

2-4-6- utility index

خروجی ماجول collection analysis است که پس از تحلیل کل انباره صفحات بدست می آید. این شاخص ها می تواند متفاوت باشند مانند تعداد تصویر در یک صفحه تا تعداد لینک ها یا رتبه اقتصادی وبسایت صاحب آن صفحه و …

نکته: ماجول های درون کاو و شاخص دهی مدام باید در حال اعمال تغییرات صفحات وب باشند.

نکته: برخی از موتور های جستجو مثل گوگل انباره صفحات خود را بطور کامل نگه داری می کنند.

2-4-7- query engine موتور پرس و جو

دریافت درخواست های جستجو از کاربران را به عهده دارد.

2-4-8- ranking module ماجول رتبه بندی

نتایج حاصل از جستجوی کلمات کلیدی کاربر را به نحوی رتبه دهی می کند تا مرتبط ترین آیتم در صدر نتایج جستجو قرار گیرد.

2-5- عملکرد اجزای معماری در کنار هم

ماجول درون کاو موظف است صفحات وب را برای تحلیل و ایجاد شاخص بصورت جامع استخراج کرده و تحویل انباره صفحات بدهد. این ماجول با یک مجموعه اولیه URL کار خود را شروع می کند این URL ها بصورت یک صف اولویت دار قرار می گیرند.

این ماجول آدرس لینک های موجود در یک URL را نیز بازیابی می کند. ماجول کنترل درون کاو آدرس های ملاقات شده را حذف می کند.

نظر به ماهیت دائما متغیر وب کنترل فرآیند درون کاوی وب با پیچیدگی های زیر رو به رو است :

انتخاب صفحات
مدل درون کاوی
تازه سازی و سرکشی دوره ای به صفحات وب

سه معیار برای انتخاب صفحات وجود دارد :

معیار مبتنی بر گرایشات کاربران

interest driven

معیار مبتنی بر شهرت صفحات

popularity driven

معیار مبتنی بر محل قرار گرفتن صفحات

location driven

در معیار مبتنی بر گرایشات کاربران فراوانی نسبی تمام کلمات کلیدی محاسبه می شود.

در معیار مبتنی بر شهرت صفحه تعداد ارجاعات به آن صفحه محاسبه می شود یعنی تعداد وبسایت هایی که به آن صفحه اشاره می کنند. منظور از صفحاتی که به آن صفحه اشاره کرده اند این است که به آن صفحه لینک داده اند.

در معیار مبتنی بر محل قرار گرفتن صفحه منظور از محل قرار گرفتن صفحه آدرس صفحه ، ماهیت آدرس از لحاظ .com یا net . یا .edu و … است و میزان فاصله آن از صفحه خانگی آن وبسایت است.

مدل درون کاوی چگونگی آغاز و ختم فرآیند استخراج و ذخیره سازی صفحات وب از گستر بسیار عظیم وب است. دو الگو برای این موضوع است:

کاوش و توقف

crawl and stop

کاوش و توقف مبتنی بر مقدار آستانه

crawl and stop with threshold

در روش کاوش و توقف درون کاو پس از ملاقات و دریافت دقیقا k صفحه وب متوقف می شود که k عددی ثابت است . صفحات نیز از پر اهمیت به کم اهمیت sort می شوند.

در روش کاوش و توقف مبتنی بر مقدار آستانه دقیقا مانند الگوی توقف و کاوش عملیات انجام می شود با این تفاوت که صفحاتی دریافت و ذخیره می شوند که اهمیت آنان از مقدار آستانه t بیشتر باشد.

روش های تازه سازی و سرکشی به صفحات :

تازه سازی یکنواخت ومدام
تازه سازی متناسب با تغییر

در تازه سازی یکنواخت و مدام سرکشی در زمان مشخص انجام میشود.

در تازه سازی متناسب با تغییر، فرضا صفحه با تناوب t تغیر می کند، بهترین سیاست این است که با همین تناوب به آن صفحه سرکشی کند ، ابتدا نرخ تغییرات صفحه را بالا در نظر گرفته می شود و تناوب بر روی مقدار کوتاهی مثلا یک بار در روز تنظیم می شود. اگر صفحه تغییر نکرده باشد درون کاو تاخیر تازه سازی آن را با ضریب مشخصی افزایش می دهد. زمان تازه سازی صفحات در این روش بصورت پویا تغییر خواهد کرد.

انباره ذخیره سازی صفحات به دلیل حجم زیاد اسناد شباهت چندانی با پایگاه های اطلاعاتی رایج ندارد . چالش هایی که انباره صفحات با آن ها روبه رو است عبارت است از:

گسترش پذیری تا بی نهایت

scaleability

پشتیبانی از دسترسی هم زمان گونه

dual access mode

بهنگام سازی عظیم و توده ای

large bulk updates

صفحات منسوخ

absolete pages

گشترش پذیری تا بینهایت از حجم زیاد اسناد ناشی می شود که توسط صدها تا هزار ها این اسناد توزیع می شوند.

در پشتیبانی از دسترسی دو گانه منظور از دسترسی دو گانه وجود دو نوع دسترسی است : اول، دسترسی مستقیم یا تصادفی که یک صفحه خاص را تحویل کاربر می دهد ، دوم ، دسترسی جویباری که برای ماجول شاخص دهی نیاز است.

بهنگام سازی عظیم و توده ای باید انجام شود. سیستم ذخیره سازی باید اجازه بدهد که هم زمان با دسترسی ماجول های دیگر به انباره صفحات عملیات بهنگام سازی نیز در جریان باشد.

صفحات منسوخ و حذف شده در بهنگام سازی باید از انباره صفحات حذف شوند.

موتور های جستجو شاخص های زیر را درون صفحات وب استخراج می کنند:

شاخص لینک link index
شاخص متنی text index

در شاخص لینک صفحات موجود در انباره را در قالب یک گراف جهت دار directional graph مدل می شوند. گره ها یا نود های این گراف صفحات وب هستند و لبه های گراف ارجاعاتی است که صفحات در قالب hyperlink به یکدیگر دارند. محموعه لینک ها به بیرون links outward و به داخل incoming link مورد توجه است و مجوعه دوم یعنی لینک های به داخل مهمتر از لینک های به بیرون هستند.

شاخص متنی عبارت است از یک پایگاه اطلاعاتی از کل کلمات کلیدی ممکن در ادبیات هر زبان به همراه مجموعه غنی از مخفف ها و استعارات به همراه اندیس صفحاتی که این کلمات در درون آن ها وجود دارند. شاخص متنی شاخص واژگون inverted index نیز نامیده می شود.

رتبه دهی و تحلیل لینک چگونگی یا ترتیب تحویل صفحات حاوی کلمات کاربر را نشان می دهد.

ماجول رتبه دهی پس از غربال کردن نتایج بی ارزش یا کم ارزش آن ها را بر حسب اهمیتشان رتبه بندی و مرتب می کند تا آنچه را که کاربر دریافت می دارد فهرست مرتب شده ای از صفحات مرتبط با کلیدواژه هایش باشد. ماجول رتبه بندی در دو دسته کاملا متفاوت از اطلاعات بهره می گیرد :

اطلاعات مندرج در بطن صفحه
اطلاعات مندرج در بیرون از صفحه وب یعنی درون صفحات دیگر. این روش ، روش موفقی است.

ارزش یک صفحه از نظر ماجول رتبه بندی به عوامل زیر بستگی دارد:

دفعات تکرار کلمات کلیدی
ترتیب و مجاورت کلمات کلیدی
محل درج کلمات کلیدی از لحاظ عنوان پاراگرافی یا متن معمولی
درج کلمات درون آدرس صفحه در بطن url
پر رنگ بودن کلمات کلیدی
بهره گیری از برچسب های توصیفی meta description tag
بهره گیری از بر چسب alt tag

اطلاعات مندرج در بیرون صفحه:

تعداد ارجاعاتی که به صفحه داده شده است
رده بندی جهانی وبسایت حاوی صفحه از لحاظ طراحی ، تعداد بازدیدکننده ، جذب ترافیک و …

بیشترین عوامل رتبه بندی بیرون صفحه تعداد ارجاعات و لینک هایی است که از دیگر صفحات ، صفحه مورد نظر را نشانه رفته اند.

2-6- برچسب ها

2-6-1- برچسب های توصیفی متن یا mdt یا

meta description tag

کدهای html که درون منبع صفحات مخفی هستند و بازدید کنندگان سند آن ها را نمی بیند و در موتور های جستجو و رتبه بندی تاثیر زیادی دارند.

برای تعریف بر چسب های توصیفی متن باید کدهای زیر را بکار برد:

مشخص کردن کلمات کلیدی
توصیف کوتاه از محتوای صفحه
مشخص کردن تاریخ آخرین ویرایش
تازه سازی مجدد صفحه بر حسب ثانیه

<meta name=”keywords”

content=”keyword , keyword , …” />

<meta name=”description”

content=”my description” />

<meta name=”revised”

content=”1/1/2007” />

<meta name=”keywords”

content=”10” url=”my url” />

2-6-2- بر چسب alt tag

بخشی از تصاویر مربوط به محتوای صفحه هستند و بخشی دیگر لوگو ، آیکون ، نام تجاری یا … هستند ، این برچسب توصیف یکایک تصاویر است. از آنجایی که مطالب داخل عکس نمی تواند توسط جستجوگر بازیافت شود از این برچسب برای این کار استفاده می کنیم.

2-7- فایل robots.txt

یک فایل متنی است که بر روی سرویس دهنده وب و درون دایرکتوری اصلی هر وبسایت ذخیره می شود و تنظیمات گردش و سرکشی به اعماق آن وبسایت را عرضه می کند. این فایل زحمت درون کاو را کاهش خواهد داد. این فایل با خطوط زیر آغاز می شود:

user-agant : “نام برنامه راهنمای وبسایت“

disallow: “نام فایل ها یا دایرکتوری که توسط درون کاو نباید دیده شود“

اگر کسی نخواهد هیچ نقطه از وبسایتش درون فهرست جستجو قرار گیرد:

user-agant : *

disallow : /

3- الگوریتم های رتبه بندی

منظور از الگوریتم ها رتبه بندی الگوریتم هایی هستند که تصمیم می گیرند بر اساس چه کلمات کلیدی چه وبسایتی در چه صفحه و رده ای از نتایج حستجو قرار گیرد. الگوریتم های رتبه بندی امروزه بسیار پیچیده هستند و از هزاران پارامتر بهره می برند ما به برخی از مشهورترین پارامتر ها خواهیم پرداخت.

پارامتر های رتبه دهی سه دسته اند :

کلمات (تعداد و موقعیت کلمات)
لینک ها ( تعداد و ارجاعات)
آمار کاربران (کلیک یا رای کاربر)

مهمترین پارامتر کلمات هستند . اخیرا تکنیک های پیشرفته ای برای رتبه بندی ابداع شده که از رفتار کاربران به عنوان پارامتر استفاده می کنند. شرکت گوگل از پیشتازان این روش است و با ایجاد امکان نظردهی کاربران بر نتایج این سیستم را نیز وارد الگوریتم های پیچیده خود کرده است.

3-1- وزن دهی به کلمات

برای هر کلمه ای در یک متن یک وزنی با الگوی خاصی در نظر گرفته می شود. این وزن بیانگر تاثیر کلمه بر موضوع متن در مقایسه با سایر کلمات بکار رفته است.

اهمیت کلمات را می توان بر پایه شرایطی مشخص کرد:

وزن آماری کلمه
مکان قرار گیری کلمه
مفهوم هر کلمه
کاربرد خاص کلمه

وزن آماری کلمه تعداد تکرار آن کلمه در متن بر اساس توزیع کلمات در متن است که به دو دسته فراوانی مطلق و فراوانی نسبی تقسیم می شود.

مکان قرارگیری کلمه ، اینکه کلمه در عنوان یا زیر عنوان یا بدنه متن یا چکیده متن قرار گیرد از معیار های وزن دهی به کلمات می باشد.

مفهوم هر کلمه که بیانگر ارتباط کلمه با کلمات دیگر است به بیانی مترادف یا متضاد بودن آن کلمه است.

از کاربرد های خاص کلمه می توان اسامی را در سیستمی که دنبال اسامی خاص می گردد مثال زد که اهمیت ویژه ای دارد.

3-1-1- ارزیابی کلمات کلیدی

کلماتی که از آستانه تعیین شده برای وزن دهی عبور می کنند باید معیار های زیر را داشته باشند:

جامعیت
تعیین کنندگی

جامعیت یعنی اینکه هر چه تعداد کلمات بیشتری از یک متن استخراج شود ، احتمال بازیابی آن متن نیز بیشتر می شود.

تعیین کنندکی یعنی هر کلمه کلیدی تا چه حد دقیق ، متن های مربوط را مشخص کند.

3-1-2- پارامتر های وزن دهی

سه پارامتر اصلی در وزن دهی به کلمات:

tf.idf
سیگنال و نویز
مقدار تمایز

یکی از پر کاربرد ترین روابط در حوزه بازیابی اطلاعات پارامتر tf.idf است که از حاصلضرب فراوانی کلمه در فراوانی معکوس سند بدست می آید. این روشی است مبتنی بر چند سند که فراوانی کلمه ،تعداد تکرار کلمه در یک سند خاص و فراوانی معکوس، تعداد اسنادی که این کلمه در آن اسناد ظاهر شده است را نشان می دهد. در این روش محاسبات کم است ولی نتایج قابل قبول.

در پارامتر سیگنال نویز هر چه احتمال رخداد کلمه بیشتر می شود بار اطلاعاتی کمتری برای آن در نظر گرفته می شود. کلمات با اهمیت که دارای توزیع متمرکز هستند یعنی تنها در بعضی از اسناد متنی ظاهر شده اند میزان نویز کمتری دارند.

در پارامتر مقدار تمایز استفاده کلمه ای از سند به عنوان کلمه کلیدی که باعث کاهش مشابهت این سند با سایر اسناد می شود مد نظر است. هر چه مقدار تمایز بیشتر باشد بیانگر تخصصی تر بودن این کلمه و اهمیت بیشتر آن در متمایز کردن سندی از سایر اسناد است.

4- بازیابی تحمل پذیر

منظور از بازیابی تحمل پذیر این است که موتور جستجو بتواند اشتباهات کاربر را در ورود کلیدواژه یا عبارات پیش بینی کند و آن را جبران کند و یا پیشنهاد اصلاح آن را به کاربر ارائه دهد.

4-1- الگوریتم کلی غلط یابی املایی در موتور های جستجو

مرحله اول: زمانی که غلط در درخواست کاربر وارد شد کلمات متناظر با آن را پیدا کن و به همراه کلمه غلط به مرحله بعدی بفرست. مثلا اگر کاربر “ارتبات” را وارد کرد نتایج جستجو هم بر اساس “ارتبات” باشد هم بر اساس “ارتباط”.

محله دوم: اگر کلمه وارد شده در لغت نامه موجود نباشد مانند مرحله اول عمل کن.

مرحله سوم: مانند حالت اول عمل کن به شرطی که تعداد مستندات یافته شده در اثر درخواست وارد شده کمتر از مقدار از پیش تعیین شده ای باشد.

مرحله چهارم: وقتی که پرسش وارد شده تعداد مستنداتی کمتر از مقدار از پیش تعیین شده ای را باز گرداند در این صورت موتور جستجو پیشنهادی برای اصلاح کلمه به کاربر بدهد.

4-2- غلط یابی املایی

دو روش عمده برای غلط یابی املایی وجود دارد:

فاصله ویرایشی edit distance
همپوشانی کا-گرم k-gram

دو شیوه خاص غلط یابی از دیدگاه کلمه و جمله:

کلمه مجزا isolated word
حساس به متن context-sensitive

اگر در خواست کابر شامل چند کلمه باشد عمل غلط یابی را هر بار بر روی کلمات آن به طور جداگانه انجام می دهیم که به این روش روش کلمه مجزا می گویند.

در روش حساس به متن در کنار هم قرار گرفتن کلمات و تشکیل عبارت متداول بررسی میشود برای مثال کاربر “فروشگاه مهرآباد” تهران را وارد می کند ، از نظر الگوریتم کلمه مجزا هیچ خطایی در این جستجو دیده نخواهد شد اما در الگوریتم حساس به متن “فرودگاه مهرآباد تهران” پیشنهاد خواهد شد.

4-2-1- الگوریتم فاصله ویرایشی

فاصله ویرایشی بین دو رشته کاراکتر عبارت است از تعداد اعمالی که لازم است تا یکی را به دیگری تبدیل کند. این اعمال می توانند شامل حذف و درج و جابجایی باشند.

تعدادی الگوریتم برای تعریف و محاسبه فاصله ویرایشی وجود دارد که عبارت اند از:

Hamming distance
Leveshtein distance
Damerau-Leveshtein distance
Jaro-Winker distance
Ukkonen
Hirshberg

یکی از الگوریتم های مهم الگوریتم Leveshtein است که از روش برنامه سازی پویا برای محاسبه فاصله بین دو رشته استفاده می کند.

برای مثال فاصله دو کلمه kitten و sitting برابر 3 است.

1. kitten –> sitten(substitution of ‘s’ for ‘k’)

2. sitten –> sittin (substitution of ‘i’ for ‘e’)

3. sittin –> sitting(substitution of ‘g’ at the end)

4-2-2- الگوریتم مجاورت کا-گرم

برای بررسی مجاورت دو رشته استفاده می شود. مجموعه N-gram شامل دنباله های n تایی یک رشته است

مثال: رشته information که 4-gram آن بصورت زیر است:

info – nfor – form – orma – rmat – mati – atio – tion

روش کلی بدین صورت است که ابتدا تمامی N-gram ها را تولید می کنیم و آن ها را اندیس گذاری می کنیم. وقتی خواستیم یک کلمه را اصلاح کنیم همین کار را با آن کلمه می کنیم.

برای این کار دو روش وجود دارد:

روش اول : ابتدا N-gram های کلمه را پیدا می کنیم و آن ها را با N-gram های دیکشنری مقایسه می کنیم. فرض بر این است که کلمه اشتباه فقط 2 یا 3 کاراکتر اشتباه یا گم شده یا تغییر یافته دارد با مقایسه N-gram ها می توان نزدیک ترین کلمه درست را پیدا کرد.
روش دوم: ابتدا کلمات مشابه کلمه اشتباه را با استفاده از الگوریتم Leveshtein برای یک فاصله ویرایشی معین ، پیدا می کنیم سپس برای هر کدام از آن ها N-gram ها را تولید می کنیم ، هر کدام از کلمات که تعداد بیشتری N-gram مشابهت با کلمه غلط داشت را به عنوان پیشنهاد ارائه می کنیم.

نکته: الگوریتم N-gram برای کشف غلط های ناشی از جای خالی نیز کار می کند. برای اینکار می توان در تولید مشابه های نزدیک کلمه ، جای خالی را بین حروف قرار دهیم ( علاوه بر افزودن ، کاستن و جابجایی).

4-2-3- غلط یابی حساس به متن

اگر کلمات وارد شده از نظر املا صحیح باشند ممکن است اشتباهی از طرف کاربر در وارد کردن عبارت صورت گرفته باشد ، مانند “فروشگاه مهرآباد تهران” بجای “فرودگاه مهرآباد تهران”.

برای چنین اصلاحاتی نمی توانیم از الگوریتم کلمه مجزا استفاده کنیم و به الگوریتم حساس به متن رجوع می کنیم. دو روش برای این کار وجود دارد :

روش اول ، ساده ترین روش این است که برای هر کدام از کلمات عبارت وارد شده توسط کاربر را به طور جداگانه ، کلمات مشابه را به روش های “کلمه مجزا” مانند “فاصله ویرایشی” و “کا-گرم” پیدا کنیم و ترکیبات مختلف آن ها را تشکیل دهیم. سپس عبارت تشکیل شده را بازیابی کرده هر کدام که تعداد نتایج بیشتری را باز گرداند به عنوان پیشنهاد به کاربر ارائه دهیم. این روش می تواند سربار زیادی تولید کند. مخصوصا وقتی تعداد کلمات مشابه زیاد باشد.
روش دوم ، می توان از روش های تشخیص برای بهبود نتایج جستجو استفاده کرد. در این روش تمام ترکیبات ممکن با کلمات مشابه را تولید نمی کنیم بلکه متداول ترین آنها را از روی آمار هم نشینی های دو کلمه ای تولید می کنیم و آن را برای سه کلمه گسترش می دهیم . برای مثال فرودگاه مهرآباد بسیار متداول تر از فروشگاه مهر آباد می باشد همچنین عبارت مهرآباد تهران متداول تر از مهرآباد مهران است لذا ترکیب فرودگاه مهرآباد تهران محتمل تر است. دو منبع برای بدست آوردن آمار همنشینی های دو کلمه ای وجود دارد. منبع اول هم نشینی کلمات در اسناد نمایه گذاری شده است و منبع دوم همنشینی کلمات در پرسش های وارد شده توسط کاربران است.

زمانی که دو کاربر مختلف دنبال موضوعی یکسان می گردند ممکن است از کلمات کلیدی متفاوتی استفاده کنند. میزان موفقیت کاربر از نظر سرعت و دقت بستگی به هوش و طرز فکر و دریافت ذهنی وی از عملکرد موتور جستجو دارد. تجربه نشان می دهد کاربران پس از مدتی با رفتار موتور جستجو آشنا می شوند و کلماتی را انتخاب می کنند که بهتر از گذشته عمل می کند.

4-3- مفهوم ربط

کلید واژه ها را بایستی با شکل صحیح و در قالبی مناسب وارد کرد و در انتظار پاسخ از سوی موتور جستجو بود . اما کاربران مختلف کلید واژه های مختلفی را به موتور جستجو وارد می کنند چون تجارب ، دانش و مهارت های متفاوتی دارند. یک موتور جستجو باید قادر باشد جواب کاربرانی با شرایط مختلف را بدهد.

کاربر برای کار با موتور جستجو باید سه دانش داشته باشد:

ذهنی
فنی
معنایی

دانش ذهنی ، دانش مورد نیاز برای تبدیل یک نیاز اطلاعاتی به یک در خواست قابل جستجو می باشد.

دانش فنی ، مهارت های اساسی بکارگیری رایانه و ترکیب درخواست های وارد شده به عنوان عبارت های جستجوی خاص می باشد.

دانش معنایی ، مشخص می کند که چگونه و در چه وقتی قابلیت موجود در موتور جستجو را باید بکار گرفت.

افزایش این سه دانش از طرف کاربر بصورت چشم گیری باعث افزایش میزان اسناد بازیابی شده می شود. در بسیاری از موارد کاربر می خواهد چیزی را از موتور جستجو بخواهد که راجب آن اطلاع خاصی ندارد و درباره آن جاهل است به همین دلیل رفتار کاربران در حین جستجو تا حدی غیر قابل پیش بینی می شود.

از آنجایی که هدف بازیابی اطلاعاتی ایجاد ارتباط است از این رو هم ربط کلید جدایی ناپذیر بازیابی موثر است. ربط مقیاس موثر بودن میان منبع اطلاعات و دریافت کننده است.

ربط از نظر کاربر با معیار های زیر بررسی می شود:

وضعیت شناختی کاربر
ارزشی که به اطلاعات داده می شود
فوریت کاربرد دانش جستجو شده
دانش قبلی از همان موضوع
مشکلی که باید گشوده شود

ربط از نظر سیستم بازیابی با معیار های زیر بررسی می شود:

محل کلید واژه
بسامد نسبی
وجود کلید واژه ها در متاتگ ها
محبوبیت وبسایت

کار اصلی موتور جستجو سنجش ارتباط اطلاعات ذخیره شده و اطلاعات در خواست شده است. به عبارتی دیگر با ارائه یک سوال به نظام ، نظام بازیابی باید بررسی کند که آیا اطلاعات ذخیره شده مربوط به پرسش است یا نه ، اما ایهام و استعارات پشت واژگان و نقص بیان مفاهیم با برخی واژگان این ارتباط ( ربط ) را مشخص می سازد.

نظر خواهی از کابر در رتبه بندی: برای برطرف کردن مشکل سو تفاهم بین ذهن کاربر و الگوریتم های موتور جستجو اخیرا از الگوریتم های پیشرفته تری استفاده می شود که در آن نظر کاربر به عنوان یک پارامتر لحاظ می شود. گوگل یکی از موتور های جستجو است که پیشتاز این روش است.

5- متا جستجوگر ها

یک موتور جستجو گر سایتی است که به طور واسطه بین کاربر و موتور های جستجو قرار می گیرد، پرسش کاربر را دریافت می کند و آن را پالایش کرده و با استفاده از سرویس وب موتور های جستجو ، نتایج را از چندین موتور جستجو دریافت و حاصل را ترکیب کرده و به کاربر ارائه می دهد. استفاده از این روش باعث می شود دامنه جستجو وسیع تر شود و نتایج بهتری حاصل شود.

6- سئو چیست

معنی سئو بهینه سازی استفاده از موتور های جستجو است یعنی تولید کردن صفحاتی که برای موتور های جستجو جالب هستند.

SEO : Search Engine Optimization

بهینه سازی صفحات وب یعنی اینکه در یک موتور جستجوی بزرگ بیشترین امتیاز را بدست آورد. در واقع یعنی اینکه چه کار هایی انجام دهیم که وبسایت ما درصفحه اول نتایج جستجو قرار گیرد.

علم سئو درمورد روش های فنی مطالعه می کند:

عنوان صفحه مناسب
تگ ها و متا تگ ها
کلمات کلیدی
توضیحات مناسب سایت
محتوایی که موتور جستجو به آن تمایل دارد

نکته : یکی از کارهایی که متخصصان سئو انجام می دهند پیگیری تمام تغییرات عملکرد داخل موتور های جستجو است. بنابرین آن ها می توانند صفحات وب را بر طبق این تغییرات بهینه سازی کنند.

نکته : سئو بسیار مهم است برای اینکه:

اگر از این علم استفاده نشود بازدید کنندگان زیادی را از دست خواهیم داد
موتور های جستجو تنها وسیله شناساندن وبسایت ما در فضای مجازی هستند
برتر بودن در موتور های جستجو مشتریان زیادی را بسوی وبسایت ما دعوت می کند
91 درصد کاربران از موتور های جستجو استفاده می کنند
73 درصد معاملات آنلاین از طریق موتور های جستجو آغاز می شود.

چه کسانی به سئو نیاز دارند؟

در جواب باید گفت هر وبسایتی که بسوی تجارت و بازرگانی حرکت می کند به سئو نیازمند است.

نکته: بهینه سازی باید بصورت مداوم بر روی وبسایت انجام شود و با یک بار اجرای بهینه سازی نتیجه مطلوب بدست نخواهد آمد.

6-1- مراحل بهینه سازی

بهینه سازی از چندین مرحله تشکیل یافته است:

مرحله اول ، انتخاب نام دومین یا دامنه مناسب است که باید داری ویژگی های زیر باشد:

مرتبط با موضوع وبسایت باشد
کوتاه و مفید باشد
تایپ آن آسان باشد
ذهن مخاطب را درگیر کند

مرحله دوم ، پرداخت هزینه به یک شرکت مطمئن و انتخاب میزبانی مناسب (هاستینگ) که دارای ویژگی های زیر باشد:

سرعت انتقال بالا
پهنای باند بالا
آپ تایم و داون تایم مناسب

مرحله سوم ، طراحی مناسب وبسایت و یا استفاده از سیستم مدیریت محتوا . طراحی باید مناسب با موضوع و محتوای وبسایت باشد.

از سیستم های مدیدیت محتوای مناسب می توان wordpress و joomla را نام برد. یکی از قوی ترین سیستم های مدیریت محتوا datalife می باشد که از نظر سئو بهتر عمل می کند.

مرحله چهارم ، استفاده از کدهای html ، کلمات کلیدی و لینک های داخلی و در کل ، ساختار وب مناسب .

مرحله پنجم ، لینک هایی که به وبسایت ما اشاره می کنند باید تعدادشان زیاد باشد و این زمانی اتفاق می افتد که مطالب ما مفید و به درد بخور باشند.

مرحله ششم ، حتما باید چیزی برای ارائه داشته باشیم وگرنه باید از فکر بالا بردن آمار بیرون بیایم.

مرحله هفتم ، مطالب را کپی نکنیم چون اینکار پس از چندین بازدید کاربر لو می رود.

مرحله هشتم ، با مخاطبین ارتباط نزدیک بر قرار کنیم ، قسمتی در وبسایت با نام تماس با ما داشته باشیم و در صورت امکان شماره تماسمان را پایین وبسایت بگذاریم.

مرحله نهم ، ثبت وبسایت در dmoz.org ، به هر قیمتی ولی به درستی وبسایت خود را در این دایرکتوری ثبت کنیم ، پس از مدتی نتیجه مطلوب را حتما می بینیم.

مرحله دهم ، کاربر را نرنجانیم مانند سیستم هایی که دارای قسمت عضویت اجباری یا مسائلی از این قبیل هستند.

مرحله یازدهم ، لینک بدهیم تا لینک بگیریم.

مرحله دوازدهم ، قالب سایت را با تمام مرورگر ها منطبق کنیم ، همچنین قالب را سبک بسازیم ، زیرا با اینترنت زغالی موجود در ایران بعضی ها حوصله لود شدن یک وبسایت را ندارند.

مرحله سیزدهم ، کلمات کلیدی وبسایت خود و وبسایت رقیب را به دقت بررسی کنیم و بهترین ها را انتخاب کنیم . برای این کار از وبسایت dwords گوگل کمک بگیریم. توضیحات وبسایت نیز فراموش نشود. از کلمات کلیدی بروز استفاده کنیم.

مرحله چهاردهم ، عنوان وبسایت مناسب ، کوتاه و روان استفاده کنیم و از به کار بردن بهترین ، اولین و قدرتمندترین وبسایت بپرهیزیم.

مرحله پانزدهم ، از نوشتن چیز های مختلف بپرهیزیم و خود را روی یک موضوع خاص متمرکز کنیم.

مرحله شانزدهم ، برای وبسایت صفحه error 404 طراحی کنیم.

مرحله هفدهم ، قسمت جستجو برای وبسایتمان طراحی کنیم.

مرحله هجدهم ، مطالب بروز باشند و حداقل یک پست در روز ارسال کنیم.

مرحله نوزدهم ، می توان هر پست را بطور جداگانه در گوگل یا دیگر موتور های جستجو ثبت کرد.

مرحله بیستم ، داشتن وبلاگ ، فروم یا انجمن در وبسایت.

مرحله بیست و یکم ، لینک های داخل شده به وبسایت زیاد باشند که معمولا صفحه اصلی بهترین معیار است همچنین افزایش لینک های داخلی تا حد ممکن بسیار مفید خواهد بود .

مرحله بیست و دوم ، لینک های برگشتی سایت از سایت های معتبر دولتی و یا دانشگاهی را افزایش دهیم.

مرحله بیست و سوم ، عضویت در دایرکتوری های معتبر.

مرحله بیست و چهارم ، صفحه کامل و مجزا درباره سیاست های حریم خصوصی privacy policy .

مرحله بیست و پنجم ، سرعت وبسایت خود را افزایش دهیم.

مرحله بیست و ششم ، از یک افزونه مترجم استفاده کنیم تا کسانی که به زبان ما تسلط ندارند بتوانند از وبسایت استفاده کنند ، در این حالت گستره بازدید کنندگان بسیار بالا می رود.

مرحله بیست و هفتم ، ساخت پوسته جدید و ایجاد تنوع برای کاربران.

مرحله بیست و هشتم ، مقالات خود را منتشر کنیم.

مرحله بیست و نهم ، استفاده از لینک های منظم در صفحات مختلف وبسایت.

مرحله سیم ، بطور حتم یک صفحه نقشه وبسایت map site طراحی کنیم.

مرحله سی و یکم ، از خصوصیات alt tag ها در توضیحات مرتبط با عنوان صفحه استفاده کنیم.

مرحله سی و دوم ، از فایل robots.txt در دایرکتوری خود استفاده کنیم.

مرحله سی و سوم ، در سایت خود با مقالات و مطالب خود چند بار لینک بدهیم.

مرحله سی و چهارم ، صفحات را برای استفاده کاربران بسازیم نه برای موتور های جستجو.

مرحله سی و پنجم ، می توان از طریق فایل robots.txt دسترسی crawler موتور های جستجو را محدود کرد.

6-2- اشتباهات سئو

اشتباهاتی که ممکن است توسط برنامه نویس و طراح وبسایت صورت گیرد:

صفحات بیهوده : اشتباه بزرگی است که در صفحه اول وبسایت یک تصویر بسیار بزرگ و یک لینک که روی آن نوشته شده “برای ورود به وبسایت اینجا کلیک کنید” وجود داشته باشد. در حالت بدتر این لینک درون یک انیمیشن فلش قرار دارد و اینکه هیچ گاه توسط جستجو گر دنبال نخواهد شد. صفحه اصلی یا ایندکس مهمترین صفحه وبسایت است و بار ها توسط موتور های جستجو بررسی می شود. نباید آن را به هدر داد.
منو های فلش : از فلش برای زیبایی وبسایت استفاده می شود ، در حالی که لینک های موجود در این منو ها هیچ گاه توسط جستجو گر های موتور جستجو دنبال نمی شود.
مطالب موجود در تصاویر و انیمیشن ها : یک جستجو گر نمی تواند کلمات موجود در عکس ها و انیمیشن ها را تشخیص دهد .
استفاده بیش از حد از تکنولوژی Ajax : مطالب در Ajax بصورت پویا بارگذاری و لود می شوند و این مطالب و صفحات توسط جستجو گر ها قابل طبقه بندی و خواندن نیستند.
استفاده از زیر شاخه ها : با تغییر شاخه اصلی بسیاری از صفحات از دست خواهند رفت.
لینک ها : استفاده از “click here” یا “more” یا “ادامه” یا “بیشتر” برای لینک ها بسیار نا مناسب است.

نکته: هرگز از کلمات یکسان برای اتصال به صفحات دیگر استفاده نکنید زیرا از نظر جستجوگر لینک هایی با کلمات یکسان دارای مطالب یکسان هستند و دنبال نمی شوند.

title ها : اگر می خواهیم نام وبسایت در تمامی title ها باشد از ترکیب (“نام وبسایت” | “موضوع صفحه”) استفاده شود . نباید تعداد زیاد حروف در title ها استفاده شود ، تعداد استاندارد 65 حروف است که بقیه توسط موتور جستجو حذف می شود. برخی فکر می کننداستفاده بیش از حد یک کلمه می تواند صفحه آن ها را در مورد آن کلمه در موقعیت بالاتری قرار دهد. آن ها سخت در اشتباهند ، جستجو گر این صفحات را به عنوان صفحات هرز شناسایی می کند.
توضیحات تصاویر: alt یا توضیحات تصویر نقش مهمی در شناسایی موضوع تصویر دارد و نباید به هیچ وجه نادیده گرفته شود ، موتور جستجو فقط از طریق alt می تواند در مورد تصویر اطلاعات کسب کند.

7- مدیریت کامل وب مستر تولز گوگل Google webmaster tools

پس از ورود به این سرویس بر روی دکمه Add a site کلیک می کنیم و سپس با وارد کردن آدرس وبسایت به روی دکمه continue کلیک می کنیم ، آدرس ما نمایش داده میشود. با نمایش آدرس وبسایت بر روی verify this site کلیک می کنیم و صفحه verify ownership برایمان باز می شود، در قسمت verification method سه روش در اختیار ما قرار می گیرد :

اضافه کردن کد html به کدهای html وبسایت
اضافه کردن صفحه html در root وبسایت
اضافه کردن تکه کد به dns وبسایت (پیشنهاد نمیشود)

پس از انجام مراحل بالا با کلیک بروی دکمه verify وارد بخش مدیریت وبسایت می شویم و می توانیم از منو های موجود برای اینکار استفاده می کنیم.

7-1- توضیحات منوی تنظیمات سایت site confiquration

7-1-1- مدیریت site map

به مجموعه ای از آدرس ها که در قالب خاص تعریف می گردند نقشه سایت می گویند. نقشه سایت در گوگل می تواند خیلی سریع تر صفحات وبسایت ما را ذخیره کند.

7-1-2- مدیریت دسترسی خزنده به قسمت های مختلف سایت crawler access

با فایل robots.txt می توان ربات های موتور جستجوگر را مدیریت کرد که به کدام یک از صفحات و فولدر ها دسترسی داشته باشد و به کدامیک از آن ها دسترسی نداشته باشد.

7-1-3- مدیریت site link

اگر معماری سایت به درستی پیاده سازی شود و دارای بازدید کننده بالایی باشد و همچنین page rank بالایی داشته باشد در این صورت ممکن است که گوگل لینک ها یا عبارت های منو های وبسایت ما را بصورت خاص و تفکیک شده نمایش دهد که این امتیاز بسیار عالی از سوی گوگل به وبسایت ما می تواند باشد.

7-1-4- تنظیمات تغییر آدرس وبسایت change of address

اگر قصد داریم آدرس دامنه وبسایتمان را تغییر دهیم از این قسمت ، برای مطلع ساختن گوگل از این تغییر، استفاده می شود تا با سرعت بیشتری صفحات وب ما را ذخیره کند.

7-1-5- تنظیمات کلی setting

دارای قسمت geographic target است که تنظیمات موقعیت جغرافیایی یا کشور هدف است. یعنی وبسایت ما را فقط محدود به جستجو های آن کشور می کند.

و همچنین دارای قسمت preferred domain است که می توانیم به گوگل بگوییم که سایت و لینک ها بصورت www یا بدون www نمایش داده شوند.

و همچنین دارای قسمت crawler rate است که تعداد دفعات مراجعه خزنده گوگل به وبسایت را تنظیم می کند. ممکن است به علت بزرگ بودن سایت و در خواست های زیاد این مقدار کم شود . در صورتی که از عدم شناسایی تغییرات وبسایت ناراضی هستیم مقدار آن را افزایش می دهیم.

7-2- توضیحات منوی your site on the web

7-2-1- کلمات کلیدی در جستجو نمایش داده شده search queries

در این قسمت کلمات کلیدی که در موتور جستجو باعث مراجعه به سایت ما شده است به همراه موقعیت آن کلمات کلیدی از وبسایت ما در صفحات گوگل نمایش داده می شوند. علاوه برآن میزان کلیک ها و

CTR ها هم نمایش داده می شود. اگر کلمه ای از وبسایت ما خیلی مهم واقع شود و آمار زیادی داشته باشد ستاره دار می شود.

7-2-2- لینک به سایت شما link to your site

در این قسمت آدرس صفحاتی از وبسایت ما که لینک های ارزشمند از سایت های دیگر به آن داده شده است لیست شده و نمایش داده می شود. می توان متن لینک های داده شده و آدرس وبسایت های لینک دهنده را نیز مشاهده کرد.

7-2-3- کلمات کلیدی keywords

در این صفحه رایج ترین کلمات کلیدی موجود در صفحات وبسایت ما نمایش داده می شود.

7-2-4- لینک های داخلی Internal Links

لیست صفحاتی که در داخل وبسایت به هم لینک داده شده اند به همراه تعداد لینک ها و صفحات لینک داده شده وجود دارد.

7-2-5- آمار مشترکین خوراک feed or subscriber stats

در صورت ارائه فید یا خوراک در وبسایتمان می توانیم آن را در نقشه سایت ذخیره کنیم و در این صفحه می توان وضعیت مشترکین خود را در سرویس google reader مشاهده کرد.

7-3- توضیحات منوی امکانات عیب شناسی dianostic

7-3-1- تروجان Malware

اگر وبسایت حاوی کد های تروجان باشد به ما اعلام می کند.

7-3-2- خطاهای خزنده Crawl Errors

خزنده وقتی صفحات وبسایت ما را بررسی می کند ، خطاهایی که با آن ها مواجه می شود را نمایش می دهد. این خطاها به چند دسته تقسیم می شوند:

وب
mobile- chtml
mobile-xhtml

اگر مشکلی در صفحه ما باشد گزارش کاملی در این قسمت در دست ما خواهد بود. حساسیت گوگل به این خطاها بالاست پس به خطاها باید توجه کنیم.

7-3-3- Restricted by robots.txt

در این قسمت لیست صفحاتی که توسط فایل robots.txt پاک گردیده اند نمایش داده می شود.

7-3-4- گزارش وضعیت خزنده Crawl States

گزارشی از وضعیت صفحات کنکاش شده را می دهد که شامل صفحات کنکاش شده در هر روز ، میانگین مدت زمان مصرف شده برای دریافت صفحات و حجم صفحات دانلود شده در هر روز.

7-3-5- پیشنهادات کد های html Suggestions

خزنده لیستی از مشکلات وبسایت را ارائه می دهد که حل این مشکلات کمک بسیاری می کند. شامل سه مورد short meta

duplicate meta , long meta است.

یک قسمت meta description است که اگر توضیحاتی تکراری در صفحات وبسایت وجود داشته باشد در description duplicate meta نمایش داده می شود. اگر توضیحات صفحه بلندتر از حد مجاز باشد در long meta description و اگر کوتاه باشد در short meta description نمایش داده می شود.

همه چی در باره ی ای تی و کامپیوتر