-
June 17th, 2010, 12:17
#1
عضو انجمن
جلوگیری از ورود بوت های ناخواسته به سایت ما
سلام...
این مطالب نوشته خودم هست... بنابراین ممکنه مشکلات و ضعف هایی داشته باشه... اگر موردی دیدید خوشحال میشم بهم بگید تا برطرفش کنم... 
بوت یا اسپایدر چیست؟
در دنیای اینترنت ما با فعالیت نرم افزارهای هوشمند، عموما با دسترسی بالا، و البته نامرئی برمیخوریم که به Spider (عنکبوت) یا Bot (بوت، مخفف روبات) معروف هستن.
این نرم افزارها برنامه ریزی میشن تا کارهای متفاوتی رو به صورت هوشمند انجام بدن...
به عنوان مثال تا به حال شده که توی بعضی انجمن ها به یک سری کاربرهایی برمیخورید که فقط و فقط اخبار رو از سایت های مختلف بر میدارن و توی بخش اخبار انجمن پست میکنن؟؟؟ در حقیقت این به ظاهر کاربر ها وجود خارجی ندارند و اسپایدر هستن...
و یا حتما تا به حال متوجه شدید که سایت هایی مثل یاهو و گوگل کاربران خودشون رو بعد از مدت مشخصی به یکباره بیرون میندازن (Log out میکنن)
... این هم کار یک اسپایدر هست که به StackWatchDog معروفه (سگ نگهبان پشته)... این اسپایدر ها دائما مقدار حافظه موجود روی سرور رو بررسی میکنن و به محض پر شدن حافظه، برای جلوگیری از توقف کار سرور، تمام کاربران رو از سیستم خارج کرده و حافظه رو پاک سازی میکنن... 
این که اسپایدرها این وسط چه کاری میکنن رو الان توضیح میدم.
نقش اسپایدر در موتورهای جستجو چیست؟
موتورهای جستجو مثل گوگل باید دائما تمام صفحات وب سایت های مختلف در سراسر اینترنت رو بررسی کنن و تمام اطلاعات داخل این صفحات رو برای خودشون ذخیره کنن (اصلا آبروی یه موتور جستجو در حد اوففففففففف وابسته به همین تعداد صفحات ذخیره شده اش هست
)
خوب یقینا قبول دارید که انجام چنین کاری توسط انسان بسیار سخت هست و یه جورایی احمقانه به نظر میرسه... پس چیکار کنیم؟؟؟ بله... تنها راهی که میمونه همین سربازان خستگی ناپذیر کوچولو هستن... اسپایدرها... نرم افزار هایی که همیشه و همه جا مراقب اوضا هستن.
هر موتور جستجو هم به تعدادی بوت یا اسپایدر مجهز هست که بی وقفه در حال بررسی سایت های مختلف هستن (البته با این وجود، عملیات به روز رسانی موتور جستجوگر بزرگی مثل گوگل به دلیل تعداد فوق العاده زیاد صفحاتی که باید ذخیره کنه چند هفته
طول میکشه)
این اسپایدر ها به رهبری یه سری نرم افزار دیگه که به خزنده (Crawler) معروف هستن (که خودشون نوعی بت هستن)، به صفحات وب سر میزنن و اطلاعات داخل صفحات رو با خودشون میبرن و به کراولر تحویل میدن... (البته اسپایدرها، کد HTML صفحات رو برای کراولر میبرن، نه این قیافه ی ظاهریشو)
کراولر بعد از بررسی صفحات، اونارو به ایندکسر تحویل میده (که اون هم خودش یه نوع بوت هست) و ایندکسر این اطلاعات رو بسته بندی میکنه، برچسب میزنه، و ذخیره میکنه... در نهایت رتبه بند (Ranker) که این هم خوش یه نوع بوت هست با یک سری پارامترها و الگوریتمهایی (که محرمانه هست و کسی ازشون خبر نداره) صفحات رو رتبه بندی میکنه و به عنوان نتایج جستجو به امت نشون میده (بحث SEO یه مبحث تجربی و حدسی هست و کسی از الگوریتم رتبه بندی موتور های جستجو اطلاع نداره)
اسم چند تا از این اسپایدرها:
اسپایدر گوگل: googlebot
اسپایدر یاهو: Slurp
اسپایدر بینگ: Msnbot
اسپایدر آلتاویستا: Scooter
امیدوارم تونسته باشم بهتون کمک کنم... تا عنکبوت هارو بهتر بشناسید (کلاس زیست شناسی
)
حالا بریم سراغ عنکبوت کش... چیزی که جلوی اینارو میگیره...
برای اینکه ایم عنکبوت هارو کنترل کنیم که کجا برن، کجا نرن، فقط کافیه از یه فایل متنی ساده به نام "robots.txt" استفاده کنیم... فقط کافیه یه فایل متنی معمولی با این اسم بسازیم، توی فولدر اصلی هاستمون بذاریم (public_html) و با استفاده از متنی که داخل این فایل مینویسیم این روبوت هارو دقیق کنترل کنیم...
متن داخل این فایل به این شکل هست... برای مشخص کردن این که میخوایم کدوم بوت رو کنترل کنیم از عبارت user-agent استفاده میکنیم... و برای اینکه بهش بگیم کجاها نباید بره، از عبارت disallow استفاده میکنیم...
مثلا اگه بخوایم به بوت گوگل بگیم توی فولدر دانلودمون نگرده، فقط کافیه داخل اون فایل متنی اینو بنویسیم:
کد:
user-agent: googlebot
disallow: /download
به همین شکل میتونیم برای هر بوتی که دلمون خواست هر مسیری که دوست داشتیم رو ببندیم... فقط دقت کنید که جلوی هر user-agent فقط میتونید اسم یک بوت رو بنویسید... جلوی هر disallow هم فقط یه مسیر مشخص... اگه خواستیم محلی رو برای تمام بوت ها محدود کنیم میتونیم از * استفاده کنیم...
مثال:
من میخوام بوت گوکل وارد فولدری به نام سجاد نشه، بوت های یاهو و آلتاویستا وارد فولدر دانلود و فولدر آپلود من نشن، بوت جستجوگر بینگ کلا سایت من رو ایندکس نکنه (بیخیال سایت من بشه) بقیه بت ها هم وارد فولدری به نام private نشن... محتوای فایل robots.txt من این میشه:
(متن داخل بلوک کد زیر اسکرول میشه، دقت کنید باید برید پایین تا کامل ببینیدش)
کد:
user-agent: googlebot
disallow: sajad
user-agent: slurp
user-agent: Scooter
disallow: /download
disallow: /upload
user-agent: msnbot
disallow: / l
user-agent: * l
disallow: private
ویرایش توسط srashedian : June 17th, 2010 در ساعت 12:21
-
تعداد تشکر ها ازsrashedian به دلیل پست مفید
-
June 17th, 2010 12:17
# ADS
-
June 17th, 2010, 12:26
#2
عضو جدید
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما
فیلطرینگ هم بوت داره . اسمشو نمیدونی ؟
-
تعداد تشکر ها از irantrack به دلیل پست مفید
-
June 17th, 2010, 13:37
#3
عضو انجمن
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

نوشته اصلی توسط
irantrack
فیلطرینگ هم بوت داره . اسمشو نمیدونی ؟
سیستم فی^لتر%ینگ بر پایه کراولرهای پورت اسکنر طراحی شده... یعنی اون طوری که شما فکر میکنید یه بوت نمیاد سایت شما رو بگرده بعد هم بیاد ببندتش... عملکرد این سیستم بر این اساس هست که پورت های وروردی و خروجی اصلی اطلاعات شبکه اینترنت رو که در اختیار اداره زیرساخت هست توسط یه سری بوت های مخصوص از داخل دائما بررسی میکنه و اکه یه موارد خاصی رو که برای منطق اون کراولر طراحی شده پیدا کرد، اجازه عبور اطلاعات رو از گذرگاه اصلی اینترنت نمیده و به جای اطلاعاتی که شما درخواست کرده بودید یه سری اطلاعات دیگه رو جایگزین میکنه (همون صفحه معروف صورتی رنگی که تا حالا صدبار دیدید)... در حقیقت کار سیستم فیل^تر^ینگ تا حدودی مشابه کار دیوار آتش (فایروال) هست و اصلا صدمه ای به سایت یا دامین شما نمیزنه... فقط سر راه شاهراه اصلی اینترنت ایران وایساده هر اطلاعاتی رو که نامناسب تشخیص داد نمیذاره رد بشه...
بنابراین امکان جلوگیری از بسته شدن سایت با استفاده از این آموزش وجود نداره...
-
تعداد تشکر ها ازsrashedian به دلیل پست مفید
-
June 17th, 2010, 15:07
#4
عضو انجمن
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما
-
تعداد تشکر ها از سلام عیلکم و رحمت الله به دلیل پست مفید
-
June 17th, 2010, 15:28
#5
عضو جدید
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما
نمیشه برای اطلاعات یه جور کد گذاشت که نتونن بخوننش ؟ مثل ssl البته یه چیزه دیگه که مجاز باشه (مشابه)
یا مثلاً سایتهای میزبانی شده داخل که الان بسته نمیشن بخوان ببندنشون باید چیکار کنن ؟
-
تعداد تشکر ها از irantrack به دلیل پست مفید
-
June 17th, 2010, 16:35
#6
عضو انجمن
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما
با Sitemap درست کردمن میشه صفحات رو زودتر ایندکس کرد.
من برای فروشگاه Sitemap درست کردم و حدود 40 تا اینکس داشتم با توجه به صفحات کم خیلی خوب بود اما
برای انجمن هم که با SMF هست هم Sitemap درست کردم و دادم به گوگل اما به وجود صفحات و مطالب زیاد تر از فروشگاه صفحه ای ایندکس نشده.
چطور میتونم اینکس های بیشتری داشته باشم.
-
تعداد تشکر ها از nasa_de به دلیل پست مفید
-
June 17th, 2010, 18:43
#7
عضو انجمن
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

نوشته اصلی توسط
irantrack
نمیشه برای اطلاعات یه جور کد گذاشت که نتونن بخوننش ؟ مثل ssl البته یه چیزه دیگه که مجاز باشه (مشابه)
یا مثلاً سایتهای میزبانی شده داخل که الان بسته نمیشن بخوان ببندنشون باید چیکار کنن ؟
یه نفر دیگه هم گفته بود، در حال حاضر هیچ راهی برای جلوگیری از فی^لت^رین^گ وجود نداره... وقتی هم که یه نسخه ی سکیور شده از صفحه رو به صورت https میذارید، باز هم صفحه اصلی بسته میشه، فقط همون پروتوکل https هست که باز میمونه... و در حال حاضر هم تنها راه برای اینکار هست که معقول به نظر میرسه (به عنوان مثال میتونید به جای متن نوشتاری از عکس و فیلم و فایلهای فلش استفاده کنید، چون در حال حاضر سیستم ف^یل^طر^ین^گ قابلیت تحلیل اطلاعات داخل عکس ها و فایلهای فلش (به طور کلی فایلهای مالتی مدیا) رو نداره... اما خوب مسلما سایت شما رو به شدت سنگین میکنه و باعث آزار کاربران میشه)... ضمنا هر راهی که انتخاب کنید، کاملا غیر قانونی هست و درصورت پیداکردن چنین صفحه هایی حق پیگرد قانونی دارن...

نوشته اصلی توسط
nasa_de
با Sitemap درست کردمن میشه صفحات رو زودتر ایندکس کرد.
من برای فروشگاه Sitemap درست کردم و حدود 40 تا اینکس داشتم با توجه به صفحات کم خیلی خوب بود اما
برای انجمن هم که با SMF هست هم Sitemap درست کردم و دادم به گوگل اما به وجود صفحات و مطالب زیاد تر از فروشگاه صفحه ای ایندکس نشده.
چطور میتونم اینکس های بیشتری داشته باشم.
ایندکس کردن موتورهای جستجوگر از جمله گوگل توسط کراولر داخلی اونا کنترل میشه و ربطی به Sitemap نداره... سایت مپ فقط کمک کنه تا صفحات بهتر ایندکس بشن، مثلا فرض کنید یه مامور بیمه قرار هست بیاد از خانواده شما بازدید کنه و انارو بیمه کنه... سایت مپ در حکم یک لیست کامل از اعضای خانواده با مشخصاتشون هست... این لیست به مامور بیمه کمک میکنه تا خیلی سریعتر و دقیقتر اعضای خانواده تون رو بیمه کنه، اما تا وقتی این مسئول بیمه خودش نیاد خونه شما، اون لیست به چه دردی میخوره؟ سایت مپ هم زمانی کاربرد داره که کراولر به اسپایدر فرمان دریافت اطلاعات از سایت شمارو بده، وقتی اسپایدر گوگل به سایت شما اومد، اونوقت سایت مپ بهش کمک میکنه تا بتونه تمام قسمت های مختلف سایت شما رو فهرست کنه و مطالبش رو منتقل کنه...
تنها راه برای تشویق اسپایدر گوگل به اینکه سریعتر به سایت شما سربزنه اینه که از مکان های بیشتری به سایت شما لینک بشه، یعنی لینک های منتهی به سایت شما بیشتر بشه... و این لینک ها هم زمانی ارزش پیدا میکنن و از نظر اسپایدر موتور جستجو معتبر هستن که توی یه سایت با رنک بالا باشن... به عنوان مثال اگر شما همینجوری الکی یه سایت ایجاد کنید و به خودتون لینک بدید، این لینکها هیچ ارزشی برای گوگل نخواهند داشت...
-
تعداد تشکر ها ازsrashedian به دلیل پست مفید
-
June 17th, 2010, 19:10
#8
عضو انجمن
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما
با تشکر از اطلاعات ارزشمندتون.
میشه در مورد بالا بردن رنک در گوگل هم توضیح بدید.
-
تعداد تشکر ها از nasa_de به دلیل پست مفید
-
June 17th, 2010, 19:28
#9
عضو انجمن
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

نوشته اصلی توسط
nasa_de
با تشکر از اطلاعات ارزشمندتون.
میشه در مورد بالا بردن رنک در گوگل هم توضیح بدید.
در این مورد بحث زیاد هست که ایشالا سرم خلوت تر بشه و امتحانات دانشگاه هم به خیر و خوشی تموم بشه یه آموزش نسبتا کامل میذارم... (از شنبه به مدت چهارده روز به طور مداوم امتحان دارم)
-
تعداد تشکر ها از srashedian به دلیل پست مفید
-
June 17th, 2010, 20:01
#10
عضو انجمن
پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما
منتظر پستتون هستم.
بنده هم از شنبه به مدت 10 روز .
-
تعداد تشکر ها از nasa_de به دلیل پست مفید