PDA

توجه ! این یک نسخه آرشیو شده میباشد و در این حالت شما عکسی را مشاهده نمیکنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : جلوگیری از ورود بوت های ناخواسته به سایت ما



srashedian
June 17th, 2010, 12:17
سلام...
این مطالب نوشته خودم هست... بنابراین ممکنه مشکلات و ضعف هایی داشته باشه... اگر موردی دیدید خوشحال میشم بهم بگید تا برطرفش کنم... :">


بوت یا اسپایدر چیست؟
در دنیای اینترنت ما با فعالیت نرم افزارهای هوشمند، عموما با دسترسی بالا، و البته نامرئی برمیخوریم که به Spider (عنکبوت) یا Bot (بوت، مخفف روبات) معروف هستن.
این نرم افزارها برنامه ریزی میشن تا کارهای متفاوتی رو به صورت هوشمند انجام بدن...
به عنوان مثال تا به حال شده که توی بعضی انجمن ها به یک سری کاربرهایی برمیخورید که فقط و فقط اخبار رو از سایت های مختلف بر میدارن و توی بخش اخبار انجمن پست میکنن؟؟؟ در حقیقت این به ظاهر کاربر ها وجود خارجی ندارند و اسپایدر هستن...
و یا حتما تا به حال متوجه شدید که سایت هایی مثل یاهو و گوگل کاربران خودشون رو بعد از مدت مشخصی به یکباره بیرون میندازن (Log out میکنن) [/URL]http://forums.bvs.ir/Smileys/BG_Smile/45.gif (http://forums.bvs.ir/Smileys/BG_Smile/45.gif)... این هم کار یک اسپایدر هست که به StackWatchDog معروفه (سگ نگهبان پشته)... این اسپایدر ها دائما مقدار حافظه موجود روی سرور رو بررسی میکنن و به محض پر شدن حافظه، برای جلوگیری از توقف کار سرور، تمام کاربران رو از سیستم خارج کرده و حافظه رو پاک سازی میکنن... http://forums.bvs.ir/Smileys/BG_Smile/6.gif (http://forums.bvs.ir/Smileys/BG_Smile/6.gif)
این که اسپایدرها این وسط چه کاری میکنن رو الان توضیح میدم.

نقش اسپایدر در موتورهای جستجو چیست؟
موتورهای جستجو مثل گوگل باید دائما تمام صفحات وب سایت های مختلف در سراسر اینترنت رو بررسی کنن و تمام اطلاعات داخل این صفحات رو برای خودشون ذخیره کنن (اصلا آبروی یه موتور جستجو در حد اوففففففففف وابسته به همین تعداد صفحات ذخیره شده اش هست http://forums.bvs.ir/Smileys/BG_Smile/4.gif (http://forums.bvs.ir/Smileys/BG_Smile/4.gif))
خوب یقینا قبول دارید که انجام چنین کاری توسط انسان بسیار سخت هست و یه جورایی احمقانه به نظر میرسه... پس چیکار کنیم؟؟؟ بله... تنها راهی که میمونه همین سربازان خستگی ناپذیر کوچولو هستن... اسپایدرها... نرم افزار هایی که همیشه و همه جا مراقب اوضا هستن.
هر موتور جستجو هم به تعدادی بوت یا اسپایدر مجهز هست که بی وقفه در حال بررسی سایت های مختلف هستن (البته با این وجود، عملیات به روز رسانی موتور جستجوگر بزرگی مثل گوگل به دلیل تعداد فوق العاده زیاد صفحاتی که باید ذخیره کنه چند هفته http://forums.bvs.ir/Smileys/BG_Smile/13.gif (http://forums.bvs.ir/Smileys/BG_Smile/13.gif) طول میکشه)
این اسپایدر ها به رهبری یه سری نرم افزار دیگه که به خزنده (Crawler) معروف هستن (که خودشون نوعی بت هستن)، به صفحات وب سر میزنن و اطلاعات داخل صفحات رو با خودشون میبرن و به کراولر تحویل میدن... (البته اسپایدرها، کد HTML صفحات رو برای کراولر میبرن، نه این قیافه ی ظاهریشو)
کراولر بعد از بررسی صفحات، اونارو به ایندکسر تحویل میده (که اون هم خودش یه نوع بوت هست) و ایندکسر این اطلاعات رو بسته بندی میکنه، برچسب میزنه، و ذخیره میکنه... در نهایت رتبه بند (Ranker) که این هم خوش یه نوع بوت هست با یک سری پارامترها و الگوریتمهایی (که محرمانه هست و کسی ازشون خبر نداره) صفحات رو رتبه بندی میکنه و به عنوان نتایج جستجو به امت نشون میده (بحث SEO یه مبحث تجربی و حدسی هست و کسی از الگوریتم رتبه بندی موتور های جستجو اطلاع نداره)

اسم چند تا از این اسپایدرها:

اسپایدر گوگل: googlebot
اسپایدر یاهو: Slurp
اسپایدر بینگ: Msnbot
اسپایدر آلتاویستا: Scooter
امیدوارم تونسته باشم بهتون کمک کنم... تا عنکبوت هارو بهتر بشناسید (کلاس زیست شناسی [URL="http://forums.bvs.ir/Smileys/BG_Smile/10_002.gif"]http://forums.bvs.ir/Smileys/BG_Smile/10_002.gif (http://forums.bvs.ir/Smileys/BG_Smile/10_002.gif))


حالا بریم سراغ عنکبوت کش... چیزی که جلوی اینارو میگیره...
برای اینکه ایم عنکبوت هارو کنترل کنیم که کجا برن، کجا نرن، فقط کافیه از یه فایل متنی ساده به نام "robots.txt" استفاده کنیم... فقط کافیه یه فایل متنی معمولی با این اسم بسازیم، توی فولدر اصلی هاستمون بذاریم (public_html) و با استفاده از متنی که داخل این فایل مینویسیم این روبوت هارو دقیق کنترل کنیم...
متن داخل این فایل به این شکل هست... برای مشخص کردن این که میخوایم کدوم بوت رو کنترل کنیم از عبارت user-agent استفاده میکنیم... و برای اینکه بهش بگیم کجاها نباید بره، از عبارت disallow استفاده میکنیم...
مثلا اگه بخوایم به بوت گوگل بگیم توی فولدر دانلودمون نگرده، فقط کافیه داخل اون فایل متنی اینو بنویسیم:






user-agent: googlebot
disallow: /download




به همین شکل میتونیم برای هر بوتی که دلمون خواست هر مسیری که دوست داشتیم رو ببندیم... فقط دقت کنید که جلوی هر user-agent فقط میتونید اسم یک بوت رو بنویسید... جلوی هر disallow هم فقط یه مسیر مشخص... اگه خواستیم محلی رو برای تمام بوت ها محدود کنیم میتونیم از * استفاده کنیم...
مثال:
من میخوام بوت گوکل وارد فولدری به نام سجاد نشه، بوت های یاهو و آلتاویستا وارد فولدر دانلود و فولدر آپلود من نشن، بوت جستجوگر بینگ کلا سایت من رو ایندکس نکنه (بیخیال سایت من بشه) بقیه بت ها هم وارد فولدری به نام private نشن... محتوای فایل robots.txt من این میشه:
(متن داخل بلوک کد زیر اسکرول میشه، دقت کنید باید برید پایین تا کامل ببینیدش)




user-agent: googlebot

disallow: sajad




user-agent: slurp

user-agent: Scooter

disallow: /download

disallow: /upload




user-agent: msnbot

disallow: / l




user-agent: * l

disallow: private





اگه سوالی بود حتما بپرسید، تا جاییکه بلد باشم حتما جواب میدم... ;)


منبع: انجمن بیتکده (http://www.bitkadeh.net)

irantrack
June 17th, 2010, 12:26
فیلطرینگ هم بوت داره . اسمشو نمیدونی ؟

srashedian
June 17th, 2010, 13:37
فیلطرینگ هم بوت داره . اسمشو نمیدونی ؟

سیستم فی^لتر%ینگ بر پایه کراولرهای پورت اسکنر طراحی شده... یعنی اون طوری که شما فکر میکنید یه بوت نمیاد سایت شما رو بگرده بعد هم بیاد ببندتش... عملکرد این سیستم بر این اساس هست که پورت های وروردی و خروجی اصلی اطلاعات شبکه اینترنت رو که در اختیار اداره زیرساخت هست توسط یه سری بوت های مخصوص از داخل دائما بررسی میکنه و اکه یه موارد خاصی رو که برای منطق اون کراولر طراحی شده پیدا کرد، اجازه عبور اطلاعات رو از گذرگاه اصلی اینترنت نمیده و به جای اطلاعاتی که شما درخواست کرده بودید یه سری اطلاعات دیگه رو جایگزین میکنه (همون صفحه معروف صورتی رنگی که تا حالا صدبار دیدید)... در حقیقت کار سیستم فیل^تر^ینگ تا حدودی مشابه کار دیوار آتش (فایروال) هست و اصلا صدمه ای به سایت یا دامین شما نمیزنه... فقط سر راه شاهراه اصلی اینترنت ایران وایساده هر اطلاعاتی رو که نامناسب تشخیص داد نمیذاره رد بشه...
بنابراین امکان جلوگیری از بسته شدن سایت با استفاده از این آموزش وجود نداره...

سلام عیلکم و رحمت الله
June 17th, 2010, 15:07
مرسی عالی بود

irantrack
June 17th, 2010, 15:28
نمیشه برای اطلاعات یه جور کد گذاشت که نتونن بخوننش ؟ مثل ssl البته یه چیزه دیگه که مجاز باشه (مشابه)
یا مثلاً سایتهای میزبانی شده داخل که الان بسته نمیشن بخوان ببندنشون باید چیکار کنن ؟

nasa_de
June 17th, 2010, 16:35
با Sitemap درست کردمن میشه صفحات رو زودتر ایندکس کرد.
من برای فروشگاه Sitemap درست کردم و حدود 40 تا اینکس داشتم با توجه به صفحات کم خیلی خوب بود اما
برای انجمن هم که با SMF هست هم Sitemap درست کردم و دادم به گوگل اما به وجود صفحات و مطالب زیاد تر از فروشگاه صفحه ای ایندکس نشده.
چطور میتونم اینکس های بیشتری داشته باشم.

srashedian
June 17th, 2010, 18:43
نمیشه برای اطلاعات یه جور کد گذاشت که نتونن بخوننش ؟ مثل ssl البته یه چیزه دیگه که مجاز باشه (مشابه)
یا مثلاً سایتهای میزبانی شده داخل که الان بسته نمیشن بخوان ببندنشون باید چیکار کنن ؟

یه نفر دیگه هم گفته بود، در حال حاضر هیچ راهی برای جلوگیری از فی^لت^رین^گ وجود نداره... وقتی هم که یه نسخه ی سکیور شده از صفحه رو به صورت https میذارید، باز هم صفحه اصلی بسته میشه، فقط همون پروتوکل https هست که باز میمونه... و در حال حاضر هم تنها راه برای اینکار هست که معقول به نظر میرسه (به عنوان مثال میتونید به جای متن نوشتاری از عکس و فیلم و فایلهای فلش استفاده کنید، چون در حال حاضر سیستم ف^یل^طر^ین^گ قابلیت تحلیل اطلاعات داخل عکس ها و فایلهای فلش (به طور کلی فایلهای مالتی مدیا) رو نداره... اما خوب مسلما سایت شما رو به شدت سنگین میکنه و باعث آزار کاربران میشه)... ضمنا هر راهی که انتخاب کنید، کاملا غیر قانونی هست و درصورت پیداکردن چنین صفحه هایی حق پیگرد قانونی دارن...


با Sitemap درست کردمن میشه صفحات رو زودتر ایندکس کرد.
من برای فروشگاه Sitemap درست کردم و حدود 40 تا اینکس داشتم با توجه به صفحات کم خیلی خوب بود اما
برای انجمن هم که با SMF هست هم Sitemap درست کردم و دادم به گوگل اما به وجود صفحات و مطالب زیاد تر از فروشگاه صفحه ای ایندکس نشده.
چطور میتونم اینکس های بیشتری داشته باشم.

ایندکس کردن موتورهای جستجوگر از جمله گوگل توسط کراولر داخلی اونا کنترل میشه و ربطی به Sitemap نداره... سایت مپ فقط کمک کنه تا صفحات بهتر ایندکس بشن، مثلا فرض کنید یه مامور بیمه قرار هست بیاد از خانواده شما بازدید کنه و انارو بیمه کنه... سایت مپ در حکم یک لیست کامل از اعضای خانواده با مشخصاتشون هست... این لیست به مامور بیمه کمک میکنه تا خیلی سریعتر و دقیقتر اعضای خانواده تون رو بیمه کنه، اما تا وقتی این مسئول بیمه خودش نیاد خونه شما، اون لیست به چه دردی میخوره؟ سایت مپ هم زمانی کاربرد داره که کراولر به اسپایدر فرمان دریافت اطلاعات از سایت شمارو بده، وقتی اسپایدر گوگل به سایت شما اومد، اونوقت سایت مپ بهش کمک میکنه تا بتونه تمام قسمت های مختلف سایت شما رو فهرست کنه و مطالبش رو منتقل کنه...
تنها راه برای تشویق اسپایدر گوگل به اینکه سریعتر به سایت شما سربزنه اینه که از مکان های بیشتری به سایت شما لینک بشه، یعنی لینک های منتهی به سایت شما بیشتر بشه... و این لینک ها هم زمانی ارزش پیدا میکنن و از نظر اسپایدر موتور جستجو معتبر هستن که توی یه سایت با رنک بالا باشن... به عنوان مثال اگر شما همینجوری الکی یه سایت ایجاد کنید و به خودتون لینک بدید، این لینکها هیچ ارزشی برای گوگل نخواهند داشت...

nasa_de
June 17th, 2010, 19:10
با تشکر از اطلاعات ارزشمندتون.
میشه در مورد بالا بردن رنک در گوگل هم توضیح بدید.

srashedian
June 17th, 2010, 19:28
با تشکر از اطلاعات ارزشمندتون.
میشه در مورد بالا بردن رنک در گوگل هم توضیح بدید.

در این مورد بحث زیاد هست که ایشالا سرم خلوت تر بشه و امتحانات دانشگاه هم به خیر و خوشی تموم بشه یه آموزش نسبتا کامل میذارم... (از شنبه به مدت چهارده روز به طور مداوم امتحان دارم)

nasa_de
June 17th, 2010, 20:01
منتظر پستتون هستم.
بنده هم از شنبه به مدت 10 روز .

nasa_de
June 24th, 2010, 03:10
پس از گذشت حدود 10-12 روز از عمر انجمن فقط یک موضوع در گوگل ایندکس شده. آیا این طبیعی هست موضوعات داخل فروم 300 موضوع هست.

aslani606
October 2nd, 2010, 22:01
سلام

من میخواستم این روبوتهای یاهو کمتر به بیاند سایت من باید چکار کنم
مثلا ماه گذشته حدود 13 گیگ از پهنای باند سایت من را مصرف کردند
سایت گوگل یک بخش در قسمت وبمستر داره که میشه کنترل کرد آیا یاهو هم داره؟
خیلی ممنون میشم یکی راهنمایی کنه

تشکر

aslani606
October 4th, 2010, 21:23
یعنی هیچ راهی نیست؟!

rahman_jalayer
April 10th, 2011, 17:54
مرسی خیلی عالی بود.
من یه ارئه در مورد اسپایدرها دارم .اگه می شه یه منبع کامل فارسی(زبانم خوب نیست:">) در این مورد معرفی کنید.ممنون.

Rezash
April 10th, 2011, 18:15
سلام

من میخواستم این روبوتهای یاهو کمتر به بیاند سایت من باید چکار کنم
مثلا ماه گذشته حدود 13 گیگ از پهنای باند سایت من را مصرف کردند
سایت گوگل یک بخش در قسمت وبمستر داره که میشه کنترل کرد آیا یاهو هم داره؟
خیلی ممنون میشم یکی راهنمایی کنه

تشکر

داخل robots.txt با Crawl-delay ميشه تنظيم كرد.اگر خيلي مشكل ساز هست Crawl-delay رو برابر 10 بذاريد براي ياهو.
ضمنا مشكلي هست كه فقط موتورهاي استاندارد و معتبر به محتويات فايل robots.txt اهميت ميدند ! وخيلي از ربات ها خودشون رو يا معرفي نميكنند ( خودشون رو به عنوان كاربر واقعي با مشخصات مرورگري مثل ff معرفي ميكنند) يا خودشون رو به نام ربات ياهو يا گوگل معرفي ميكنند و به كار خودشون ميپردازند ! (معمولا اهداف اسپم !). كه در اين مورد cms شما بايد تا حدودي جلوي درخواست هاي بالا يا جعلي رو شناسايي و مسدود كنه.

free-downloadha.com
July 19th, 2014, 22:11
با احترام وخسته نباشید

من انجمنم با خاطر این اسپایدر ها از سرور منابع بیش از حد استفاده میکنه راهش چیه

- - - Updated - - -

هیچکی نیست منو راهنمایی کنه