صفحه 1 از 2 12 آخرینآخرین
نمایش نتایج: از شماره 1 تا 10 , از مجموع 16

موضوع: جلوگیری از ورود بوت های ناخواسته به سایت ما

  1. #1
    عضو انجمن srashedian آواتار ها
    تاریخ عضویت
    May 2010
    نوشته ها
    158
    تشکر تشکر کرده 
    105
    تشکر تشکر شده 
    335
    تشکر شده در
    197 پست

    پیش فرض جلوگیری از ورود بوت های ناخواسته به سایت ما

    سلام...
    این مطالب نوشته خودم هست... بنابراین ممکنه مشکلات و ضعف هایی داشته باشه... اگر موردی دیدید خوشحال میشم بهم بگید تا برطرفش کنم...


    بوت یا اسپایدر چیست؟
    در دنیای اینترنت ما با فعالیت نرم افزارهای هوشمند، عموما با دسترسی بالا، و البته نامرئی برمیخوریم که به Spider (عنکبوت) یا Bot (بوت، مخفف روبات) معروف هستن.
    این نرم افزارها برنامه ریزی میشن تا کارهای متفاوتی رو به صورت هوشمند انجام بدن...
    به عنوان مثال تا به حال شده که توی بعضی انجمن ها به یک سری کاربرهایی برمیخورید که فقط و فقط اخبار رو از سایت های مختلف بر میدارن و توی بخش اخبار انجمن پست میکنن؟؟؟ در حقیقت این به ظاهر کاربر ها وجود خارجی ندارند و اسپایدر هستن...
    و یا حتما تا به حال متوجه شدید که سایت هایی مثل یاهو و گوگل کاربران خودشون رو بعد از مدت مشخصی به یکباره بیرون میندازن (Log out میکنن) ... این هم کار یک اسپایدر هست که به StackWatchDog معروفه (سگ نگهبان پشته)... این اسپایدر ها دائما مقدار حافظه موجود روی سرور رو بررسی میکنن و به محض پر شدن حافظه، برای جلوگیری از توقف کار سرور، تمام کاربران رو از سیستم خارج کرده و حافظه رو پاک سازی میکنن...
    این که اسپایدرها این وسط چه کاری میکنن رو الان توضیح میدم.

    نقش اسپایدر در موتورهای جستجو چیست؟
    موتورهای جستجو مثل گوگل باید دائما تمام صفحات وب سایت های مختلف در سراسر اینترنت رو بررسی کنن و تمام اطلاعات داخل این صفحات رو برای خودشون ذخیره کنن (اصلا آبروی یه موتور جستجو در حد اوففففففففف وابسته به همین تعداد صفحات ذخیره شده اش هست )
    خوب یقینا قبول دارید که انجام چنین کاری توسط انسان بسیار سخت هست و یه جورایی احمقانه به نظر میرسه... پس چیکار کنیم؟؟؟ بله... تنها راهی که میمونه همین سربازان خستگی ناپذیر کوچولو هستن... اسپایدرها... نرم افزار هایی که همیشه و همه جا مراقب اوضا هستن.
    هر موتور جستجو هم به تعدادی بوت یا اسپایدر مجهز هست که بی وقفه در حال بررسی سایت های مختلف هستن (البته با این وجود، عملیات به روز رسانی موتور جستجوگر بزرگی مثل گوگل به دلیل تعداد فوق العاده زیاد صفحاتی که باید ذخیره کنه چند هفته طول میکشه)
    این اسپایدر ها به رهبری یه سری نرم افزار دیگه که به خزنده (Crawler) معروف هستن (که خودشون نوعی بت هستن)، به صفحات وب سر میزنن و اطلاعات داخل صفحات رو با خودشون میبرن و به کراولر تحویل میدن... (البته اسپایدرها، کد HTML صفحات رو برای کراولر میبرن، نه این قیافه ی ظاهریشو)
    کراولر بعد از بررسی صفحات، اونارو به ایندکسر تحویل میده (که اون هم خودش یه نوع بوت هست) و ایندکسر این اطلاعات رو بسته بندی میکنه، برچسب میزنه، و ذخیره میکنه... در نهایت رتبه بند (Ranker) که این هم خوش یه نوع بوت هست با یک سری پارامترها و الگوریتمهایی (که محرمانه هست و کسی ازشون خبر نداره) صفحات رو رتبه بندی میکنه و به عنوان نتایج جستجو به امت نشون میده (بحث SEO یه مبحث تجربی و حدسی هست و کسی از الگوریتم رتبه بندی موتور های جستجو اطلاع نداره)

    اسم چند تا از این اسپایدرها:

    اسپایدر گوگل: googlebot
    اسپایدر یاهو: Slurp
    اسپایدر بینگ: Msnbot
    اسپایدر آلتاویستا: Scooter
    امیدوارم تونسته باشم بهتون کمک کنم... تا عنکبوت هارو بهتر بشناسید (کلاس زیست شناسی )


    حالا بریم سراغ عنکبوت کش... چیزی که جلوی اینارو میگیره...
    برای اینکه ایم عنکبوت هارو کنترل کنیم که کجا برن، کجا نرن، فقط کافیه از یه فایل متنی ساده به نام "robots.txt" استفاده کنیم... فقط کافیه یه فایل متنی معمولی با این اسم بسازیم، توی فولدر اصلی هاستمون بذاریم (public_html) و با استفاده از متنی که داخل این فایل مینویسیم این روبوت هارو دقیق کنترل کنیم...
    متن داخل این فایل به این شکل هست... برای مشخص کردن این که میخوایم کدوم بوت رو کنترل کنیم از عبارت user-agent استفاده میکنیم... و برای اینکه بهش بگیم کجاها نباید بره، از عبارت disallow استفاده میکنیم...
    مثلا اگه بخوایم به بوت گوگل بگیم توی فولدر دانلودمون نگرده، فقط کافیه داخل اون فایل متنی اینو بنویسیم:


    کد:
    user-agent: googlebot disallow: /download


    به همین شکل میتونیم برای هر بوتی که دلمون خواست هر مسیری که دوست داشتیم رو ببندیم... فقط دقت کنید که جلوی هر user-agent فقط میتونید اسم یک بوت رو بنویسید... جلوی هر disallow هم فقط یه مسیر مشخص... اگه خواستیم محلی رو برای تمام بوت ها محدود کنیم میتونیم از * استفاده کنیم...
    مثال:
    من میخوام بوت گوکل وارد فولدری به نام سجاد نشه، بوت های یاهو و آلتاویستا وارد فولدر دانلود و فولدر آپلود من نشن، بوت جستجوگر بینگ کلا سایت من رو ایندکس نکنه (بیخیال سایت من بشه) بقیه بت ها هم وارد فولدری به نام private نشن... محتوای فایل robots.txt من این میشه:
    (متن داخل بلوک کد زیر اسکرول میشه، دقت کنید باید برید پایین تا کامل ببینیدش)

    کد:
     
    
    user-agent: googlebot
    disallow: sajad
    user-agent: slurp
    user-agent: Scooter
    disallow: /download
    disallow: /upload
    user-agent: msnbot
    disallow: / l
    user-agent: * l
    disallow: private

    اگه سوالی بود حتما بپرسید، تا جاییکه بلد باشم حتما جواب میدم...


    منبع: انجمن بیتکده
    ویرایش توسط srashedian : June 17th, 2010 در ساعت 12:21

  2. تعداد تشکر ها ازsrashedian به دلیل پست مفید


  3. # ADS




     

  4. #2
    عضو جدید irantrack آواتار ها
    تاریخ عضویت
    Mar 2009
    نوشته ها
    33
    تشکر تشکر کرده 
    2
    تشکر تشکر شده 
    13
    تشکر شده در
    12 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    فیلطرینگ هم بوت داره . اسمشو نمیدونی ؟

  5. تعداد تشکر ها از irantrack به دلیل پست مفید


  6. #3
    عضو انجمن srashedian آواتار ها
    تاریخ عضویت
    May 2010
    نوشته ها
    158
    تشکر تشکر کرده 
    105
    تشکر تشکر شده 
    335
    تشکر شده در
    197 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    نقل قول نوشته اصلی توسط irantrack نمایش پست ها
    فیلطرینگ هم بوت داره . اسمشو نمیدونی ؟
    سیستم فی^لتر%ینگ بر پایه کراولرهای پورت اسکنر طراحی شده... یعنی اون طوری که شما فکر میکنید یه بوت نمیاد سایت شما رو بگرده بعد هم بیاد ببندتش... عملکرد این سیستم بر این اساس هست که پورت های وروردی و خروجی اصلی اطلاعات شبکه اینترنت رو که در اختیار اداره زیرساخت هست توسط یه سری بوت های مخصوص از داخل دائما بررسی میکنه و اکه یه موارد خاصی رو که برای منطق اون کراولر طراحی شده پیدا کرد، اجازه عبور اطلاعات رو از گذرگاه اصلی اینترنت نمیده و به جای اطلاعاتی که شما درخواست کرده بودید یه سری اطلاعات دیگه رو جایگزین میکنه (همون صفحه معروف صورتی رنگی که تا حالا صدبار دیدید)... در حقیقت کار سیستم فیل^تر^ینگ تا حدودی مشابه کار دیوار آتش (فایروال) هست و اصلا صدمه ای به سایت یا دامین شما نمیزنه... فقط سر راه شاهراه اصلی اینترنت ایران وایساده هر اطلاعاتی رو که نامناسب تشخیص داد نمیذاره رد بشه...
    بنابراین امکان جلوگیری از بسته شدن سایت با استفاده از این آموزش وجود نداره...

  7. تعداد تشکر ها ازsrashedian به دلیل پست مفید


  8. #4
    عضو انجمن سلام عیلکم و رحمت الله آواتار ها
    تاریخ عضویت
    May 2010
    نوشته ها
    210
    تشکر تشکر کرده 
    417
    تشکر تشکر شده 
    244
    تشکر شده در
    181 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    مرسی عالی بود

  9. تعداد تشکر ها از سلام عیلکم و رحمت الله به دلیل پست مفید


  10. #5
    عضو جدید irantrack آواتار ها
    تاریخ عضویت
    Mar 2009
    نوشته ها
    33
    تشکر تشکر کرده 
    2
    تشکر تشکر شده 
    13
    تشکر شده در
    12 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    نمیشه برای اطلاعات یه جور کد گذاشت که نتونن بخوننش ؟ مثل ssl البته یه چیزه دیگه که مجاز باشه (مشابه)
    یا مثلاً سایتهای میزبانی شده داخل که الان بسته نمیشن بخوان ببندنشون باید چیکار کنن ؟

  11. تعداد تشکر ها از irantrack به دلیل پست مفید


  12. #6
    عضو انجمن nasa_de آواتار ها
    تاریخ عضویت
    May 2010
    نوشته ها
    425
    تشکر تشکر کرده 
    987
    تشکر تشکر شده 
    872
    تشکر شده در
    632 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    با Sitemap درست کردمن میشه صفحات رو زودتر ایندکس کرد.
    من برای فروشگاه Sitemap درست کردم و حدود 40 تا اینکس داشتم با توجه به صفحات کم خیلی خوب بود اما
    برای انجمن هم که با SMF هست هم Sitemap درست کردم و دادم به گوگل اما به وجود صفحات و مطالب زیاد تر از فروشگاه صفحه ای ایندکس نشده.
    چطور میتونم اینکس های بیشتری داشته باشم.

  13. تعداد تشکر ها از nasa_de به دلیل پست مفید


  14. #7
    عضو انجمن srashedian آواتار ها
    تاریخ عضویت
    May 2010
    نوشته ها
    158
    تشکر تشکر کرده 
    105
    تشکر تشکر شده 
    335
    تشکر شده در
    197 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    نقل قول نوشته اصلی توسط irantrack نمایش پست ها
    نمیشه برای اطلاعات یه جور کد گذاشت که نتونن بخوننش ؟ مثل ssl البته یه چیزه دیگه که مجاز باشه (مشابه)
    یا مثلاً سایتهای میزبانی شده داخل که الان بسته نمیشن بخوان ببندنشون باید چیکار کنن ؟
    یه نفر دیگه هم گفته بود، در حال حاضر هیچ راهی برای جلوگیری از فی^لت^رین^گ وجود نداره... وقتی هم که یه نسخه ی سکیور شده از صفحه رو به صورت https میذارید، باز هم صفحه اصلی بسته میشه، فقط همون پروتوکل https هست که باز میمونه... و در حال حاضر هم تنها راه برای اینکار هست که معقول به نظر میرسه (به عنوان مثال میتونید به جای متن نوشتاری از عکس و فیلم و فایلهای فلش استفاده کنید، چون در حال حاضر سیستم ف^یل^طر^ین^گ قابلیت تحلیل اطلاعات داخل عکس ها و فایلهای فلش (به طور کلی فایلهای مالتی مدیا) رو نداره... اما خوب مسلما سایت شما رو به شدت سنگین میکنه و باعث آزار کاربران میشه)... ضمنا هر راهی که انتخاب کنید، کاملا غیر قانونی هست و درصورت پیداکردن چنین صفحه هایی حق پیگرد قانونی دارن...

    نقل قول نوشته اصلی توسط nasa_de نمایش پست ها
    با Sitemap درست کردمن میشه صفحات رو زودتر ایندکس کرد.
    من برای فروشگاه Sitemap درست کردم و حدود 40 تا اینکس داشتم با توجه به صفحات کم خیلی خوب بود اما
    برای انجمن هم که با SMF هست هم Sitemap درست کردم و دادم به گوگل اما به وجود صفحات و مطالب زیاد تر از فروشگاه صفحه ای ایندکس نشده.
    چطور میتونم اینکس های بیشتری داشته باشم.
    ایندکس کردن موتورهای جستجوگر از جمله گوگل توسط کراولر داخلی اونا کنترل میشه و ربطی به Sitemap نداره... سایت مپ فقط کمک کنه تا صفحات بهتر ایندکس بشن، مثلا فرض کنید یه مامور بیمه قرار هست بیاد از خانواده شما بازدید کنه و انارو بیمه کنه... سایت مپ در حکم یک لیست کامل از اعضای خانواده با مشخصاتشون هست... این لیست به مامور بیمه کمک میکنه تا خیلی سریعتر و دقیقتر اعضای خانواده تون رو بیمه کنه، اما تا وقتی این مسئول بیمه خودش نیاد خونه شما، اون لیست به چه دردی میخوره؟ سایت مپ هم زمانی کاربرد داره که کراولر به اسپایدر فرمان دریافت اطلاعات از سایت شمارو بده، وقتی اسپایدر گوگل به سایت شما اومد، اونوقت سایت مپ بهش کمک میکنه تا بتونه تمام قسمت های مختلف سایت شما رو فهرست کنه و مطالبش رو منتقل کنه...
    تنها راه برای تشویق اسپایدر گوگل به اینکه سریعتر به سایت شما سربزنه اینه که از مکان های بیشتری به سایت شما لینک بشه، یعنی لینک های منتهی به سایت شما بیشتر بشه... و این لینک ها هم زمانی ارزش پیدا میکنن و از نظر اسپایدر موتور جستجو معتبر هستن که توی یه سایت با رنک بالا باشن... به عنوان مثال اگر شما همینجوری الکی یه سایت ایجاد کنید و به خودتون لینک بدید، این لینکها هیچ ارزشی برای گوگل نخواهند داشت...

  15. تعداد تشکر ها ازsrashedian به دلیل پست مفید


  16. #8
    عضو انجمن nasa_de آواتار ها
    تاریخ عضویت
    May 2010
    نوشته ها
    425
    تشکر تشکر کرده 
    987
    تشکر تشکر شده 
    872
    تشکر شده در
    632 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    با تشکر از اطلاعات ارزشمندتون.
    میشه در مورد بالا بردن رنک در گوگل هم توضیح بدید.

  17. تعداد تشکر ها از nasa_de به دلیل پست مفید


  18. #9
    عضو انجمن srashedian آواتار ها
    تاریخ عضویت
    May 2010
    نوشته ها
    158
    تشکر تشکر کرده 
    105
    تشکر تشکر شده 
    335
    تشکر شده در
    197 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    نقل قول نوشته اصلی توسط nasa_de نمایش پست ها
    با تشکر از اطلاعات ارزشمندتون.
    میشه در مورد بالا بردن رنک در گوگل هم توضیح بدید.
    در این مورد بحث زیاد هست که ایشالا سرم خلوت تر بشه و امتحانات دانشگاه هم به خیر و خوشی تموم بشه یه آموزش نسبتا کامل میذارم... (از شنبه به مدت چهارده روز به طور مداوم امتحان دارم)

  19. تعداد تشکر ها از srashedian به دلیل پست مفید


  20. #10
    عضو انجمن nasa_de آواتار ها
    تاریخ عضویت
    May 2010
    نوشته ها
    425
    تشکر تشکر کرده 
    987
    تشکر تشکر شده 
    872
    تشکر شده در
    632 پست

    پیش فرض پاسخ : جلوگیری از ورود بوت های ناخواسته به سایت ما

    منتظر پستتون هستم.
    بنده هم از شنبه به مدت 10 روز .

  21. تعداد تشکر ها از nasa_de به دلیل پست مفید


صفحه 1 از 2 12 آخرینآخرین

اطلاعات موضوع

کاربرانی که در حال مشاهده این موضوع هستند

در حال حاضر 1 کاربر در حال مشاهده این موضوع است. (0 کاربران و 1 مهمان ها)

موضوعات مشابه

  1. پاسخ ها: 1
    آخرين نوشته: August 27th, 2017, 15:04
  2. درخواست سرور مجازی _ ریموت دستکتاپ برای سایت فیلم
    توسط irboy3 در انجمن درخواست سرور مجازی
    پاسخ ها: 14
    آخرين نوشته: December 11th, 2016, 20:38
  3. پایین آوردن کیفیت ریموت دستکتاپ کانکشن
    توسط i3l4ck در انجمن سوالات و مشکلات
    پاسخ ها: 5
    آخرين نوشته: April 19th, 2015, 02:23
  4. به دنبال کار هستم بصورت ریموت پشتیبانی سایت هاستینگ
    توسط saeidm در انجمن به دنبال کار هستم
    پاسخ ها: 17
    آخرين نوشته: July 5th, 2014, 17:46
  5. پاسخ ها: 5
    آخرين نوشته: September 16th, 2011, 12:36

کلمات کلیدی این موضوع

مجوز های ارسال و ویرایش

  • شما نمیتوانید موضوع جدیدی ارسال کنید
  • شما امکان ارسال پاسخ را ندارید
  • شما نمیتوانید فایل پیوست کنید.
  • شما نمیتوانید پست های خود را ویرایش کنید
  •