یکی از اقدامات معمولی که برای جلوگیری از دسترسی Bot ها و Spider ها انجام میشه استفاده از فایل Robots.txt و نوشتن دستورات مربوطه در داخل آن هست. دستور نویسی اش هم خیلی ساده است و تو وب میتونید آموزش اش رو پیدا کنید. ضمن اینکه به کمک این سایت می توانید دستورات را به راحتی تولید کرده، استفاده نمایید. این فایل باید در Root Directory وبسایت شما قرار بگیرد.
همچنین بهتر است از HTML TAG به نام robots نیز در header فایل های HTML وبسایت خود بهره بگیرید.
مورد بعدی تنظیمات فایل htaccess. هستش که برای درک قضیه بهتره این لینک رو مطالعه کنید : How to block bad bots - how to protect web page content part 2
لینک های مفید دیگری که پیشنهاد می کنم حتما بخوانید:
Meta Robots Tag 101: Blocking Spiders, Cached Pages & More
Block Bots and Spiders
Clockwatchers Web Hosting - robots.txt Tutorial - Block Bad Bots
Preventing Website Rippers & Email harvesters from copying website
How to Stop Competitors Copying Your Links
موفق باشید