یکی از کتابخانه های معروف پایتون در خواندن و استخراج اطلاعات مفید از صفحات وب ، کتابخانه Scrapy است. Scrapy یک زیرساخت برنامه کاربردی برای crawler وب سایت‌ها و استخراج dataهای مختلف با هدف data mining، Information processingو… است.

برخی از ویژگی های scrapy برای استخراج متون و جمع آوری اطلاعات، مناسب:

1- یک کتابخانه کامل برای Crawling است و قابلیت دنبال کردن لینک های موجود در هر صفحه دارد.

2- برای پردازش موازی و همزمان صفحات مختلف و ایجاد (pipeline) امکانات مناسب و ساده ای برای افزایش سرعت دارد.

3- کار با آن بسیار ساده است و شما می توانید در چند خط ، یک خزنده وب کامل بسازید.