PDA

توجه ! این یک نسخه آرشیو شده میباشد و در این حالت شما عکسی را مشاهده نمیکنید برای مشاهده کامل متن و عکسها بر روی لینک مقابل کلیک کنید : سایت هایی که زیره کلود فلیر هستند رو چطوری میشه داده هاشون رو استخراج کرد ؟ (PHP Web Scraping)



nevergotme
April 20th, 2019, 19:33
سلام ، من نیاز دارم داده هایی از چند وبسایت خاص رو استخراج کنم با php , اما با توجه به اینکه بعضی از وب مسترها گزینه I'm Under Attack رو برای بعضی کشورها فعال کردند، من به هیچ وجه نتوستم داده ها رو بگیرم ،file_get_contents که هیچ دردی دوا نمیکنه ، از طریق curl هم نشد,


- به طور مثال سایت subscene.com من با هر دو روش بالا امتحان کردم که در روش curl یک پیام میاد که نوشته Checking Your Browser و درنهایت خطا میده و به سایت بازگشت داده نمیشه : Not Found The requested URL /cdn-cgi/l/chk_jschl was not found on this server.

یا خلاصه وار بخوام بگم، با توجه به مشکلات بالا این وبسایت از چه روشی برای استخراج داده از ساب سین استفاده کرده طوری که کودفلیر گیر نداده یعنی Ip ش جر وایت لیست بوده ؟ : https://subf2m.co/

Rezash
April 20th, 2019, 21:30
سلام ، من نیاز دارم داده هایی از چند وبسایت خاص رو استخراج کنم با php , اما با توجه به اینکه بعضی از وب مسترها گزینه I'm Under Attack رو برای بعضی کشورها فعال کردند، من به هیچ وجه نتوستم داده ها رو بگیرم ،file_get_contents که هیچ دردی دوا نمیکنه ، از طریق curl هم نشد,


- به طور مثال سایت subscene.com من با هر دو روش بالا امتحان کردم که در روش curl یک پیام میاد که نوشته Checking Your Browser و درنهایت خطا میده و به سایت بازگشت داده نمیشه : Not Found The requested URL /cdn-cgi/l/chk_jschl was not found on this server.

یا خلاصه وار بخوام بگم، با توجه به مشکلات بالا این وبسایت از چه روشی برای استخراج داده از ساب سین استفاده کرده طوری که کودفلیر گیر نداده یعنی Ip ش جر وایت لیست بوده ؟ : https://subf2m.co/

۱. برای bypass کردن کلودفلیر کتابخونه هایی هست مثلا :
https://github.com/yanikore/PHP-v8js-CloudFlare-bypass
اما اینکه چقدر جوابگو هستند باید تست بشه

۲. از ای پی های دیگه ای استفاده کنید و سعی کنید درخواست دقیقا شبیه سازی شده مرورگر و شرایط واقعی باشه ( هدر ها )
۳. سعی کنید روی اون ای پی با همون شرایط شبیه سازی شده یکبار وریفای کنید و تا مدتی ای پی رو بهش گیر نمیده
۴. دیتا رو کش کنید و هربار دیتا رو از سایت مقصد درخواست ندید تا تعداد درخواست ها بیاد پایین

Reza G
April 20th, 2019, 22:37
سلام ، من نیاز دارم داده هایی از چند وبسایت خاص رو استخراج کنم با php , اما با توجه به اینکه بعضی از وب مسترها گزینه I'm Under Attack رو برای بعضی کشورها فعال کردند، من به هیچ وجه نتوستم داده ها رو بگیرم ،file_get_contents که هیچ دردی دوا نمیکنه ، از طریق curl هم نشد,
- به طور مثال سایت subscene.com من با هر دو روش بالا امتحان کردم که در روش curl یک پیام میاد که نوشته Checking Your Browser و درنهایت خطا میده و به سایت بازگشت داده نمیشه : Not Found The requested URL /cdn-cgi/l/chk_jschl was not found on this server.
یا خلاصه وار بخوام بگم، با توجه به مشکلات بالا این وبسایت از چه روشی برای استخراج داده از ساب سین استفاده کرده طوری که کودفلیر گیر نداده یعنی Ip ش جر وایت لیست بوده ؟ : https://subf2m.co/

کتابخانه‌ای توسط یکی از کاربران همین انجمن (آقای طوسی) آماده شده. میتونید تهیه کنید.

seotools
April 23rd, 2019, 10:04
با مرورگرهای جاوا اسکریپتی هم میتونین راحت هر چیزی رو بخونین کلا با سوکت نویسی

Rezash
April 23rd, 2019, 11:57
با مرورگرهای جاوا اسکریپتی هم میتونین راحت هر چیزی رو بخونین کلا با سوکت نویسی

بله دقیقا همینطوره.
nevergotme : اگر با js اشنایی دارید مثلا با phantomjs و ست کردن agent مناسب خیلی راحت تر میشه اینکار و انجام داد.

seotools
April 23rd, 2019, 13:28
بله دقیقا همینطوره.
nevergotme : اگر با js اشنایی دارید مثلا با phantomjs و ست کردن agent مناسب خیلی راحت تر میشه اینکار و انجام داد.

بله یکی دیگه هم puppeteer
هست
با پایتون هم میشه
کلا راه زیاد داره بستگی به دانش برنامه نویسی اون برنامه نویس داره

nevergotme
April 23rd, 2019, 20:24
بله دقیقا همینطوره.
nevergotme : اگر با js اشنایی دارید مثلا با phantomjs و ست کردن agent مناسب خیلی راحت تر میشه اینکار و انجام داد.


بله یکی دیگه هم puppeteer
هست

با پایتون هم میشه
کلا راه زیاد داره بستگی به دانش برنامه نویسی اون برنامه نویس داره

ممنون ، ولی من میخوام با php کار کنم آیا چیزی مشابه اینا هست برای پی اچ پی؟

ULTRAWEB
April 23rd, 2019, 21:28
شما باید بتونین الگوریتم شناسایی رو بای پس کنین
که با پی اچ پی نمونه ایش اینه:https://github.com/KyranRana/cloudflare-bypass
بعدشم که دیگه مشکلی وجود نداره.....