টুকরা টুকরা করুন পাইথন 100% লিখিত হয় এবং পাতা পর্যবেক্ষণ, ওয়েব সার্চ ইঞ্জিন এবং এমনকি কোড পরীক্ষার জন্য, সহজ ডেটা মাইনিং জন্য ব্যবহার করা যেতে পারে.
Scrapy শব্দের প্রকৃত অর্থ একটি সার্চ ইঞ্জিন নয়, কিন্তু এটা (ইন্ডেক্স অংশ ছাড়া) এক মত কাজ করে. যাইহোক Scrapy আপনার সার্চ ইঞ্জিন যুক্তিবিজ্ঞান নির্মাণ করার জন্য একটি বড় হাতিয়ার হতে পারে.
এই কাঠামো প্রকৃত ক্ষমতা Scrapy উপর জেনেরিক বা ডেডিকেটেড অনুসন্ধান মাকড়সা (ক্রলার) নির্মাণের জন্য তাদের একটি সিস্টেম হচ্ছে, এর মূলে এর বহুমুখিতা নির্ভর.
এই ডকুমেন্টেশন এবং উপলব্ধ টিউটোরিয়াল উপর একটি দ্রুত বর্ণন সঙ্গে, অ প্রযুক্তিগত ব্যবহারকারীদের জন্য খুবই জটিল শব্দ হতে পারে, এটা Scrapy এই আউট সব কঠিন কাজ খুঁজে নিতে এবং সমগ্র প্রক্রিয়া কমাতে পরিচালিত হয়েছে দেখতে বেশ সহজ শুধু (সহজ জন্য, ছোট ক্রলার) কোড কয়েক লাইন
এই রিলিজে নতুন কি:.
- কোয়েটার অনুরোধ পাথ FTPClient থেকে পাশ করার আগে, এটি আগে থেকেই পাথ অব্যাহতি.
<লি> MANIFEST.in মধ্যে বন্টন উৎস পরীক্ষা / অন্তর্ভুক্ত করুন. - কোয়েটার অনুরোধ পাথ FTPClient থেকে পাশ করার আগে, এটি আগে থেকেই পাথ অব্যাহতি.
<লি> MANIFEST.in মধ্যে বন্টন উৎস পরীক্ষা / অন্তর্ভুক্ত করুন. - টেমপ্লেট UTF8 এনকোডিং হেডার যোগ করুন
- টেমপ্লেট UTF8 এনকোডিং হেডার যোগ করুন
- scrapy.spider.BaseSpider scrapy.spider নাম পরিবর্তন .স্পাইডার করুন
- সাপোর্ট partials
<লি> Tox করুন মাধ্যমে Indiviual পরীক্ষা চলমান অনুমতি - include_package_data প্রকাশিত উত্স থেকে চাকার নির্মাণ করা প্রয়োজন হয়.
- শেল কমান্ড একটি অনুরোধ প্রতিস্থাপন স্থায়ী AlreadyCalledError
- চেরি দ্বারা যুক্ত করা, সরানো অতিরিক্ত আমদানি পরিবর্তন বাছাই
- কোন ResponseFailed অন্তর্ভুক্ত আছে.
- পাইথন 2.7 বা উচ্চতর করুন
আপনি কি সংস্করণ 1.0.1 মধ্যে নতুন:
সংস্করণ 0.24.6 নতুন আপনি কি:
<লি> টেলনেট কনসোল বর্তমানে ডিফল্টরূপে 127.0.0.1 করতে binds করুন
<লি> আপডেট ডেবিয়ান / উবুন্টু ইনস্টল নির্দেশাবলী
<লি> lxml XPath মূল্যায়ন স্মার্ট স্ট্রিং অক্ষম করুন
<লি> HTTP ক্যাশ মিডলওয়্যার জন্য ডিফল্ট হিসেবে ফাইলসিস্টেম ভিত্তিক ক্যাশে পুনরুদ্ধার করুন
<লি> Scrapy শেলের বর্তমান ক্রলার প্রভাবাধীন করুন
<লি> CSV এবং এক্সএমএল রপ্তানীকারকদের তুলনা testsuite উন্নত
<লি> নতুন অফসাইট / ফিল্টার এবং অফসাইট / ডোমেইনের পরিসংখ্যান করুন
<লি> CrawlSpider মধ্যে জেনারেটর হিসাবে সাপোর্ট process_links করুন
সংস্করণ 0.24.5 নতুন আপনি কি:
<লি> টেলনেট কনসোল বর্তমানে ডিফল্টরূপে 127.0.0.1 করতে binds করুন
<লি> আপডেট ডেবিয়ান / উবুন্টু ইনস্টল নির্দেশাবলী
<লি> lxml XPath মূল্যায়ন স্মার্ট স্ট্রিং অক্ষম করুন
<লি> HTTP ক্যাশ মিডলওয়্যার জন্য ডিফল্ট হিসেবে ফাইলসিস্টেম ভিত্তিক ক্যাশে পুনরুদ্ধার করুন
<লি> Scrapy শেলের বর্তমান ক্রলার প্রভাবাধীন করুন
<লি> CSV এবং এক্সএমএল রপ্তানীকারকদের তুলনা testsuite উন্নত
<লি> নতুন অফসাইট / ফিল্টার এবং অফসাইট / ডোমেইনের পরিসংখ্যান করুন
<লি> CrawlSpider মধ্যে জেনারেটর হিসাবে সাপোর্ট process_links করুন
আপনি কি সংস্করণ 0.22.0 নতুন:
<লি> info স্তরে সেটিংস এবং মিডলওয়্যার প্রারম্ভে তথ্য প্রচার করুন
Get_func_args util করুন
<লি> লিঙ্কটি extractors দ্বারা উপেক্ষিত আপডেট এক্সটেনশন করুন
<লি> নির্বাচক ডিফল্টরূপে করুন EXSLT নামব্যবধান রেজিস্টার
পুনঃনামকরনের নির্বাচক অনুরূপ <লি> ঐক্যসাধন আইটেমটি লোডার করুন
<লি> করুন RFPDupeFilter বর্গ সহজেই subclassable করুন
<লি> উন্নত টেস্ট কভারেজ এবং আসন্ন পাইথন 3 সমর্থন
সংস্করণ 0.20.1 নতুন আপনি কি:
সংস্করণ 0.18.4 নতুন আপনি কি:.
<লি> স্থায়ী start_requests lazyness এবং তাড়াতাড়ি হ্যাং.
সংস্করণ 0.18.1 নতুন আপনি কি:.
<লি> পাকান প্রাক 11.0.0 অধীনে পরীক্ষা ক্রলিং সংশোধন করা হয়েছে.
<লি> py26 শূন্য দৈর্ঘ্যের ক্ষেত্র {} ফরম্যাট করা যাবে না.
<লি> আনবাউন্ড প্রতিক্রিয়া টেস্ট PotentiaDataLoss ত্রুটি.
<লি> ভাল প্রতিক্রিয়া হিসেবে কন্টেন্ট দৈর্ঘ্যের বা স্থানান্তর এনকোডিং ছাড়া প্রতিক্রিয়া খাওয়াবো.
Http11 হ্যান্ডলার সক্রিয় করা হয় না যদি
আবশ্যক :
<লি> পাকান 2.5.0 বা উচ্চতর করুন
<লি> libxml2 2.6.28 বা উচ্চতর করুন
<লি> pyOpenSSL করুন
পাওয়া মন্তব্যসমূহ না