সফটওয়্যার বিবরণ:
সংস্করণ: 3.4.4 আপডেট
তারিখ আপলোড: 12 May 15
লাইসেন্স: বিনামূল্যে
জনপ্রিয়তা: 245
lxml পাইথন ভাষার সরলতা সঙ্গে যারা লাইব্রেরি গতি সম্মিলন.
3.2 2.4 থেকে সব CPython সংস্করণের সাথে সামঞ্জস্যপূর্ণ
এই রিলিজে নতুন কি:.
- lxml.html.iterlinks এখন মেটা রিফ্রেশ ট্যাগ ভিতরে লিঙ্ক ধার্য করা হয়.
<লি> নতুন XMLParser বিকল্প collect_ids = আইডি হ্যাশ টেবিল সৃষ্টি নিষ্ক্রিয় করার মিথ্যা. এই যথেষ্ট ব্যবহার করা হয় না যে বিভিন্ন ID- র সাথে নথি পার্সিং গতি বাড়াতে পারেন. - lxml.html.iterlinks এখন মেটা ভিতরে সংযোগগুলি ফেরত্ ট্যাগ রিফ্রেশ করুন.
- বৈশিষ্ট্য resolvers এবং সংস্করণ, সেইসাথে পদ্ধতি set_element_class_lookup () এবং makeelement (), iterparse বস্তু থেকে হারিয়ে ছিল.
- বাগ সংশোধন করা হয়েছে:
- বাগ সংশোধন করা হয়েছে:
- 3.2 মধ্যে হারিয়ে গেছে যা পাইথন 2.4 জন্য স্থায়ী সমর্থন .2.
- পদ্ধতি apply_templates () এবং process_children () এর XSLT এক্সটেনশন উপাদান ফলাফল তালিকা থেকে সব স্ট্রিং বা হোয়াইটস্পেস শুধুমাত্র স্ট্রিং হয় বর্তমান অবস্থাই রেখে elements_only এবং যে remove_blank_text দুটি নতুন বুলিয়ান অপশন অর্জন করেছেন.
- স্ট্রিং পার্সিং আচরণ পরিবর্তন হতে পারে হোয়াইটস্পেস লিডিং lxml.html ইন ফাংশান উপস্থিত করা.
<লি> lxml.html ইন ফাংশান উপস্থিত করা পার্সিং স্ট্রিং framesets বা শরীরের ট্যাগ অনুপস্থিত মত অসাধারণ HTML সামগ্রী মুখে আরও জোরালো হয়.
<লি> ইনপুট / আউটপুট ত্রুটি IOError রিপোর্ট সঠিকভাবে UnicodeDecodeError বাড়াতে পারে আসকি নয় এমন লেখা ধারণ করে পাথ ফাইল অ্যাক্সেস করার চেষ্টা পরিবর্তে যখন. - ক্ষণস্থায়ী নামস্থান-অজ্ঞাত API- এর মাধ্যমে বৈশিষ্ট্যাবলী (handler.startElement () মেথড বড়) Sax সেতু একটি TypeError ব্যর্থ.
- Cython 0.17 সুইচিং দ্বারা দোভাষী বন্ধ করার সময় স্থায়ী ক্র্যাশ বিল্ডিং জন্য .3.
- C14N top- উন্নীত করা সমেত উপসর্গ উল্লেখ পারবেন একচেটিয়া serialization সময় স্তর.
- ই-কারখানা (যেমন স্ট্রিং উপশাখাকে হিসাবে) পরিচিত তথ্য ধরনের উপশাখাকে গ্রহণ করা হয়.
একটি নির্বাচনী ট্যাগ যুক্তি সঙ্গে <লি> বৃক্ষ পুনরাবৃত্তির এবং iterparse () ট্যাগ একটি সেট ক্ষণস্থায়ী সমর্থন করে. তারা ট্যাগ কোনো মেলে যদি গাছ নোড iterators দ্বারা ফেরত পাঠানো হবে. - ক্র্যাশ element.remove টেক্সট নোড মার্জ যখন ( ).
- ক্র্যাশ একটি nsmap (এলিমেন্ট সম্পত্তি) সঙ্গে নির্মাণের সময় খালি নামস্থান ব্যবহৃত URI.
- বৈশিষ্ট্য যোগ করা হয়েছে:
- বৈশিষ্ট্য যোগ করা হয়েছে:
- বৈশিষ্ট্য যোগ করা হয়েছে:
- endElementNS () ভুল একটি প্লেইন ট্যাগ নাম প্রত্যাখ্যান করতে পারে.
- CSS এর জন্য এর বদলে '/ বংশধর :: বি' এর XPath ('এ / বংশধর-বা-স্ব :: নোড () / বি' এর সংক্ষিপ্ত রূপ) 'এ // বি' ব্যবহার বংশধর নির্বাচক ('এ বি'). এই ওয়েবকিট এবং ফায়ারফক্স, মধ্যে নির্বাচক আচরণ সঙ্গে সামঞ্জস্যপূর্ণ হতে কয়েক প্রান্ত ক্ষেত্রে তোলে এবং (XSL ব্যবহারের জন্য: টেমপ্লেট ম্যাচ) আরো সিএসএস এক্সপ্রেশন বৈধ অবস্থান পাথ তোলে.
- বৈশিষ্ট্য যোগ করা হয়েছে:
- ফাইল মত বস্তু থেকে পড়া কর্ম সমাপ্ত হলে, পার্সার অবিলম্বে তার .বন্ধ () মেথড কল.
- Marque ট্যাগ সঠিকভাবে তাবু নামকরণ করা হয়.
<লি> অন্যান্য পরিবর্তন: - বাগ সংশোধন করা হয়েছে:
<লি> পার্সার এক্সএমএল ID- র জন্য প্রতি নথি হ্যাশ টেবিল ব্যবহার করে. এই গ্লোবাল পার্সার অভি লোড হ্রাস করা যায় এবং বিভিন্ন ID- র সাথে নথি জন্য পার্সিং অনেকটা কমে যাবে.
<লি> ElementTree.getelementpath (উপাদান) অনুসন্ধান পরে জন্য ব্যবহার করা যেতে পারে, যা দেওয়া উপাদান, জন্য একটি কাঠামোগত ElementPath অভিব্যক্তি ধার্য করা হয়.
<লি> xmlfile () (-লেগেছে) তাদের লেখা পরে বস্তু ফাইল বন্ধ = true বন্ধ একটি নতুন যুক্তি গ্রহণ করা হয়. আগে, xmlfile () শুধুমাত্র এটা অন্ত এটি খোলা ছিল ফাইল বন্ধ.
<লি> অনুমতি করুন & quot; bytearray করুন & quot; ASCII টেক্সট ইনপুট জন্য টাইপ.
কি সংস্করণ 3.4.2 নতুন:
<লি> নতুন XMLParser বিকল্প collect_ids = আইডি হ্যাশ টেবিল সৃষ্টি নিষ্ক্রিয় করার মিথ্যা. এই যথেষ্ট ব্যবহার করা হয় না যে বিভিন্ন ID- র সাথে নথি পার্সিং গতি বাড়াতে পারেন.
<লি> পার্সার এক্সএমএল ID- র জন্য প্রতি নথি হ্যাশ টেবিল ব্যবহার করে. এই গ্লোবাল পার্সার অভি লোড হ্রাস করা যায় এবং বিভিন্ন ID- র সাথে নথি জন্য পার্সিং অনেকটা কমে যাবে.
<লি> ElementTree.getelementpath (উপাদান) অনুসন্ধান পরে জন্য ব্যবহার করা যেতে পারে, যা দেওয়া উপাদান, জন্য একটি কাঠামোগত ElementPath অভিব্যক্তি ধার্য করা হয়.
<লি> xmlfile () (-লেগেছে) তাদের লেখা পরে বস্তু ফাইল বন্ধ = true বন্ধ একটি নতুন যুক্তি গ্রহণ করা হয়. আগে, xmlfile () শুধুমাত্র এটা অন্ত এটি খোলা ছিল ফাইল বন্ধ.
<লি> অনুমতি করুন & quot; bytearray করুন & quot; ASCII টেক্সট ইনপুট জন্য টাইপ.
কি সংস্করণ 3.3.2 নতুন:
<লি> XMLSchema, Schematron এবং RelaxNG ইনস্ট্যান্সের একটি যাচাইকরণ নির্বাহণের পূর্বে তাদের স্থানীয় error_log পরিষ্কার করা হয়নি.
আশা করুন & quot; <লি> lxml.doctestcompare আপ করুন & quot মিশ্র, এবং & quot; প্রকৃত করুন & quot; বৈশিষ্ট্য মান.
সংস্করণ 3.3.1 নতুন কি:
<লি> parser.feed সঙ্গে পার্স এইচটিএমএল ডকুমেন্ট দেখবেন? () ট্যাগ পুনরাবৃত্তির সময় উপাদান খুঁজে পেতে ব্যর্থ হয়েছে.
<লি> PyPy বিল্ডিং কারণে * () PyPy সি-API 'র মধ্যে PyUnicode_Compare () এবং PyByteArray _ জন্য সমর্থন অনুপস্থিত করতে ব্যর্থ হয়েছে.
<লি> MSVC কম্পাইলেশন কারণে অনুপস্থিত & quot বিনষ্ট হইল; stdint.h করুন & quot; স্ট্যান্ডার্ড হেডার ফাইল.
<লি> iterparse () BOM ফাইল অগ্রে বিশ্লেষণ করতে ব্যর্থ হয়েছে.
সংস্করণ 3.3.0 নতুন কি:
<লি> URL গুলি থেকে ফাইল পাথ আলাদা অনুসন্ধানমূলক কম মিথ্যা নেগেটিভ উত্পাদন tightened ছিল.
কি সংস্করণ 3.2.3 নতুন:
কি সংস্করণ 3.2.1 নতুন:
কি সংস্করণ 3.2.0 নতুন:
<লি> ইন মেমরি স্ট্রিং থেকে ডিফল্ট পার্সার অক্ষম নেটওয়ার্কের প্রবেশাধিকার পার্স ও ব্যর্থ একটি URL থেকে বিশ্লেষণ করতে পরবর্তী প্রচেষ্টা তৈরি.
কি সংস্করণ 3.1.2 নতুন:
XSLT আউটপুটে <লি> স্থায়ী ধারাবাহিকতাতে ত্রুটি একটি ইউনিকোড স্ট্রিং ফলাফল গাছ রূপান্তর যখন.
কি সংস্করণ 3.0.2 নতুন:
কি সংস্করণ 3.0 নতুন:
<লি> (cpyext মাধ্যমে) PyPy নির্মাণের জন্য প্রাথমিক সমর্থন.
<লি> DTD বস্তু তাদের ঘোষণা থেকে পড়তে পারবেন যে একটি API অর্জন.
<লি> xpathgrep.py লাইন বাই লাইন (যেমন grep আউটপুট থেকে) পার্সিং জন্য এবং একটি নতুন মূল ট্যাগ দিয়ে আউটপুট পার্শ্ববর্তী জন্য সমর্থন অর্জন করে.
তাদের চারপাশে উপাদান নির্মাণের সময় lxml.builder
সংস্করণ 2.3.5 নতুন কি:
<লি> Sax / লক্ষ্য পার্সার ক্র্যাশ খালি DOCTYPE রিপোর্ট যখন.
কি সংস্করণ 2.3.4 নতুন:
<লি> কারণে জাতি শর্ত ক্র্যাশ ত্রুটি (অথবা ব্যবহারকারীর বার্তা) থ্রেডেড XSLT প্রক্রিয়াকরণের সময় ঘটলে তা.
<লি> সংকলন ত্রুটি উপেক্ষা পারে XSLT স্টাইলশীট সংকলন.
সংস্করণ 2.3.3 নতুন কি:
<লি> lxml.html.tostring () with_tail এবং DOCTYPE নতুন serialization অপশন অর্জন.
<লি> বাগ সংশোধন করা হয়েছে:
<লি> এইচটিএমএল পার্সিং জন্য iterparse () ব্যবহার করে এবং শুরু ঘটনা অনুরোধ করার সময় একটি ক্র্যাশ সংশোধন করা হয়েছে.
<লি> cssselect আরো নির্বাচক স্থায়ী পার্সিং. এটি একটি বংশধর combinator হিসাবে ছদ্ম-উপাদান এবং ছদ্ম-ক্লাস আগে হোয়াইটস্পেস গুরুত্বপূর্ণ. & Quot; ই: ছদ্ম করুন & quot; ছদ্ম & quot ;, না করুন & quot; ই: ই *; & quot একই বিশ্লেষণ করতে হবে. ছদ্ম করুন & quot;
'Src' বৈশিষ্ট্য ছাড়া 'img' ট্যাগ আঘাত যখন <লি> lxml.html.diff আর একটি ব্যতিক্রম উত্থাপন.
সংস্করণ 2.3.2 নতুন কি:
<লি> lxml.objectify.deannotate () নৈর্ব্যক্তিক নামস্থান ঘোষণা অপসারণ (এবং সাধারণত নামস্থান ঘোষণা পরিষ্কার) টাইপ টীকা মুছে ফেলার পরে একটি নতুন বুলিয়ান বিকল্প cleanup_namespaces আছে.
ব্যবহারকারী পাশ দিয়ে lxml.etree একটি অন্যথায় অপ্রয়োজনীয় আমদানি এড়াতে etree.SubElement একটি কপি হিসাবে তার নিজের SubElement () ফাংশন অর্জন lxml.objectify <লি>.
<লি> বাগ সংশোধন করা হয়েছে:
<লি> স্থায়ী করুন & quot; বংশধর করুন & quot; cssselect বাগ (lxml 2.3.1 একটি প্রথম ফিক্স পর) একটি দ্বিতীয় সময়. পূর্ববর্তী পরিবর্তন অনুবাদ প্রকাশের XPath ভিত্তিক পরীক্ষা নিরীক্ষার জন্য একটি গুরুতর কর্মক্ষমতা নির্ভরণ ফলে. এই পূর্বে 2.3.1 কাজ যে XSLT অবস্থান পাথ হিসাবে উত্পন্ন XPath এক্সপ্রেশন কিছু ব্যবহার বিরতি উল্লেখ্য.
<লি> cssselect কিছু নির্বাচক স্থায়ী পার্সিং. & # X3e; combinators করুন & quot পর হোয়াইটস্পেস & quot ;, & quot; + & quot; এবং & quot; ~ করুন & quot; এখন সঠিকভাবে উপেক্ষা করা হয়. পূর্বে একটি বংশধর combinator হিসেবে পার্স করা হয় হয়. উদাহরণস্বরূপ, & quot; div & # x3e; .foo করুন & quot; div & # x3e; * .foo করুন & quot & quot একই পার্স করা হয়; পরিবর্তে & quot; div & # x3e; .foo. & quot;
সংস্করণ 2.3.1 নতুন কি:
<লি> নতুন বিকল্প নির্দিষ্ট ট্যাগ এবং তাদের বিষয়বস্তু (অর্থাৎ তাদের পুরো subtree) মুছে ফেলার জন্য lxml.html.clean মধ্যে kill_tags.
প্রক্রিয়াকরন নির্দেশিকা লেখা কন্টেন্ট থেকে ছদ্ম-বৈশিষ্ট্যাবলী বিশ্লেষণ করতে প্রক্রিয়াকরন নির্দেশিকা উপর <লি> pi.get () এবং pi.attrib.
<লি> lxml.get_include () lxml.etree বিরুদ্ধে বহিরাগত সি কোড কম্পাইল ব্যবহার করা যেতে পারে যে পাথ অন্তর্ভুক্ত প্রদর্শন করা হবে. কোড নিজেই lxml হিসাবে সঠিক একই হেডার ফাইল সংস্করণের সাথে কম্পাইল প্রয়োজন যখন এই বিশেষভাবে স্ট্যাটিক্যালি লিঙ্ক lxml জন্য প্রয়োজন বোধ করা হয় তৈরী করে.
<লি> Resolver.resolve_file () ফাইল (-লেগেছে) বস্তুর পড়া বা না পরে বন্ধ হয়ে যাবে যদি দ্বারা কনফিগার হওয়া যে একটি অতিরিক্ত বিকল্প close_file লাগে. ব্যবহারকারী এটি একটি রেফারেন্স রাখা হবে বলে আশা করা না হয় ডিফল্টরূপে, ফাইল, বন্ধ করে দেওয়া হবে.
<লি> বাগ সংশোধন করা হয়েছে:
<লি> এইচটিএমএল পরিচ্ছন্নতার 'তথ্য:' অপসারণ করা হয়নি. লিঙ্ক
<লি> html5lib পার্সার ইন্টিগ্রেশন এখন এটা গ্রন্থাগারের নতুন রিলিজ সঙ্গে কাজ করে তোলে, যা html5lib নিজেই 'অফিসিয়াল' বাস্তবায়ন, ব্যবহার করে.
সংশ্লিষ্ট শুরু ইভেন্ট ডিফল্ট নামস্থান করা একই প্লেইন ট্যাগ নাম অনুমিত যখন lxml.sax
<লি> একটি খোলা ফাইল মত বস্তু পার্স মধ্যে প্রেরণ করা হয় যখন () বা iterparse (), পার্সার হবে আর বন্ধ এটি ব্যবহারের পর. এই সব ফাইল বন্ধ করা হবে যেখানে lxml 2.3 পরিবর্তন ফেরত্ পাওয়া যাবে. এটা সঠিকভাবে ত্রুটি ক্ষেত্রে এছাড়াও, ফাইল (-লেগেছে) বস্তুর বন্ধ ব্যবহারকারীদের দায়িত্ব.
<লি> lxml.html.cleaner মধ্যে বিবৃতি ত্রুটি টপ লেভেল উপাদান খারিজ যখন.
Lxml.cssselect
<লি> lxml.html সালে, অ নির্বাচিত & # x3c; বিকল্প & # x3e; ট্যাগ আর সংগৃহীত ফর্ম মান দেখাবে.
<লি> / যোগ অপসারণ & # x3c; বিকল্প & # x3e; একটি একাধিক নির্বাচন ফর্ম ফিল্ড সঠিকভাবে তাদের নির্বাচন এবং তাদের unselects থেকে / মান.
<লি> অন্যান্য পরিবর্তন:
<লি> স্ট্যাটিক --download-Dir বিকল্প নির্দেশিকা নির্দিষ্ট করতে পারেন তৈরী করে.
সংস্করণ 2.3 নতুন কি:
শিশুদের জন্য যখন খুঁজছেন পিতা বা মাতা নামস্থান উল্টোদিকে <লি> lxml.objectify, একটি খালি নামস্থান অর্থ হিসেবে '{} ট্যাগটি' লাগে.
<লি> বাগ সংশোধন করা হয়েছে:
পার্সিং কর্ম সমাপ্ত হলে <লি> iterparse () অবিলম্বে ইনপুট ফাইল বন্ধ হয়ে যায়.
<লি> (libxml2 2.7.8 সমাধান করা হয়েছে) একটি severly ভাঙা নথি পার্সিং পর একটি অ কার্মিক রাজ্যের এইচটিএমএল পার্সার চলে যাবে যে libxml2 বাগ জন্য-কাজ করে চলেছে.
এইচটিএমএল পরিষ্করণ কোড
<লি> Cython-স্তর সি-API- র কিছু সরকারী কার্যক্রম পরিচালনার আরো স্পষ্ট ফিরে ধরনের আছে.
সংস্করণ 2.3beta1 নতুন কি:
<লি> নতুন libxml2 সংস্করণে ক্র্যাশ প্রতিস্থাপিত XInclude নোড বৈশিষ্ট্যাবলী ছিল যে নথি মধ্যে উপাদান সরানোর সময়.
<লি> XMLID () ফাংশন ঐচ্ছিক পার্সার এবং base_url পরামিতি অনুপস্থিত ছিল.
<লি> () Py3 ভাঙ্গা ছিল. Iterparse মধ্যে ওয়াইল্ডকার্ড ট্যাগের জন্য অনুসন্ধান করুন
<লি> lxml.html.open_in_browser () কারণে os.tempnam ব্যবহার পাইথন 3 কাজ করে নি. এটা এখন একটি ঐচ্ছিক 'এনকোডিং' প্যারামিটার নেয়.
পাওয়া মন্তব্যসমূহ না