Jericho HTML Parser

সফটওয়্যার স্ক্রিনশট:
Jericho HTML Parser
সফটওয়্যার বিবরণ:
সংস্করণ: 3.3
তারিখ আপলোড: 20 Feb 15
ডেভেলপার: Martin Jericho
লাইসেন্স: বিনামূল্যে
জনপ্রিয়তা: 3

Rating: nan/5 (Total Votes: 0)

Jerich এইচটিএমএল পার্সার জাভা সম্পূর্ণভাবে লিখিত একটি ওপেন সোর্স, সহজ, এখনো শক্তিশালী লাইব্রেরি.
এটা প্রোগ্রামারদের এবং নিপূণভাবে একটি এইচটিএমএল ডকুমেন্টের অংশ বিশ্লেষণ করতে পারবেন.
Jerich এইচটিএমএল পার্সার উচ্চ-স্তরের HTML ফর্ম ম্যানিপুলেশন ফাংশন অন্তর্ভুক্ত

এই রিলিজে নতুন কি:.

  • বাগ সংশোধন করা হয়েছে:
  • [3581664] CharacterReference.decode () সংখ্যা ধারণকারী সত্ত্বা ডিকোড না - & frac12; & Frac14; ও frac34; ও sup1; ও sup2; ও sup3; ও there4
  • [3311286] SourceCompactor textarea শ্রদ্ধা করে না
  • [3519131] রেন্ডারার আউটপুট একটি উপাদান বস্তুর সঙ্গে নির্মিত হলে ভুল.
  • [3538829] ব্লক সীমানা ফন্ট প্রসাধন রেন্ডারার আউটপুট ভুল.

  • যুক্তি হাতের অক্ষর থাকে তাহলে
  • Segment.getAllStartTags (নাম) এবং Segment.getFirstElement (নাম) কাজ করে না.
  • একটি পলান সার্ভারের ট্যাগ ভিতরে একটি সাধারণ সার্ভার ট্যাগ এর শেষ বিভেদক মিথ্যা পালিয়ে ট্যাগ এর শেষ বিভেদক হিসেবে স্বীকৃত হয়.

  • বর্তমান প্রোগ্রামের ব্যবহারের ওপর প্রভাব ফেলতে পারে
  • পরিবর্তন:
  • [3427073] Segment.getStyleURISegments () বর্তমানে শৈলী উপাদান কন্টেন্ট হিসেবে শৈলী বৈশিষ্ট্য মান অন্তর্ভুক্ত করা হয়েছে.
  • [3427927] Segment.getURIAttributes () এখন লক্ষ্য এবং অ্যাপলেট উপাদান আর্কাইভ গুণাবলী রয়েছে.
  • আর পূর্ণ অনুক্রমিক পারসে সময় স্ক্রিপ্ট উপাদান ভিতরে স্বীকৃত মন্তব্য. পূর্বে তারা প্রধান ব্রাউজার কিন্তু আধুনিক ব্রাউজার আচরণ পরিবর্তন করা হয়েছে সাথে সামঞ্জস্যের জন্য স্বীকৃত হয়.
  • ত্রুটি তথ্য থেকে সব পার্স ত্রুটি লগ স্তর পরিবর্তন হয়েছে, এবং থেকে Source.fullSequentialParse () উপদেষ্টা বার্তা লগ স্তর তথ্য সতর্ক. পূর্ববর্তী মাত্রা পার্সিং ত্রুটি দেখাচ্ছে যখন উপদেষ্টা বার্তা গোপন থেকে লগিং সিস্টেম প্রতিরোধ, পার্সিং ত্রুটি চেয়ে উপদেষ্টা বার্তা একটি উচ্চ তীব্রতা দিয়েছে. ক্যারেক্টার এনকোডিং সতর্কবার্তা পর্যায়ে করিম অপরিবর্তিত থাকবে.

  • আপেক্ষিক URL গুলি অনুষ্ঠিত না হয়, যাতে
  • Renderer.renderHyperlinkURL (StartTag) পদ্ধতি আচরণ পরিবর্তন হয়েছে.

  • এটা হাইপারলিংক URL- এ হিসাবে একই হাইপারলিংক উপাদান সামগ্রী কোনো HTTP উপেক্ষা অনুষ্ঠিত হয় না, তাই
  • রেন্ডারার আচরণ পরিবর্তন করা হয়েছে:. // উপসর্গ বা / প্রত্যয়
  • EndTag.tidy () বর্তমানে বন্ধ বন্ধনী আগে ম সরিয়ে ফেলা হয়.
  • যোগ করা হয়েছে উত্স (ফাইল) রচয়িতা.
  • যোগ করা হয়েছে OutputDocument.getSegment () পদ্ধতি.
  • যোগ করা হয়েছে OutputDocument.remove পদ্ধতি (কোন int, কোন int শেষ শুরু).
  • যোগ করা হয়েছে Renderer.setHRLineLength () পদ্ধতি.
  • যোগ করা হয়েছে RenderToText.jsp WebApp নমুনা.
  • যোগ করা হয়েছে Segment.getRowColumnVector () পদ্ধতি.
  • এনকোডিং সনাক্তকরণ এখন প্রাথমিক এনকোডিং সঙ্গে বেমানান একটি কোড একক আকার আছে মেটা ট্যাগ উল্লিখিত সাধারণ এনকোডিং উপেক্ষা করে.
  • নিম্নলিখিত এটির API গুলি আপগ্রেড: slf4j-API-1.7.2, log4j-1.2.17

সংস্করণ 3.1 নতুন কি:

  • বাগ সংশোধন করা হয়েছে:
  • Segment.getAllStartTags উপর [2793556] অসীম লুপ ()
  • Segment.getAllElements উপর অসীম লুপ ()
  • Segment.getFirst * পদ্ধতি সীমান্ত অংশ বাইরে অংশ ফিরে আসেন.
  • Segment.getAllElements পদ্ধতি কিছু পরিস্থিতিতে সব ঘিরা উপাদান ফিরে না.

  • Segment.getAllElements পদ্ধতি
  • স্থায়ী ডকুমেন্টেশন ত্রুটি.
  • যোগ করা হয়েছে StreamedSource বর্গ.

  • বর্তমান প্রোগ্রামের ব্যবহারের ওপর প্রভাব ফেলতে পারে
  • পরিবর্তন:

  • ক্লাস থেকে ParseText পরিবর্তন
  • ইন্টারফেস.
  • Segment.getNodeIterator () বর্তমানে পৃথক নোড অক্ষর হিসেবে উল্লেখ ফেরৎ.

  • বৈশিষ্ট্য মান রেগুলার এক্সপ্রেশন উপর ভিত্তি করে
  • যোগ করা হয়েছে ট্যাগ অনুসন্ধান পদ্ধতি.

  • এইচটিএমএল বর্গ অ্যাট্রিবিউট উপর ভিত্তি করে
  • যোগ করা হয়েছে ট্যাগ অনুসন্ধান পদ্ধতি.
  • যোগ করা হয়েছে স্ট্যাটিক Source.LegacyNodeIteratorCompatabilityMode সম্পত্তি সাময়িকভাবে পূর্ববর্তী সংস্করণ যে Segment.getNodeIterator () কার্যকারিতা পূর্বাবস্থায় ফিরিয়ে আনুন.

  • ParseText মধ্যে
  • সরানো গৃহস্থালি [] ভিত্তিক অনুসন্ধান পদ্ধতি.
  • যোগ করা হয়েছে CharacterReference.appendCharTo (Appendable) পদ্ধতি.
  • যোগ করা হয়েছে OutputDocument (সেগমেন্টের) রচয়িতা.
  • যোগ করা হয়েছে StreamedSourceCopy নমুনা প্রোগ্রাম.

সংস্করণ 3.0 নতুন কি:

  • বাগ সংশোধন করা হয়েছে:

  • ইউনিকোড সম্পূরক অক্ষর প্রতিনিধিত্বমূলক
  • ক্যারেক্টার রেফারেন্স UTF-16 কোড ইউনিট জোড়া সঠিকভাবে সঙ্কেতমুক্ত না হয়.

  • চাহিদা মোড পারসে বলা যদি
  • [2188446] Element.getDepth () এবং Element.getParentElement () ভুল ফলাফল ফিরে আসেন.
  • মন্তব্য এখন ভিতরে ও LT স্বীকৃত হয়; স্ক্রিপ্ট করুন & gt; উপাদান.

  • অনগ্রসর সামঞ্জস্যপূর্ণ হয় না
  • API- র পরিবর্তন:
  • পরিবর্তন প্যাকেজের নাম net.htmlparser.jericho থেকে
  • গুন মান এখন স্ট্রিং বরং CharSequence হতে হবে.

  • পূর্ববর্তী সংস্করণ থেকে
  • সরানো সব অবচিত পদ্ধতি / ক্লাস.
  • সব সব ট্যাগ অনুসন্ধান পদ্ধতি জুড়ে একটি সামঞ্জস্যপূর্ণ নামকরণের আবেদন করার জন্য * পেতে পদ্ধতি পক্ষে অবচিত * পদ্ধতি এটি.
  • ট্যাগ, এলিমেন্ট এবং HTMLElements ক্লাস আর HTMLElementName ইন্টারফেস বাস্তবায়ন. (পরিবর্তে স্ট্যাটিক আমদানি ব্যবহার করুন)
  • সব স এখন stongly জেনেরিক্স ব্যবহার করে টাইপ করা.
  • Enum করতে FormControlOutputStyle বর্গ পরিবর্তন হয়েছে.

  • Enum করতে
  • পরিবর্তন FormControlType বর্গ.
  • যোগ করা হয়েছে CharStreamSource.appendTo (Appendable) পদ্ধতি.
  • যোগ করা হয়েছে Source.iterator () পদ্ধতি.
  • উত্স এখন Iterable কার্যকরী.
  • অভ্যন্তরীণভাবে ভালো পারফরম্যান্সের জন্য StringBuilder ব্যবহার করে.
  • যোগ করা হয়েছে Source.getNextStartTag (StartTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getNextEndTag (EndTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getPreviousStartTag (StartTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getPreviousEndTag (EndTagType) পদ্ধতি.
  • যোগ করা হয়েছে Segment.getAllStartTags (StartTagType) পদ্ধতি.
  • সব Segment.getFirst * পদ্ধতি যোগ করা হয়েছে.
  • যোগ করা হয়েছে Renderer.renderHyperlinkURL (StartTag) পদ্ধতি.
  • যোগ করা হয়েছে HTMLSanitiser নমুনা প্রোগ্রাম.
  • আপগ্রেড slf4j-API-1.5.6 থেকে

আবশ্যক

  • জাভা 2 স্ট্যান্ডার্ড সংস্করণ রানটাইম এনভায়রনমেন্ট

অনুরূপ সফ্টওয়্যার

Nemo Templates
Nemo Templates

14 Apr 15

safox
safox

3 Jun 15

markup.py
markup.py

14 Apr 15

xsd2db
xsd2db

3 Jun 15

বিকাশকারী অন্যান্য সফ্টওয়্যার Martin Jericho

মন্তব্য Jericho HTML Parser

পাওয়া মন্তব্যসমূহ না
মন্তব্য যোগ করুন
ছবি চালু!