Jericho HTML Parser

সফটওয়্যার স্ক্রিনশট:
Jericho HTML Parser
সফটওয়্যার বিবরণ:
সংস্করণ: 3.3
তারিখ আপলোড: 20 Feb 15
ডেভেলপার: Martin Jericho
লাইসেন্স: বিনামূল্যে
জনপ্রিয়তা: 56

Rating: nan/5 (Total Votes: 0)

Jerich এইচটিএমএল পার্সার জাভা সম্পূর্ণভাবে লিখিত একটি ওপেন সোর্স, সহজ, এখনো শক্তিশালী লাইব্রেরি.
এটা প্রোগ্রামারদের এবং নিপূণভাবে একটি এইচটিএমএল ডকুমেন্টের অংশ বিশ্লেষণ করতে পারবেন.
Jerich এইচটিএমএল পার্সার উচ্চ-স্তরের HTML ফর্ম ম্যানিপুলেশন ফাংশন অন্তর্ভুক্ত

এই রিলিজে নতুন কি:.

  • বাগ সংশোধন করা হয়েছে:
  • [3581664] CharacterReference.decode () সংখ্যা ধারণকারী সত্ত্বা ডিকোড না - & frac12; & Frac14; ও frac34; ও sup1; ও sup2; ও sup3; ও there4
  • [3311286] SourceCompactor textarea শ্রদ্ধা করে না
  • [3519131] রেন্ডারার আউটপুট একটি উপাদান বস্তুর সঙ্গে নির্মিত হলে ভুল.
  • [3538829] ব্লক সীমানা ফন্ট প্রসাধন রেন্ডারার আউটপুট ভুল.

  • যুক্তি হাতের অক্ষর থাকে তাহলে
  • Segment.getAllStartTags (নাম) এবং Segment.getFirstElement (নাম) কাজ করে না.
  • একটি পলান সার্ভারের ট্যাগ ভিতরে একটি সাধারণ সার্ভার ট্যাগ এর শেষ বিভেদক মিথ্যা পালিয়ে ট্যাগ এর শেষ বিভেদক হিসেবে স্বীকৃত হয়.

  • বর্তমান প্রোগ্রামের ব্যবহারের ওপর প্রভাব ফেলতে পারে
  • পরিবর্তন:
  • [3427073] Segment.getStyleURISegments () বর্তমানে শৈলী উপাদান কন্টেন্ট হিসেবে শৈলী বৈশিষ্ট্য মান অন্তর্ভুক্ত করা হয়েছে.
  • [3427927] Segment.getURIAttributes () এখন লক্ষ্য এবং অ্যাপলেট উপাদান আর্কাইভ গুণাবলী রয়েছে.
  • আর পূর্ণ অনুক্রমিক পারসে সময় স্ক্রিপ্ট উপাদান ভিতরে স্বীকৃত মন্তব্য. পূর্বে তারা প্রধান ব্রাউজার কিন্তু আধুনিক ব্রাউজার আচরণ পরিবর্তন করা হয়েছে সাথে সামঞ্জস্যের জন্য স্বীকৃত হয়.
  • ত্রুটি তথ্য থেকে সব পার্স ত্রুটি লগ স্তর পরিবর্তন হয়েছে, এবং থেকে Source.fullSequentialParse () উপদেষ্টা বার্তা লগ স্তর তথ্য সতর্ক. পূর্ববর্তী মাত্রা পার্সিং ত্রুটি দেখাচ্ছে যখন উপদেষ্টা বার্তা গোপন থেকে লগিং সিস্টেম প্রতিরোধ, পার্সিং ত্রুটি চেয়ে উপদেষ্টা বার্তা একটি উচ্চ তীব্রতা দিয়েছে. ক্যারেক্টার এনকোডিং সতর্কবার্তা পর্যায়ে করিম অপরিবর্তিত থাকবে.

  • আপেক্ষিক URL গুলি অনুষ্ঠিত না হয়, যাতে
  • Renderer.renderHyperlinkURL (StartTag) পদ্ধতি আচরণ পরিবর্তন হয়েছে.

  • এটা হাইপারলিংক URL- এ হিসাবে একই হাইপারলিংক উপাদান সামগ্রী কোনো HTTP উপেক্ষা অনুষ্ঠিত হয় না, তাই
  • রেন্ডারার আচরণ পরিবর্তন করা হয়েছে:. // উপসর্গ বা / প্রত্যয়
  • EndTag.tidy () বর্তমানে বন্ধ বন্ধনী আগে ম সরিয়ে ফেলা হয়.
  • যোগ করা হয়েছে উত্স (ফাইল) রচয়িতা.
  • যোগ করা হয়েছে OutputDocument.getSegment () পদ্ধতি.
  • যোগ করা হয়েছে OutputDocument.remove পদ্ধতি (কোন int, কোন int শেষ শুরু).
  • যোগ করা হয়েছে Renderer.setHRLineLength () পদ্ধতি.
  • যোগ করা হয়েছে RenderToText.jsp WebApp নমুনা.
  • যোগ করা হয়েছে Segment.getRowColumnVector () পদ্ধতি.
  • এনকোডিং সনাক্তকরণ এখন প্রাথমিক এনকোডিং সঙ্গে বেমানান একটি কোড একক আকার আছে মেটা ট্যাগ উল্লিখিত সাধারণ এনকোডিং উপেক্ষা করে.
  • নিম্নলিখিত এটির API গুলি আপগ্রেড: slf4j-API-1.7.2, log4j-1.2.17

সংস্করণ 3.1 নতুন কি:

  • বাগ সংশোধন করা হয়েছে:
  • Segment.getAllStartTags উপর [2793556] অসীম লুপ ()
  • Segment.getAllElements উপর অসীম লুপ ()
  • Segment.getFirst * পদ্ধতি সীমান্ত অংশ বাইরে অংশ ফিরে আসেন.
  • Segment.getAllElements পদ্ধতি কিছু পরিস্থিতিতে সব ঘিরা উপাদান ফিরে না.

  • Segment.getAllElements পদ্ধতি
  • স্থায়ী ডকুমেন্টেশন ত্রুটি.
  • যোগ করা হয়েছে StreamedSource বর্গ.

  • বর্তমান প্রোগ্রামের ব্যবহারের ওপর প্রভাব ফেলতে পারে
  • পরিবর্তন:

  • ক্লাস থেকে ParseText পরিবর্তন
  • ইন্টারফেস.
  • Segment.getNodeIterator () বর্তমানে পৃথক নোড অক্ষর হিসেবে উল্লেখ ফেরৎ.

  • বৈশিষ্ট্য মান রেগুলার এক্সপ্রেশন উপর ভিত্তি করে
  • যোগ করা হয়েছে ট্যাগ অনুসন্ধান পদ্ধতি.

  • এইচটিএমএল বর্গ অ্যাট্রিবিউট উপর ভিত্তি করে
  • যোগ করা হয়েছে ট্যাগ অনুসন্ধান পদ্ধতি.
  • যোগ করা হয়েছে স্ট্যাটিক Source.LegacyNodeIteratorCompatabilityMode সম্পত্তি সাময়িকভাবে পূর্ববর্তী সংস্করণ যে Segment.getNodeIterator () কার্যকারিতা পূর্বাবস্থায় ফিরিয়ে আনুন.

  • ParseText মধ্যে
  • সরানো গৃহস্থালি [] ভিত্তিক অনুসন্ধান পদ্ধতি.
  • যোগ করা হয়েছে CharacterReference.appendCharTo (Appendable) পদ্ধতি.
  • যোগ করা হয়েছে OutputDocument (সেগমেন্টের) রচয়িতা.
  • যোগ করা হয়েছে StreamedSourceCopy নমুনা প্রোগ্রাম.

সংস্করণ 3.0 নতুন কি:

  • বাগ সংশোধন করা হয়েছে:

  • ইউনিকোড সম্পূরক অক্ষর প্রতিনিধিত্বমূলক
  • ক্যারেক্টার রেফারেন্স UTF-16 কোড ইউনিট জোড়া সঠিকভাবে সঙ্কেতমুক্ত না হয়.

  • চাহিদা মোড পারসে বলা যদি
  • [2188446] Element.getDepth () এবং Element.getParentElement () ভুল ফলাফল ফিরে আসেন.
  • মন্তব্য এখন ভিতরে ও LT স্বীকৃত হয়; স্ক্রিপ্ট করুন & gt; উপাদান.

  • অনগ্রসর সামঞ্জস্যপূর্ণ হয় না
  • API- র পরিবর্তন:
  • পরিবর্তন প্যাকেজের নাম net.htmlparser.jericho থেকে
  • গুন মান এখন স্ট্রিং বরং CharSequence হতে হবে.

  • পূর্ববর্তী সংস্করণ থেকে
  • সরানো সব অবচিত পদ্ধতি / ক্লাস.
  • সব সব ট্যাগ অনুসন্ধান পদ্ধতি জুড়ে একটি সামঞ্জস্যপূর্ণ নামকরণের আবেদন করার জন্য * পেতে পদ্ধতি পক্ষে অবচিত * পদ্ধতি এটি.
  • ট্যাগ, এলিমেন্ট এবং HTMLElements ক্লাস আর HTMLElementName ইন্টারফেস বাস্তবায়ন. (পরিবর্তে স্ট্যাটিক আমদানি ব্যবহার করুন)
  • সব স এখন stongly জেনেরিক্স ব্যবহার করে টাইপ করা.
  • Enum করতে FormControlOutputStyle বর্গ পরিবর্তন হয়েছে.

  • Enum করতে
  • পরিবর্তন FormControlType বর্গ.
  • যোগ করা হয়েছে CharStreamSource.appendTo (Appendable) পদ্ধতি.
  • যোগ করা হয়েছে Source.iterator () পদ্ধতি.
  • উত্স এখন Iterable কার্যকরী.
  • অভ্যন্তরীণভাবে ভালো পারফরম্যান্সের জন্য StringBuilder ব্যবহার করে.
  • যোগ করা হয়েছে Source.getNextStartTag (StartTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getNextEndTag (EndTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getPreviousStartTag (StartTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getPreviousEndTag (EndTagType) পদ্ধতি.
  • যোগ করা হয়েছে Segment.getAllStartTags (StartTagType) পদ্ধতি.
  • সব Segment.getFirst * পদ্ধতি যোগ করা হয়েছে.
  • যোগ করা হয়েছে Renderer.renderHyperlinkURL (StartTag) পদ্ধতি.
  • যোগ করা হয়েছে HTMLSanitiser নমুনা প্রোগ্রাম.
  • আপগ্রেড slf4j-API-1.5.6 থেকে

আবশ্যক

  • জাভা 2 স্ট্যান্ডার্ড সংস্করণ রানটাইম এনভায়রনমেন্ট

অনুরূপ সফ্টওয়্যার

XML Parse Library
XML Parse Library

12 May 15

MIB Smithy SDK
MIB Smithy SDK

18 Feb 15

generateDS.py
generateDS.py

15 Apr 15

Rubber
Rubber

3 Jun 15

বিকাশকারী অন্যান্য সফ্টওয়্যার Martin Jericho

মন্তব্য Jericho HTML Parser

পাওয়া মন্তব্যসমূহ না
মন্তব্য যোগ করুন
ছবি চালু!