Jericho HTML Parser

সফটওয়্যার স্ক্রিনশট:
Jericho HTML Parser
সফটওয়্যার বিবরণ:
সংস্করণ: 3.3
তারিখ আপলোড: 20 Feb 15
ডেভেলপার: Martin Jericho
লাইসেন্স: বিনামূল্যে
জনপ্রিয়তা: 3

Rating: nan/5 (Total Votes: 0)

Jerich এইচটিএমএল পার্সার জাভা সম্পূর্ণভাবে লিখিত একটি ওপেন সোর্স, সহজ, এখনো শক্তিশালী লাইব্রেরি.
এটা প্রোগ্রামারদের এবং নিপূণভাবে একটি এইচটিএমএল ডকুমেন্টের অংশ বিশ্লেষণ করতে পারবেন.
Jerich এইচটিএমএল পার্সার উচ্চ-স্তরের HTML ফর্ম ম্যানিপুলেশন ফাংশন অন্তর্ভুক্ত

এই রিলিজে নতুন কি:.

  • বাগ সংশোধন করা হয়েছে:
  • [3581664] CharacterReference.decode () সংখ্যা ধারণকারী সত্ত্বা ডিকোড না - & frac12; & Frac14; ও frac34; ও sup1; ও sup2; ও sup3; ও there4
  • [3311286] SourceCompactor textarea শ্রদ্ধা করে না
  • [3519131] রেন্ডারার আউটপুট একটি উপাদান বস্তুর সঙ্গে নির্মিত হলে ভুল.
  • [3538829] ব্লক সীমানা ফন্ট প্রসাধন রেন্ডারার আউটপুট ভুল.

  • যুক্তি হাতের অক্ষর থাকে তাহলে
  • Segment.getAllStartTags (নাম) এবং Segment.getFirstElement (নাম) কাজ করে না.
  • একটি পলান সার্ভারের ট্যাগ ভিতরে একটি সাধারণ সার্ভার ট্যাগ এর শেষ বিভেদক মিথ্যা পালিয়ে ট্যাগ এর শেষ বিভেদক হিসেবে স্বীকৃত হয়.

  • বর্তমান প্রোগ্রামের ব্যবহারের ওপর প্রভাব ফেলতে পারে
  • পরিবর্তন:
  • [3427073] Segment.getStyleURISegments () বর্তমানে শৈলী উপাদান কন্টেন্ট হিসেবে শৈলী বৈশিষ্ট্য মান অন্তর্ভুক্ত করা হয়েছে.
  • [3427927] Segment.getURIAttributes () এখন লক্ষ্য এবং অ্যাপলেট উপাদান আর্কাইভ গুণাবলী রয়েছে.
  • আর পূর্ণ অনুক্রমিক পারসে সময় স্ক্রিপ্ট উপাদান ভিতরে স্বীকৃত মন্তব্য. পূর্বে তারা প্রধান ব্রাউজার কিন্তু আধুনিক ব্রাউজার আচরণ পরিবর্তন করা হয়েছে সাথে সামঞ্জস্যের জন্য স্বীকৃত হয়.
  • ত্রুটি তথ্য থেকে সব পার্স ত্রুটি লগ স্তর পরিবর্তন হয়েছে, এবং থেকে Source.fullSequentialParse () উপদেষ্টা বার্তা লগ স্তর তথ্য সতর্ক. পূর্ববর্তী মাত্রা পার্সিং ত্রুটি দেখাচ্ছে যখন উপদেষ্টা বার্তা গোপন থেকে লগিং সিস্টেম প্রতিরোধ, পার্সিং ত্রুটি চেয়ে উপদেষ্টা বার্তা একটি উচ্চ তীব্রতা দিয়েছে. ক্যারেক্টার এনকোডিং সতর্কবার্তা পর্যায়ে করিম অপরিবর্তিত থাকবে.

  • আপেক্ষিক URL গুলি অনুষ্ঠিত না হয়, যাতে
  • Renderer.renderHyperlinkURL (StartTag) পদ্ধতি আচরণ পরিবর্তন হয়েছে.

  • এটা হাইপারলিংক URL- এ হিসাবে একই হাইপারলিংক উপাদান সামগ্রী কোনো HTTP উপেক্ষা অনুষ্ঠিত হয় না, তাই
  • রেন্ডারার আচরণ পরিবর্তন করা হয়েছে:. // উপসর্গ বা / প্রত্যয়
  • EndTag.tidy () বর্তমানে বন্ধ বন্ধনী আগে ম সরিয়ে ফেলা হয়.
  • যোগ করা হয়েছে উত্স (ফাইল) রচয়িতা.
  • যোগ করা হয়েছে OutputDocument.getSegment () পদ্ধতি.
  • যোগ করা হয়েছে OutputDocument.remove পদ্ধতি (কোন int, কোন int শেষ শুরু).
  • যোগ করা হয়েছে Renderer.setHRLineLength () পদ্ধতি.
  • যোগ করা হয়েছে RenderToText.jsp WebApp নমুনা.
  • যোগ করা হয়েছে Segment.getRowColumnVector () পদ্ধতি.
  • এনকোডিং সনাক্তকরণ এখন প্রাথমিক এনকোডিং সঙ্গে বেমানান একটি কোড একক আকার আছে মেটা ট্যাগ উল্লিখিত সাধারণ এনকোডিং উপেক্ষা করে.
  • নিম্নলিখিত এটির API গুলি আপগ্রেড: slf4j-API-1.7.2, log4j-1.2.17

সংস্করণ 3.1 নতুন কি:

  • বাগ সংশোধন করা হয়েছে:
  • Segment.getAllStartTags উপর [2793556] অসীম লুপ ()
  • Segment.getAllElements উপর অসীম লুপ ()
  • Segment.getFirst * পদ্ধতি সীমান্ত অংশ বাইরে অংশ ফিরে আসেন.
  • Segment.getAllElements পদ্ধতি কিছু পরিস্থিতিতে সব ঘিরা উপাদান ফিরে না.

  • Segment.getAllElements পদ্ধতি
  • স্থায়ী ডকুমেন্টেশন ত্রুটি.
  • যোগ করা হয়েছে StreamedSource বর্গ.

  • বর্তমান প্রোগ্রামের ব্যবহারের ওপর প্রভাব ফেলতে পারে
  • পরিবর্তন:

  • ক্লাস থেকে ParseText পরিবর্তন
  • ইন্টারফেস.
  • Segment.getNodeIterator () বর্তমানে পৃথক নোড অক্ষর হিসেবে উল্লেখ ফেরৎ.

  • বৈশিষ্ট্য মান রেগুলার এক্সপ্রেশন উপর ভিত্তি করে
  • যোগ করা হয়েছে ট্যাগ অনুসন্ধান পদ্ধতি.

  • এইচটিএমএল বর্গ অ্যাট্রিবিউট উপর ভিত্তি করে
  • যোগ করা হয়েছে ট্যাগ অনুসন্ধান পদ্ধতি.
  • যোগ করা হয়েছে স্ট্যাটিক Source.LegacyNodeIteratorCompatabilityMode সম্পত্তি সাময়িকভাবে পূর্ববর্তী সংস্করণ যে Segment.getNodeIterator () কার্যকারিতা পূর্বাবস্থায় ফিরিয়ে আনুন.

  • ParseText মধ্যে
  • সরানো গৃহস্থালি [] ভিত্তিক অনুসন্ধান পদ্ধতি.
  • যোগ করা হয়েছে CharacterReference.appendCharTo (Appendable) পদ্ধতি.
  • যোগ করা হয়েছে OutputDocument (সেগমেন্টের) রচয়িতা.
  • যোগ করা হয়েছে StreamedSourceCopy নমুনা প্রোগ্রাম.

সংস্করণ 3.0 নতুন কি:

  • বাগ সংশোধন করা হয়েছে:

  • ইউনিকোড সম্পূরক অক্ষর প্রতিনিধিত্বমূলক
  • ক্যারেক্টার রেফারেন্স UTF-16 কোড ইউনিট জোড়া সঠিকভাবে সঙ্কেতমুক্ত না হয়.

  • চাহিদা মোড পারসে বলা যদি
  • [2188446] Element.getDepth () এবং Element.getParentElement () ভুল ফলাফল ফিরে আসেন.
  • মন্তব্য এখন ভিতরে ও LT স্বীকৃত হয়; স্ক্রিপ্ট করুন & gt; উপাদান.

  • অনগ্রসর সামঞ্জস্যপূর্ণ হয় না
  • API- র পরিবর্তন:
  • পরিবর্তন প্যাকেজের নাম net.htmlparser.jericho থেকে
  • গুন মান এখন স্ট্রিং বরং CharSequence হতে হবে.

  • পূর্ববর্তী সংস্করণ থেকে
  • সরানো সব অবচিত পদ্ধতি / ক্লাস.
  • সব সব ট্যাগ অনুসন্ধান পদ্ধতি জুড়ে একটি সামঞ্জস্যপূর্ণ নামকরণের আবেদন করার জন্য * পেতে পদ্ধতি পক্ষে অবচিত * পদ্ধতি এটি.
  • ট্যাগ, এলিমেন্ট এবং HTMLElements ক্লাস আর HTMLElementName ইন্টারফেস বাস্তবায়ন. (পরিবর্তে স্ট্যাটিক আমদানি ব্যবহার করুন)
  • সব স এখন stongly জেনেরিক্স ব্যবহার করে টাইপ করা.
  • Enum করতে FormControlOutputStyle বর্গ পরিবর্তন হয়েছে.

  • Enum করতে
  • পরিবর্তন FormControlType বর্গ.
  • যোগ করা হয়েছে CharStreamSource.appendTo (Appendable) পদ্ধতি.
  • যোগ করা হয়েছে Source.iterator () পদ্ধতি.
  • উত্স এখন Iterable কার্যকরী.
  • অভ্যন্তরীণভাবে ভালো পারফরম্যান্সের জন্য StringBuilder ব্যবহার করে.
  • যোগ করা হয়েছে Source.getNextStartTag (StartTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getNextEndTag (EndTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getPreviousStartTag (StartTagType) পদ্ধতি.
  • যোগ করা হয়েছে Source.getPreviousEndTag (EndTagType) পদ্ধতি.
  • যোগ করা হয়েছে Segment.getAllStartTags (StartTagType) পদ্ধতি.
  • সব Segment.getFirst * পদ্ধতি যোগ করা হয়েছে.
  • যোগ করা হয়েছে Renderer.renderHyperlinkURL (StartTag) পদ্ধতি.
  • যোগ করা হয়েছে HTMLSanitiser নমুনা প্রোগ্রাম.
  • আপগ্রেড slf4j-API-1.5.6 থেকে

আবশ্যক

  • জাভা 2 স্ট্যান্ডার্ড সংস্করণ রানটাইম এনভায়রনমেন্ট

অনুরূপ সফ্টওয়্যার

ChkTeX
ChkTeX

20 Feb 15

html2text
html2text

3 Jun 15

uni2ascii
uni2ascii

11 May 15

বিকাশকারী অন্যান্য সফ্টওয়্যার Martin Jericho

মন্তব্য Jericho HTML Parser

পাওয়া মন্তব্যসমূহ না
মন্তব্য যোগ করুন
ছবি চালু!