Apache Nutch

সফটওয়্যার স্ক্রিনশট:
Apache Nutch
সফটওয়্যার বিবরণ:
সংস্করণ: 2.3
তারিখ আপলোড: 1 Mar 15
ডেভেলপার: Apache Software Foundation
লাইসেন্স: বিনামূল্যে
জনপ্রিয়তা: 128

Rating: 3.0/5 (Total Votes: 1)

এ্যাপাচি Nutch উপরে নির্মিত হয়, এ্যাপাচি Lucene, একটি শক্তিশালী জাভা সার্চ ইঞ্জিন.
Nutch ডেভেলপারদের বিশেষভাবে ওয়েব তথ্য অনুসন্ধানের জন্য নিবেদিত একটি প্রকল্পের মধ্যে তথ্য-অজ্ঞেয়বাদী Lucene কোডবেসের রূপান্তর, Lucene কোডবেসের পরিবর্তন.
এই প্রযুক্তি একটি বিল্ট ইন অনুসন্ধান সার্ভার হিসাবে আপনার নিজের ওয়েব পেজ অনুসন্ধান করুন, অথবা পার্স এবং আপনার ডাটাবেসের মধ্যে গেরো তথ্য খুঁজছেন ওয়েব হামাগুড়ি ব্যবহার করা যেতে পারে.
Nutch একটি একক মেশিন চালানো, কিন্তু, Hadoop ক্লাস্টার ভাল কাজ করে যাবে.
বিভিন্ন প্লাগিন তার ব্যবহার বর্ণালী বিস্তৃত জন্য উপলব্ধ

এই রিলিজে নতুন কি:.

  • ডুপ্লিকেট ট্যাগ অস্তিত্ব না তা নিশ্চিত microformat-reltag ট্যাগ সেট.
  • ভাল তারিখ ক্ষেত্রের জন্য মান ফিরে.
  • dreaded.
  • পরিত্রাণ পান
  • Hadoop 1.2.0 আপগ্রেড করুন.
  • Tika 1.3 আপগ্রেড করুন.

সংস্করণ 2.0 নতুন কি:.

  • ParseFilter মধ্যে HTMLParseFilter নামকরন করুন
  • lib-HTTP.
  • অবশিষ্ট রোবট / আইপি ব্লক কোড সরান
  • পোর্ট লগিং slf4j করতে.
  • বাহ্যিক পার্সার এনকোডিং বৈশিষ্ট্য সমর্থন করে.
  • আইভি কনফিগারেশন সেটিংস গোরা অন্তর্ভুক্ত করবেন না.
  • Injector injectedScore কলিং আগে মেটাডাটা যোগ করা উচিত.
  • Nutchbase পোর্ট Nutch মাত্রাবিশিষ্ট.
  • ফিরে পার্স এইচটিএমএল যোগ করুন.
  • MoreIndexingFilter অনুপস্থিত তারিখ বিন্যাস.
  • পার্সার জন্য সময়সীমা সমাপ্ত.
  • হামাগুড়ি তারিখ আবার চেষ্টা করুন ব্যবধান 0 সেট করা হয়.
  • solr indexer এবং dedup জন্য লগ আউটপুট নির্মাণ করা হয়.
  • উন্নত NutchConfiguration.
  • SolrDeleteDuplicates SolrRecord বস্তু ক্লোন করা প্রয়োজন.

  • Maven মাধ্যমে পাওয়া যায় না
  • দেশীয় Hadoop লিব.
  • আলাদা বিল্ড এবং রানটাইম এনভায়রনমেন্ট.

কি সংস্করণ 1.5 নতুন:

  • এই রিলিজে বেশ কয়েকটি প্রধান উপাদান আপগ্রেড সহ বিভিন্ন উন্নতি করা হয়েছে টিকা 1.1 এবং Hadoop 1.0.0, LinkRank উন্নতি এবং WebGraph উপাদান হিসেবে, লিস্ট ফিল্টারিং আচ্ছাদন এবং কয়েক নাম পার্স নতুন প্লাগইন একটি সংখ্যা.

সংস্করণ 1.4 নতুন কি:.

  • যোগ করা হয়েছে Solr 4x (ট্রাঙ্ক) উদাহরণস্বরূপ স্কিমা করুন
  • যোগ করা হয়েছে '/ রানটাইম' উপেক্ষা svn থেকে.
  • অ্যাপ্লিকেশন / XHTML + + XML পার্স এইচটিএমএল এর plugin.xml সক্রিয় করা উচিত; plugin.xml জন্য একাধিক ডায়ালগের অনুমতি দেয়.
  • স্থায়ী পার্স-টিকা এবং একটি RFC-3986 প্রতি আপেক্ষিক ইউআরএল রেজল্যুশন ব্যবহার করতে এইচটিএমএল বিশ্লেষণ.
  • Tika 0.10 আপগ্রেড. উল্লেখ্য:. পূর্বে চেয়ে বিকৃত নথি আরো লেখা উপেক্ষা করা হতে পারে Tika এর নতুন RTF পরস্পরের পার্সার - বিস্তারিত জানার জন্য টিকা-748 দেখতে করুন

  • পিপীলিকা build.xml করতে
  • যোগ করা হয়েছে সোনার লক্ষ্যমাত্রা.

  • সংস্করণ 3.4.0 থেকে SolrJ আপগ্রেড
  • .
  • পিপীলিকা PMD লক্ষ্য নষ্ট হয়ে গেছে.
  • সংস্করণ 1.4 আপগ্রেড Solr স্কিমা.

কি সংস্করণ 1.3 নতুন:

  • এই রিলিজে বিভিন্ন উন্নতি (উন্নত আরএসএস পার্স সমর্থন, কঠিন এ্যাপাচি Tika, বহিরাগত পার্সিং সমর্থন, উন্নত ভাষা সনাক্তকরণ এবং মাত্রার ছোট উৎস রিলিজ tarball রূপে একটি আদেশ সাথে ইন্টিগ্রেশন -. শুধুমাত্র 2MB সম্পর্কে)

সংস্করণ 1.2 নতুন কি:.

  • করুন সূচক আরো প্লাগ-ইন কনফিগার করুন
  • কনফিগার ফাইল প্রোটোকল পিতা বা মাতা ডিরেক্টরি ক্রলিং.
  • পার্সার জন্য সময়সীমা সমাপ্ত.
  • ওয়েবসাইট এখনও Lucene চিহ্নিত করা হয়.
  • হামাগুড়ি তারিখ আবার চেষ্টা করুন ব্যবধান 0 সেট করা হয়.

কি সংস্করণ 1.0 নতুন:.

  • পারজার একাধিক পার্স বস্তু ফিরে অনুমতি দিন

  • তত্ত্ববিদ্যা প্লাগ থেকে
  • সরানো হয়েছে অতিরিক্ত কমন্স-লগিং বয়াম.
  • SegmentReader মধ্যে বাগ অসীম লুপ হয়.
  • স্কোরিং ফিল্টার একবারে সব outlinks স্কোর বিতরণ করা উচিত.
  • nutch কোর সতর্কবার্তা সংখ্যা হ্রাস করুন.

অনুরূপ সফ্টওয়্যার

VisualSearch.js
VisualSearch.js

13 May 15

sitemap.js
sitemap.js

10 Feb 16

ack
ack

10 Feb 16

ElasticSearch
ElasticSearch

12 Mar 16

বিকাশকারী অন্যান্য সফ্টওয়্যার Apache Software Foundation

Apache VXQuery
Apache VXQuery

12 Apr 15

Apache Lens
Apache Lens

10 Dec 15

Apache Storm
Apache Storm

20 Jul 15

Apache AntUnit
Apache AntUnit

13 May 15

মন্তব্য Apache Nutch

পাওয়া মন্তব্যসমূহ না
মন্তব্য যোগ করুন
ছবি চালু!
বিভাগ দ্বারা অনুসন্ধান