এ্যাপাচি Nutch প্রকল্প এ্যাপাচি Lucene (জাভা সংস্করণ) লাইব্রেরি তৈরি করে যে, একটি ওপেন সোর্স, আকার পরিবর্তনযোগ্য, অত্যন্ত এক্সটেনসিবল এবং বিনামূল্যে ওয়েব ভিত্তিক ওয়েব ক্রলার সফ্টওয়্যার.
এটা যেমন এটা এ্যাপাচি ফাউন্ডেশন, তা দুটি পৃথক শাখা দ্বারা বিকশিত ও বিতরণ করা হয় ইত্যাদি একটি ক্রলার, একটি লিঙ্ক-গ্রাফ ডাটাবেস, এইচটিএমএল এবং অন্যান্য ডকুমেন্ট ফরম্যাটের জন্য পারজার, যেমন ওয়েব সুনির্দিষ্ট, যোগ করা হয়েছে.
মডুলার এবং প্লাগেবল হচ্ছে, এ্যাপাচি Nutch যেমন পার্সিং জন্য এ্যাপাচি Tika হিসাবে কাস্টম বাস্তবায়নের জন্য পার্স, সূচক ও ScoringFilter মত এক্সটেনসিবল ইন্টারফেস প্রদান করে, তার সুফল আছে.
তাছাড়া, এ্যাপাচি Nutch মেশিনের চালানোর পরিকল্পনা, কিন্তু একটি Hadoop ক্লাস্টারের মধ্যে চলমান যখন এটি আরো শক্তিশালী হয়. টার্মিনাল ইন্ডেক্স ইত্যাদি ইলাস্টিক অনুসন্ধান, এ্যাপাচি Solr জন্য বিদ্যমান
এই রিলিজে নতুন কি:.
- NUTCH-1779 প্রয়োগ কোড বিন্যাস (lewismc)
<লি> HostDbUpdateReducer (lewismc) মধ্যে নিমন্ত্রণকর্তা করতে Outlinks এর NUTCH-1907 ভুল আউটপুট
<লি> NUTCH-1856 ডকুমেন্ট webpage.avsc এবং host.avsc (lewismc)
<লি> NUTCH-1834 GeneratorMapper আচরণ (snagel মাধ্যমে গেরহার্ড Gossen) লগ স্তরের উপর নির্ভর করে
<লি> বিল্ড ব্যর্থতা (তালাত) প্রতিরোধ NUTCH-1899 আপগ্রেড restlet lib করুন - NUTCH-1590 [নিরাপত্তা] ফ্রেম ইনজেকশন দুর্বলতা (jnioche)
HTTP প্রতিক্রিয়া হেডার স্থানান্তর এনকোডিং রয়েছে তাহলে <লি> NUTCH-1736 পৃষ্ঠা আনা যায় না: chunked (ysc মাধ্যমে jnioche)
<লি> NUTCH-1782 NodeWalker বর্তমান নোড (Markus) ফিরে করুন - NUTCH-1700 সরান অবচিত কোড / creativecommons / build.xml (lewismc)
<লি> NUTCH-1761 হামাগুড়ি স্ক্রিপ্ট বিন Dir ভিতর থেকে শুরু না হলে কাজ ফাইল খুঁজে পেতে ব্যর্থ (ডেভিড Hosking, jnioche)
<লি> NUTCH-1603 জিপ পার্সার সম্পর্কে ছেঁটে ফেলা পিডিএফ ফাইল (lewismc মাধ্যমে snagel) complains
<লি> NUTCH-1797 Remove অব্যবহৃত বাক্স oanhtml (snagel মাধ্যমে সৌরভ Chhajed)
<লি> NUTCH-1888 TikaParser (jnioche মাধ্যমে Halil simsek) ব্যবহার করার জন্য HTMLMapper উল্লেখ করুন
<লি> প্লাগ এক্সএমএল ত্রুটি নিয়ে NUTCH-1897 সুষ্ঠু ডিবাগিং (Markus)
<লি> NUTCH-1823 আপগ্রেড elasticsearch করতে 1.4.1 (ফু Kieu, Markus, lewismc)
<লি> NUTCH-1829 জেনারেটর: বাস্তব ত্রুটি পার্থক্য করতে অক্ষম (Mathieu Bouchard, jnioche, snagel)
<লি> NUTCH-1778 জেনারেটরের সঠিকভাবে ব্যাচে URL গুলির সংখ্যা লগিং না (jnioche মাধ্যমে snagel)
<লি> NUTCH-1877 প্রত্যয় ইউআরএল ফিল্টার ডিফল্টরূপে কোয়েরি স্ট্রিং উপেক্ষা করা (snagel মাধ্যমে Markus)
<লি> NUTCH-1825 প্রোটোকল-HTTP নির্দিষ্ট ওয়েব পেজ-এর জন্য স্তব্ধ হতে পারে (snagel মাধ্যমে ফু Kieu)
<লি> NUTCH-1483 প্রোটোকল-ফাইল প্লাগ সঙ্গে ফাইলসিস্টেম হামাগুড়ি পারবেন না (Rogerio পরেরা Araujo, Mengying ওয়াং, snagel)
<লি> NUTCH-1885 প্রোটোকল-ফাইল পুননির্দেশনা সিম্বোলিক লিঙ্ক (Mengying ওয়াং, snagel) কেমন আচরণ করা উচিত
<লি> NUTCH-1880 URLUtil ফাইল URL জন্য অতিরিক্ত স্ল্যাশ যোগ করা উচিত নয় (snagel)
<লি> NUTCH-1879 Regex ইউআরএল normalizer ফাইলের পর একাধিক স্ল্যাশ মুছে ফেলা আবশ্যক: প্রোটোকল (snagel)
<লি> NUTCH-1820 Remove ক্ষেত্রের জন্য & quot; orig করুন & quot; যা সদৃশ করুন & quot; আইডি করুন & quot; (Lewismc, snagel)
<লি> গোরা 0.5 NUTCH-1843 আপগ্রেড (তালাত, lewismc, Kiril Menshikov, drazzib)
<লি> NUTCH-1883 বিন / হামাগুড়ি: ব্যবহারের ফাংশন বিন / nutch চালানো এবং প্রস্থান মান পরীক্ষা করার জন্য (snagel)
<লি> NUTCH-1882 পিপীলিকা Eclipse টার্গেট SRC / পরীক্ষা আউটপুট পাথ যোগ করার (snagel)
<লি> NUTCH-1827 পোর্ট NUTCH-1467 এবং NUTCH-1561 2.x করতে (snagel)
<লি> ক্রলার কমন্স NUTCH-1876 আপগ্রেড 0.5 (jnioche)
<লি> NUTCH-1866 পিপীলিকা Eclipse টার্গেট রানটাইম মোছা উচিত (nimafl মাধ্যমে lewismc)
<লি> NUTCH-1859 Nutch WebApp পোর্ট কনফিগার করুন (lewismc মাধ্যমে নিমা Falaki)
<লি> DashboardPage.html দৃষ্টান্ত পাল্টা NUTCH-1848 বাগ (lewismc মাধ্যমে নিমা Falaki)
<লি> NUTCH-841 Nutch (lewismc মাধ্যমে Fjodor Vershinin) জন্য একটি করে উইকেট ভিত্তিক ওয়েব অ্যাপ্লিকেশন তৈরি করুন
<লি> NUTCH-1832 (mattmann মাধ্যমে lewismc) একটি indexer ছাড়া Nutch কাজ করুন
<লি> NUTCH-1840 SolrIndexWriter বর্ণনা ফাংশন সঠিক নয় (jnioche মাধ্যমে kaveh minooie)
<লি> Tika 1.6 (lewismc) করতে NUTCH-1837 আপগ্রেড করুন
<লি> NUTCH-1829 জেনারেটর: বাস্তব ত্রুটি পার্থক্য করতে অক্ষম (jnioche মাধ্যমে Mathieu Bouchard)
<লি> NUTCH-1828 বিন / হামাগুড়ি: nutch ত্রুটি ভুল হ্যান্ডলিং (jnioche মাধ্যমে Mathieu Bouchard)
<লি> NUTCH-1693 TextMD5Signature টেক্সট (তিয়েন নগুয়েন Manh, Markus মাধ্যমে snagel) নির্ণিত করুন
<লি> NUTCH-1409 Remove অবচিত বৈশিষ্ট্য ডিবি. {ডিফল্ট, সর্বোচ্চ} .fetch.interval, generate.max.per.host.by.ip (snagel মাধ্যমে মাটিয়াস Agethle)
<লি> GeneratorJob (lewismc মাধ্যমে Fjodor Vershinin) এ NUTCH-1819 batchId করুন
<লি> NUTCH-1708 ব্যবহার করেন সেই একই আইডি যখন ইন্ডেক্স ও মুছে ফেলার পুননির্দেশনা (snagel)
<লি> NUTCH-1817 উৎস থেকে pom.xml সরান (jnioche)
<লি> NUTCH-1811 বিন / প্রোগ্রামিং ভাষা 4 পরীক্ষা রানার (snagel) ব্যবহার করতে nutch প্রোগ্রামিং ভাষা
<লি> NUTCH-1776 কার্যবিবরণী ভুল plugin.folder ফাইল পাথ (snagel মাধ্যমে Diaa)
<লি> NUTCH-1566 বিন / পাথের মধ্যে হোয়াইটস্পেস (tejasp, snagel) অনুমতি nutch করুন
<লি> NUTCH-1605 MIME প্রকার আবিষ্কারক ZIP ফাইল (snagel) হিসাবে XLSX স্বীকার
<লি> NUTCH-385 প্রাপ্তকারী (jnioche, Lufeng) জন্য থ্রেড সম্পর্কিত কনফিগারেশন বর্ণনা উন্নত
সঠিকভাবে <লি> NUTCH-1798 হামাগুড়ি স্ক্রিপ্ট আহ্বান না সূচক কমান্ড (আরন Bedward jnioche মাধ্যমে)
<লি> NUTCH-1769 REST API- টি refactoring (lewismc মাধ্যমে Fjodor Vershinin)
<লি> NUTCH-1633 slf4j Hadoop দ্বারা উপলব্ধ করা হয় এবং (jnioche মাধ্যমে kaveh minooie) কাজ ফাইলের মধ্যে অন্তর্ভুক্ত করা উচিত নয়,
<লি> NUTCH-1787 আপডেট এবং সম্পূর্ণ এপিআই ডক সংক্ষিপ্ত বিবরণ পৃষ্ঠা (snagel)
<লি> NUTCH-1767 বিশেষ চিকিত্সা অপসারণ করুন & quot; প্যারাম করুন & quot; আপেক্ষিক লিঙ্ক এ (snagel)
<লি> NUTCH-1718 পুনরায় সংজ্ঞায়িত http.robots.agent & quot; অতিরিক্ত এজেন্ট নাম করুন & quot; (Snagel, Tejas, পাতিল, ড্যানিয়েল Kugel)
খালি কন্সট্রাকটর করতে (lewismc মাধ্যমে snagel) বিরোধিতা হিসেবে <লি> NUTCH-1796 নিশ্চিতকরণ গোরা বস্তুর নির্মাতা ব্যবহার করা হয়
প্রকাশিত Javadoc
<লি> NUTCH-1781 আপডেট Gora - * - mapping.xml এবং gora.proeprties গোরা 0.4 প্রতিফলিত (lewismc)
<লি> ElasticSearch 1.1.0 (jnioche) করতে NUTCH-1768 আপগ্রেড করুন
<লি> NUTCH-1634 readdb -পরিসংখ্যান দুইবার ফলাফল দেখায় (kaveh minooie jnioche মাধ্যমে)
<লি> NUTCH-1780 TTL এবং বৈশিষ্ট্যাবলী Gora-Cassandra-mapping.xml ফাইল থেকে অনুপস্থিত হয় gc_grace_seconds (kaveh minooie lewismc মাধ্যমে)
<লি> NUTCH-1676 প্রোটোকল-HTTP (jnioche, Markus) করতে অপূর্ণাঙ্গ SSL সমর্থন যোগ করুন
<লি> NUTCH-1674 ব্যবহার batchId ফিল্টার সক্রিয় করতে (Gora-119) স্ক্যান পান জন্য, পার্স, আপডেট, ইনডেক্স (jnioche মাধ্যমে তিয়েন নগুয়েন Manh এবং Alparslan Avci)
<লি> গোরা 0.4 যাও NUTCH-1714 আপগ্রেড (jnioche মাধ্যমে Alparslan Avci)
<লি> NUTCH-1752 ক্যাশে robots.txt নিয়ম প্রোটোকল প্রতি: হোস্ট: পোর্ট (snagel)
<লি> এ NUTCH-1613 সময়সীমা উত্তীর্ণ প্রোটোকল-HTTPClient সঙ্গে & জি.টি. একই হোস্ট ক্রল করার সময়; 2 থ্রেড (brian44 মাধ্যমে jnioche)
<লি> Hung থ্রেড লগ ইন করার NUTCH-1182 প্রাপ্তকারী (snagel)
<লি> NUTCH-1618 আনা হচ্ছে (তালাত) জন্য ফটকামূলক মৃত্যুদন্ড বন্ধ করুন
<লি> NUTCH-1657 ORIGINAL_CHAR_ENCODING এবং HTMLParser (তালাত) সেট না CHAR_ENCODING_FOR_CONVERSION করুন
<লি> NUTCH-1725 CleaningJob এর রিডিউসার মোছা ডক্স কমিট না. (তালাত মাধ্যমে ilhamikalkan)
<লি> NUTCH-1728 indexer-solr প্লাগ Solr থেকে ডক্স মুছে না হয় (ilhamikalkan মাধ্যমে তালাত)
<লি> 2.x জন্য NUTCH-1753 অন্ধকার dependecy সমস্যা (তালাত)
<লি> HttpBase.java (jnioche মাধ্যমে ওয়াল্টার Tietze) এ NUTCH-1720 প্রতিলিপি লাইন
<লি> লিঙ্কটি লক্ষ্য একটি & quot দিয়ে শুরু যখন NUTCH-797 URL- সঠিকরূপে নির্মিত হয়নি;? & Quot; (ডগ কুক, রবার্ট Hohman, Stondet, snagel মাধ্যমে এবি)
<লি> ক্রলার কমন্স NUTCH-1759 আপগ্রেড 0.4 (jnioche)
Src / প্লাগিন
<লি> NUTCH-1743 parsechecker outlinks দেখানোর জন্য (snagel)
<লি> NUTCH-1732 (lewismc মাধ্যমে Fjodor Vershinin) NutchServer জন্য পার্সিং উন্নততর করুন cmd লাইন
<লি> NUTCH-1751 খালি নোঙ্গর উচিত না সূচক (lewismc মাধ্যমে Sertac TURKEL)
<লি> NUTCH-1733 পারসে-এইচটিএমএল সমর্থন HTML5 এর অক্ষরসেট সংজ্ঞা (snagel)
<লি> NUTCH-1727 TLDs জন্য কনফিগার দৈর্ঘ্য (lewismc মাধ্যমে Sertac TURKEL)
<লি> NUTCH-1738 GeneratorJob (ewismc মাধ্যমে তালাত UYARER) ব্যাচ প্রতি উত্পন্ন URL গুলির সংখ্যা প্রকাশ করুন
<লি> ক্ষেত্র (snagel, Lufeng) হজম যোগ NUTCH-1671 indexchecker করুন
<লি> NUTCH-1645 প্রোগ্রামিং ভাষা টেস্ট কেস অভিযোজিত জন্য সূচি বর্গ পান (ইয়াসিন Kilinc, Lufeng, snagel মাধ্যমে Sertac Urkel)
Nutch 2.x সিরিজের জন্য <লি> NUTCH-1478 পার্স-metatags এবং সূচক-মেটাডাটা প্লাগইন (কিরণ, নগুয়েন Anh তিয়েন, তালাত UYARER, lewismc মাধ্যমে Vangelis Karvounis)
<লি> Tika 1.5 (jnioche) করতে NUTCH-1729 আপগ্রেড করুন
<লি> NUTCH-1721 সাধারণ ক্রলার আপগ্রেড 0.3 (tejasp)
ইউআরএল (lewismc মাধ্যমে গেরহার্ড Gossen) unreversed না হওয়ার কারণে <লি> NUTCH-1719 DomainStatistics 2.x এ ব্যর্থ
<লি> NUTCH-1253 Incompatable Neko এবং xerces সংস্করণ (snagel, lewismc, তালাত UYARER)
<লি> NUTCH-1715 RobotRulesParser রোবট নাম (tejasp) এর সাথে '*' অতিরিক্ত যোগ
<লি> NUTCH-356 প্লাগ সংগ্রহস্থলের ক্যাশে মেমরি লিক হতে পারে (এনরিকো Triolo, Dogacan Guney মাধ্যমে Markus)
প্রোটোকল-HTTP (tejasp মাধ্যমে Sertac TURKEL) জন্য <লি> NUTCH-1164 লিখুন প্রোগ্রামিং ভাষা পরীক্ষা করুন
Log4j.properties করতে <লি> NUTCH-1710 যোগ Gora বাক্স লগিং (lewismc)
<লি> (lewismc মাধ্যমে তালাত UYARER) ইলাস্টিক অনুসন্ধান জন্য NUTCH-1655 indexer প্লাগইন
<লি> NUTCH-1699 Tika পার্সার - চিত্র পার্স বাগ (Mehmet জাহিদ Yuzuguldu, lewismc মাধ্যমে snagel)
<লি> NUTCH-1568 পোর্ট প্লাগেবল ইন্ডেক্স স্থাপত্যবিদ্যা 2.x করতে (lewismc মাধ্যমে তালাত UYARER)
<লি> NUTCH-1672 inlinks (lewismc মাধ্যমে তিয়েন নগুয়েন Manh) DbUpdateReducer দুইবার যোগ করা হয়
<লি> NUTCH-1667 অন্তর updatedb সবসময় উপেক্ষা batchId (lewismc মাধ্যমে তিয়েন নগুয়েন Manh)
<লি> NUTCH-1695 NutchDocument.toString () (Markus মাধ্যমে lewismc)
<লি> NUTCH-1696 ব্যবহার সক্ষম (গোরা) স্ন্যাপশটের নির্ভরতা (lewismc)
<লি> URLUtil.java ইন NUTCH-1681, toUNICODE পদ্ধতি সঠিকভাবে কাজ করে না (একটি
পাওয়া মন্তব্যসমূহ না