এ এ্যাপাচি স্পার্ক এ তথ্য বিশ্লেষণ এবং ম্যানিপুলেশন প্রোগ্রাম জন্য প্রসেসিং গতি উন্নতি করার পরিকল্পনা করা হয়েছিল. '
এটি জাভা এবং Scala সালে লেখা হয়েছিল এবং অন্যান্য সিস্টেমের মধ্যে পাওয়া বৈশিষ্ট্য উপলব্ধ করা হয়, কারণ বেশিরভাগ তারা মূলধারার কিংবা অ ডাটা প্রসেসিং অ্যাপ্লিকেশনের জন্য যে দরকারী নও. '
ঢাকা স্পার্ক প্রথম UC বার্কলে, AMP ল্যাব সৃষ্টি এবং পরে অ্যাপাচি সফটওয়্যার ফাউন্ডেশন দান করা হয়?
এই রিলিজে নতুন .
- ইউনিফায়েড মেমরি ম্যানেজমেন্ট -. মৃত্যুদন্ড এবং অঞ্চলে একচেটিয়া বিভাগের পরিবর্তে ক্যাশে জন্য ভাগকরা মেমরি করুন
- কোর এপিআই এখন সমর্থিত মাল্টি লেভেল অ্যাগ্রিগেশন গাছ সাহায্য করার জন্য গতি ব্যয়বহুল অপারেশন কমাতে.
- কোর এপিআই এখন সমর্থিত মাল্টি লেভেল অ্যাগ্রিগেশন গাছ সাহায্য করার জন্য গতি ব্যয়বহুল অপারেশন কমাতে.
- PySpark এর সাজানোর অপারেটর এখন বৃহৎ ডেটাসেট জন্য বাহ্যিক spilling সমর্থন .
- এই রিলিজে, স্পার্ক এর মান লাইব্রেরি বিস্তৃতি একটি নতুন উপস্থাপক এসকিউএল প্যাকেজ (স্পার্ক এসকিউএল) দেয় ব্যবহারকারীদের বিদ্যমান স্পার্ক কর্মপ্রবাহ মধ্যে এসকিউএল কোয়েরি সংহত.
- বাহ্যিক spilling সালে সংশোধন করা হয়েছে হ্যাশ সংঘর্ষের বাগ করুন
- ডেভেলপমেন্ট একটি যেমন এ্যাপাচি Sowftware ফাউন্ডেশন থেকে সরানো হয়েছে ইনকিউবেটর প্রকল্প.
- পাইথন কর্মক্ষমতা: পাইথন ভার্চুয়াল মেশিনের জন্য ডিম ছাড়ার জন্য স্পার্ক এর প্রক্রিয়া আছে তাই দ্রুত করতে হবে যখন জেভিএম বৃহৎ গাদা আকার হয়েছে, Python API উপস্থিত দ্রুত গাড়ী চালানোর আপ উন্নত করা.
- Scala সংস্করণ 2.9.3 আপডেট করা লি>
<লি> বাগেল থেকে বেশ কিছু উন্নতি, কর্মক্ষমতা সংশোধন করা হয়েছে এবং একটি কনফিগারযোগ্য স্টোরেজ স্তর সহ. - Spark 0.7 PySpark নামক একটি পাইথন এপিআই যোগ <. / li>
<লি> স্পার্ক কাজ এখন প্রতিটি বিতরণ ডেটা সেটটি (RDD) কর্মসূচির মধ্যে মেমরির ব্যবহার নিরীক্ষণ জন্য একটি ওয়েব ড্যাশবোর্ড চালু করুন. - ফিক্সড মাত্রাতিরিক্ত আক্রমনাত্মক বার্তা সময়সীমা উত্তীর্ণ যে শ্রমিক সৃষ্টি করতে পারে ক্লাস্টার থেকে সংযোগ বিচ্ছিন্ন করুন.
- বাগ পূর্বে থেকে ব্যর্থ সর্বক্ষমতার অধিকারী ID- র পেয়ে সংশোধন করা হয়েছে.
- সহজ স্থাপনার করুন
- নতুন যোগাযোগ অ্যাসিঙ্ক্রোনাস জাভা Nio ব্যবহার ম্যানেজার এলোমেলো অপারেশন, দ্রুত রান, বিশেষ করে যখন তথ্য বা যখন কাজ অনেক কর্ম আছে বিশাল পরিমাণ পাঠানোর দেয়.
- নতুন স্টোরেজ ব্যবস্থাপক সমর্থন প্রতি ডেটাসেটে স্টোরেজ স্তর সেটিংস (যেমন মেমরি ডেটা সেটটি রাখার কিনা, deserialized, ডিস্কে, ইত্যাদি, অথবা এমনকি নোড জুড়ে প্রতিলিপি).
<লি> Parquet পারফরমেন্স - Parquet কর্মক্ষমতা স্ক্যান যখন ফ্ল্যাট স্কিমার ব্যবহার উন্নত করুন .
থাকার স্বতন্ত্র aggregations প্রশ্নের জন্য <লি> উন্নত ক্যোয়ারী পরিকল্পক -. স্বতন্ত্র aggregations এর কোয়েরি পরিকল্পনা আরো জোরালো যখন স্বতন্ত্র কলাম উচ্চ cardinality আছে করুন
<লি> অভিযোজিত ক্যোয়ারী মৃত্যুদন্ড -. স্বয়ংক্রিয়ভাবে যোগদান করে এবং aggregations জন্য reducers সংখ্যা নির্বাচন জন্য প্রারম্ভিক সহায়তা করুন
<লি> ডাটা উত্স API মধ্যে ডবল ফিল্টার এড়ানো -. যখন ফিল্টার pushdown সঙ্গে একটি ডাটাবেস বাস্তবায়ন, ডেভেলপারদের এখন একটি ধাক্কা-ডাউন ফিল্টার মূল্যায়নের ডবল এড়াতে স্পার্ক এসকিউএল বলতে পারেন করুন
<লি> ফাস্ট নাল-নিরাপদ যোগদান - নাল-নিরাপদ সমতা ব্যবহার যোগদানকারি (& # x3c; = & # x3e;) এখন একটি cartisian পণ্য কম্পিউটিং SortMergeJoin ব্যবহার মারব পরিবর্তে করুন .
<লি> ইন-মেমোরি স্তম্ভাকার ক্যাশে পারফরমেন্স - উল্লেখযোগ্যভাবে (14x থেকে) গতি যখন ডেটা যে DataFrames বা এসকিউএল জটিল ধরনের রয়েছে ক্যাশে করুন .
<লি> এসকিউএল এক্সেকিউশন অফ গাদা মেমরি ব্যবহার - কোয়েরি সঞ্চালনের কনফিগার করার জন্য সমর্থন বন্ধ-গাদা মেমরি ব্যবহার জিসি ওভারহেড এড়াতে সঞ্চালনের করুন
নতুন সংস্করণ 1.5.2 মধ্যে
<লি> উন্নত এরর রিপোর্টিং নির্দিষ্ট gotcha এ অভিযানের জন্য যোগ করা হয়েছে.
<লি> স্পার্ক এর জেটি নির্ভরতা এখন সাহায্য করতে ব্যবহারকারী প্রোগ্রাম সঙ্গে সংঘাত এড়াতে ছায়াময় হয়.
<লি> স্পার্ক এখন SSL এনক্রিপশন কিছু যোগাযোগের শেষ বিন্দুর জন্য সমর্থন.
<লি> রিয়েলটাইম জিসি ছন্দোবিজ্ঞান এবং রেকর্ড গণনা UI 'তে যোগ করা হয়েছে.
নতুন সংস্করণ 1.4.0 মধ্যে
<লি> উন্নত এরর রিপোর্টিং নির্দিষ্ট gotcha এ অভিযানের জন্য যোগ করা হয়েছে.
<লি> স্পার্ক এর জেটি নির্ভরতা এখন সাহায্য করতে ব্যবহারকারী প্রোগ্রাম সঙ্গে সংঘাত এড়াতে ছায়াময় হয়.
<লি> স্পার্ক এখন SSL এনক্রিপশন কিছু যোগাযোগের শেষ বিন্দুর জন্য সমর্থন.
<লি> রিয়েলটাইম জিসি ছন্দোবিজ্ঞান এবং রেকর্ড গণনা UI 'তে যোগ করা হয়েছে.
আপনি কি নতুন সংস্করণ 1.2.0
<লি> PySpark এখন সম্প্রচারের ভেরিয়েবল 2GB চেয়ে বড় সমর্থন ও প্রকারের সময় বাহ্যিক spilling সঞ্চালিত হবে.
<লি> স্পার্ক স্পার্ক ইউআই একটি কাজ-স্তর অগ্রগতি পাতা, অগ্রগতি প্রতিবেদনের জন্য একটি স্থিতিশীল এপিআই, এবং কাজ সম্পূর্ণ. যেমন আউটপুট ছন্দোবিজ্ঞান গতিশীল হালনাগাদকরণ যোগ
<লি> স্পার্ক এখন ইমেজ এবং অন্যান্য বাইনারি ফরম্যাটের জন্য বাইনারি ফাইল পড়ার জন্য সমর্থন রয়েছে.
নতুন সংস্করণ 1.0.0 মধ্যে এ কি:
<লি> MLlib, স্পার্ক এর মেশিন লার্নিং গ্রন্থাগার, স্পার্স ভেক্টর সমর্থন এবং বেশ কিছু নতুন আলগোরিদিম সঙ্গে প্রসারিত করা হয়েছে.
নতুন সংস্করণ 0.9.1
<লি> ব্যবহারকারীদের অন্যান্য লগিং ব্যকেন্ড উপর ভরসা স্পার্ক এর log4j সঙ্গে স্থায়ী দ্বন্দ্ব করুন
<লি> ফিক্সড Graphx ম্যাভেন মধ্যে স্পার্ক সমাবেশ বয়াম থেকে অনুপস্থিত তৈরী করুন
<লি> ফিক্সড নীরব আক্কা ফ্রেমের আকার মাত্রাধিক আউটপুট অবস্থা মানচিত্র কারণে ব্যর্থতা করুন
<লি> এএসএম উপর সরানো হয়েছে স্পার্ক এর অপ্রয়োজনীয় সরাসরি নির্ভরতা করুন
<লি> ডিফল্ট বিল্ড থেকে সরানো হয়েছে মেট্রিক্স-ganglia LGPL লাইসেন্স সংঘাতের কারণে করুন
<লি> বিতরণ tarball রূপে সালে সংশোধন করা হয়েছে বাগ ধারণকারী না স্ফুলিঙ্গ সমাবেশ বয়াম করুন
আপনি কি নতুন সংস্করণ 0.8.0
নতুন সংস্করণ 0.7.3 মধ্যে এ কি:
<লি> পূর্বে সংশোধন করা হয়েছে: আপনার কাজ যোগ করা বয়াম এখন যখন পূর্বে এ কাজের ফলাফল deserializing ক্লাসপাথ থাকবে করুন .
<লি> ত্রুটি প্রতিবেদন:. অ serializable ব্যতিক্রম এবং মাত্রাতিরিক্ত বড় কাজের ফলাফলের জন্য উন্নত এরর রিপোর্টিং করুন
<লি> উদাহরণঃ. Stateful প্রবাহ প্রক্রিয়াকরণের একটি উদাহরণ updateStateByKey সঙ্গে যোগ করা হয়েছে
<লি> বিল্ড:. স্পার্ক স্ট্রীমিং আর Twitter4J রেপো, যা চীন নির্মাণ করার অনুমতি দেয় উচিত উপর নির্ভর করে
<লি> foldByKey মধ্যে বাগ সংশোধন করা হয়েছে, স্ট্রিমিং গণনা, পরিসংখ্যান পদ্ধতি, ডকুমেন্টেশন, এবং ওয়েব UI 'তে.
নতুন সংস্করণ 0.7.2 মধ্যে .
<লি> নতুন এপিআই পদ্ধতি:. SubtractByKey, foldByKey, mapWith, filterWith, foreachPartition, এবং অন্যদের করুন
<লি> প্রতিবেদনের ইন্টারফেস, SparkListener, প্রতিটি গুনতি পর্যায় সম্পর্কে তথ্য সংগ্রহের জন্য একটি নতুন বৈশিষ্ট্যের মান:. টাস্ক লেন্থ, shuffled বাইট, ইত্যাদি করুন
<লি> কে-মাধ্যম এবং কম্পিউটিং পাই সহ জাভা এপিআই, ব্যবহার বেশ নতুন উদাহরণ.
সংস্করণ 0.7.0 নতুন
<লি> স্পার্ক এখন SBT ছাড়াও ম্যাভেন ব্যবহার নির্মিত হতে পারে.
সংস্করণ 0.6.1 নতুন
<লি> স্বতন্ত্র প্রয়োগের মোডে একটি বাগ শিডিউলার করতে হোস্টনেম এক্সপোজ করা হয়নি, HDFS এলাকায় প্রভাবিত সংশোধন করা হয়েছে.
<লি> এলোমেলো উন্নত সংযোগ পুনঃব্যবহার, যা অতিশয় ক্ষুদ্র shuffles গতি বাড়াতে পারেন.
<লি> ফিক্সড ব্লক ম্যানেজার কিছু সম্ভাব্য ডেডলক.
<লি> বেশ EC2 স্ক্রিপ্ট উন্নতি, স্পট দৃষ্টান্ত ভাল হ্যান্ডলিং মত.
<লি> মেড স্থানীয় আইপি ঠিকানা যে স্পার্ক স্বনির্ধারিত থেকে binds.
<লি> Hadoop এর 2 ডিস্ট্রিবিউশন জন্য সমর্থন.
<লি> ডেবিয়ান ডিস্ট্রিবিউশনের উপর Scala লোকেটিং জন্য সমর্থন.
সংস্করণ 0.6.0 নতুন .
<লি> স্পার্ক ডকুমেন্টেশন একটি নতুন কুইক স্টার্ট গাইড, অতিরিক্ত স্থাপনার নির্দেশাবলী, কনফিগারেশন গাইড, টিউনিং গাইড, এবং উন্নত Scaladoc এপিআই ডকুমেন্টেশন সঙ্গে সম্প্রসারণ করা হয়েছে.
<লি> উন্নত ডিবাগিং.
পাওয়া মন্তব্যসমূহ না