คลังเก็บป้ายกำกับ: HDFS

John Matherly ผู้ก่อตั้ง Shodan ได้ออกมาเปิดเผยถึงการค้นพบว่ามี Server ที่ใช้งาน Apache Hadoop ทั่วโลกนั้น มีข้อมูลรั่วรวมกันทั้งสิ้นเกินกว่า 5 Petabyte หรือเกินกว่า 5,000 Terabyte เลยทีเดียว

ข้อมูลทั้งหมดนั้นมาจาก HDFS-based Server จำนวนกว่า 4,487 Instance ทั่วโลก ที่มี Public IP Address และไม่ได้ทำการกำหนดค่าเรื่องการยืนยันตัวตนใดๆ ก่อนการเข้าถึงข้อมูลเลย ทำให้คนทั่วไปสามารถเข้าถึงข้อมูลเหล่านั้นได้อย่างอิสระ โดยระบบส่วนใหญ่ที่ถูกค้นพบนี้อยู่ในประเทศสหรัฐอเมริกาและจีนแทบทั้งหมด

นอกจากประเด็นด้านการถูกเข้าถึงข้อมูลโดยไม่ได้รับอนุญาตแล้ว เหล่าผู้ใช้งาน Apache Hadoop ที่ไม่ระมัดระวังเหล่านี้เองก็ควรจะต้องเกรงกลัว Ransomware กันบ้างเช่นกัน เพราะเมื่อต้นปีที่ผ่านมามีเหตุการณ์ Ransomware โจมตี Hadoop ไปแล้วเกือบ 500 เครื่อง และแน่นอนว่าด้วยข้อมูลปริมาณมหาศาลภายในระบบ Big Data เหล่านั้น การถูกเข้ารหัสไปแบบนี้คงไม่สามารถกู้คืนมาได้อย่างง่ายดายนัก

ก่อนหน้านี้ก็เคยมีเหตุการณ์ใกล้เคียงกับลักษณะนี้เกิดขึ้นมาแล้ว โดย MongoDB ที่มี Public IP Address ทั่วโลกนั้นมีข้อมูลรั่วออกมา 25TB จากการตั้งค่าเอาไว้ไม่ปลอดภัย ในขณะที่ Binary Edge ก็เคยออกรายงานเมื่อปี 2015 ว่ามีข้อมูลรั่วจาก Redis, MongoDB, Memchaced และ ElasticSearch รวมกันที่ 1.1 Petabyte เท่านั้น แต่กรณีที่เกิดกับ Hadoop นี้ถือว่าข้อมูลที่รั่วออกมานั้นใหญ่กว่ามากด้วยตัวเลขเกินกว่า 5 Petabyte

ทาง Bleeping Computer ได้แนะนำลิงค์สำหรับการตั้งค่า Apache Hadoop ให้ปลอดภัยเอาไว้ที่ http://hadoop.apache.org/docs/r2.8.0/hadoop-project-dist/hadoop-common/SecureMode.html ครับ

ที่มา: https://www.bleepingcomputer.com/news/security/hadoop-servers-expose-over-5-petabytes-of-data/

from:https://www.techtalkthai.com/hadoop-servers-leak-5-petabytes/

thectalkthai

Big Data ในประเทศจีน: Open Source ที่เติบโตในวงการโทรคมนาคมและการเงิน

เมษายน 27, 2017 Feed News

ที่ผ่านมาเรามักได้ยินเรื่องราวการนำ Open Source Software มาใช้งานจากธุรกิจในฝั่งอเมริกาและยุโรปกันเป็นส่วนมาก แต่ในปัจจุบันนี้จีนเองก็เริ่มกลายเป็นตลาดใหญ่ของวงการ Open Source ที่ผันตัวออกมาจากการเป็นเพียงผู้ใช้ ก้าวสู่การเป็นผู้ Contribute เป็นที่เรียบร้อยแล้ว ตัวอย่างหนึ่งที่เห็นได้ค่อนข้างชัดคือ Huawei ที่ทำธุรกิจ IT อยู่ในทั้งวงการโทรคมนาคมและ Enterprise ก็เป็นอีกหนึ่งบริษัทที่ได้ลงทุนกับ Open Source และนำ Open Source ออกมาสร้างเป็นผลิตภัณฑ์ออกสู่ตลาดจริง โดยเฉพาะ Big Data Analytics ที่กลายเป็นหัวใจของธุรกิจโทรคมนาคมและการเงินในทุกวันนี้ไปแล้ว

Big Data สำคัญอย่างไรในประเทศจีน?

จีนเองนั้นก็เหมือนกับประเทศอื่นๆ ทั่วโลกที่ต้องก้าวเข้าสู่ยุคของการทำ Digital Transformation แต่จุดที่น่าสนใจมากของจีนก็คือการที่ประเทศจีนนั้นมีขนาดของประชากรขนาดใหญ่ และมีธุรกิจขนาดใหญ่ในหลากหลายอุตสาหกรรม และมีภาษาของตนเอง รวมถึงยังเป็นตลาดที่มีการแข่งขันรุนแรง Big Data Analytics จึงเป็นเทคโนโลยีที่จำเป็นอย่างมากสำหรับจีนในการวิเคราะห์ข้อมูลปริมาณมหาศาลที่เกิดจากทั้งประชากรและภาคธุรกิจจำนวนมหาศาลเหล่านี้ เพื่อให้แต่ละธุรกิจสามารถแข่งขันกันได้ดียิ่งขึ้นทั้งด้วยการปรับปรุงกระบวนการการทำงานให้มีประสิทธิภาพสูงขึ้น, การพัฒนาผลิตภัณฑ์ให้ตรงกับความต้องการของลูกค้ามากขึ้น ไปจนถึงการทำให้การตัดสินใจเชิงธุรกิจดีขึ้น และประเด็นอื่นๆ อีกมากมาย

นอกจากนี้ การมาของเทคโนโลยี Internet of Things (IoT) เองนั้นก็เป็นอีกประเด็นสำคัญ ซึ่งจีนเองก็ถือเป็นฐานการผลิตอุปกรณ์ IoT ที่ใหญ่ที่สุดในโลก และข้อมูลที่จะเกิดขึ้นจากอุปกรณ์ IoT นี้ก็ต้องถูกนำมาวิเคราะห์บน Big Data Analytics Platform อยู่ดี ดังนั้นจึงไม่แปลกใจนักที่จีนจะต้องเร่งพัฒนาเทคโนโลยีทางด้าน Big Data Analytics เพื่อรองรับต่อนวัตกรรมใหม่ๆ ที่จะเกิดขึ้นทุกๆ วัน

และเมื่อจีนเองนั้นพัฒนาเทคโนโลยีสำหรับใช้งานภายในประเทศเองจนสำเร็จแล้ว ก้าวถัดมาของจีนก็คือการออกสู่ตลาดระดับโลก อย่างที่เราได้เห็นข่าวกันบ่อยๆ ในทุกวันนี้นั่นเอง

Huawei ร่วม Contribute ใน Apache Hadoop: เป็น Contributor อันดับ 2 ของโครงการในปี 2015

ในการนำ Open Source ไปใช้งานจริงในภาคธุรกิจของนั้น ทำให้ Huawei มีความท้าทายที่จะต้องต่อยอดเพื่อให้ตอบโจทย์ต่อการนำไปใช้งานในประเทศจีนซึ่งเป็นตลาดที่มีความเฉพาะตัวสูง ทำให้ภารกิจสำคัญอันหนึ่งของ Huawei นั้นคือการเข้าร่วมพัฒนาในโครงการ Open Source ต่างๆ ให้มีความสามารถที่จำเป็นต่อตลาดจีนเพิ่มขึ้น, แก้ไขปัญหาต่างๆ ที่พบในการนำไปใช้งานจริง และต่อยอดเทคโนโลยี Open Source เหล่านี้ให้สามารถพัฒนาต่อยอดนวัตกรรมใหม่ๆ ที่คิดค้นขึ้นมาเอง รวมถึง Contribute Source Code เหล่านี้กลับเข้าไปในโครงการ Open Source ต่างๆ ด้วย จนเมื่อปี 2015 นั้น Huawei ได้กลายเป็น Contributor ทางด้าน Source Code อันดับ 2 ของโครงการ Apache Hadoop อีกทั้งยังได้ Contribute ในโครงการ Open Source อื่นๆ อีกมากมาย และได้บุกตลาดจีนด้วยการนำเทคโนโลยี Big Data Analytics ที่ต่อยอดจากโครงการ Open Source เหล่านี้เองไปใช้ตอบโจทย์ในอุตสาหกรรมต่างๆ ของจีนมากมาย

ผู้ที่สนใจสามารถเข้าไปศึกษาโครงการ Open Source ต่างๆ ของทาง Huawei ได้ที่ https://github.com/Huawei และ http://consumer.huawei.com/en/opensource/index.htm ทันที ซึ่ง Huawei เองนั้นก็ไม่ใช่บริษัทจีนเพียงบริษัทเดียวที่เข้าไปมีส่วนร่วมในการพัฒนาโครงการ Open Source โดยถ้าหากนำชื่อบริษัท IT รายต่างๆ ในจีนไปทำการค้นหา เราก็จะค้นพบโครงการ Open Source จากจีนอีกหลากหลายโครงการเลยทีเดียว

รู้จัก Huawei FusionInsight Big Data Platform จาก Huawei สำหรับตอบโจทย์วิเคราะห์ข้อมูลระดับองค์กร

Huawei FusionInsight นี้คือระบบ Big Data Software ที่ผสานเทคโนโลยี Hadoop, Spark และ Solr เข้าด้วยกัน เพื่อรองรับการทำการวิเคราะห์ข้อมูลทั้งในแบบของ Batch และ Real-time Analytics ด้วยการนำ HDFS, HBase, MapReduce, YARN/Zookeeper มาใช้สร้าง Big Data Platform และพัฒนาระบบบริหารจัดการ, ระบบวิเคราะห์ข้อมูล และ API เพิ่มเติมเพื่อให้ระบบ Big Data Analytics นี้สามารถนำไปใช้งานในระดับองค์กรได้อย่างมีประสิทธิภาพ และต่อยอดด้วยการ Integrate เข้ากับระบบอื่นๆ ที่มีอยู่แล้วภายในองค์กรได้นั่นเอง

ในแง่ของประสิทธิภาพ Huawei FusionInsight นี้ถูกออกแบบมาให้รองรับประสิทธิภาพขนาดใหญ่ได้เป็นอย่างดี โดยจากการทดสอบด้วย Server จำนวน 12 เครื่องที่แต่ละเครื่องใช้ Intel E5-2650 จำนวน 2 ชุด และหน่วยความจำ 128GB ก็มีประสิทธิภาพในการวิเคราะห์ข้อมูลดังนี้

Parallel Computing Engine (MapReduce)

WordCount: 8GB/minute ต่อเครื่อง
Terasort: 6GB/minute ต่อเครื่อง

Parallel Computing Engine (Spark)

WordCount: 27GB/minute ต่อเครื่อง
Terasort: 6GB/minute ต่อเครื่อง

Hive

HiveAggregation: 8GB/minute ต่อเครื่อง
HiveJoin: 2GB/minute ต่อเครื่อง

HBase

100% Random Read: 30,000 Records/s ต่อเครื่อง
100% Random Write: 37,000 Records/s ต่อเครื่อง
Sequential Scan: 10,000 Records/s ต่อเครื่อง

ไม่เพียงแต่ประเด็นทางด้านประสิทธิภาพเท่านั้น Huawei FusionInsight นี้ยังได้ทำการพัฒนาต่อยอดในส่วนของความทนทาน และความปลอดภัยเอาไว้ด้วยเพื่อตอบโจทย์ความต้องการในการใช้งานระดับองค์กร พร้อมเสริมความสามารถทางด้านความง่ายในการใช้งานเพื่อให้องค์กรต่างๆ สามารถเริ่มทำ Big Data Analytics ได้อย่างรวดเร็วที่สุดด้วย Template ตั้งต้นที่พร้อมวิเคราะห์ข้อมูลเกินกว่า 1 ล้านชนิดได้ทันที

ผู้ที่สนใจสามารถศึกษารายละเอียดเพิ่มเติมได้ที่ http://e.huawei.com/en/products/cloud-computing-dc/cloud-computing/bigdata/fusioninsight

แก้ปัญหาความซับซ้อนในการวิเคราะห์ข้อมูลและขนาดของข้อมูลให้ Shanghai Unicom

บริษัท China United Network Communication Group สาขา Shanghai หรือ Shanghai Unicom นั้นเป็นธุรกิจให้บริการโครงข่ายโทรคมนาคมขนาดใหญ่ และเริ่มพบกับปัญหา 3 ประการจากการเติบโตอย่างรวดเร็วของธุรกิจดังนี้

การวิเคราะห์ข้อมูลเชิงธุรกิจจากหลายบริการร่วมกันนั้นสามารถทำได้ยากและใช้เวลานานมาก เพราะมีการจัดเก็บข้อมูลในหลากหลายรูปแบบ บนระบบที่กระจัดกระจาย
ระบบ Application ที่มีการใช้งานอยู่นั้นสามารถจัดเก็บข้อมูลได้ในปริมาณที่จำกัด ทำให้ไม่สามารถทำการวิเคราะห์ข้อมูลปริมาณมหาศาลได้
ไม่มีเครื่องมือในการบริหารจัดการการจัดเก็บข้อมูลที่ดี ทำให้มีปัญหาในแง่ของ Data Security ภายในองค์กร

Huawei FusionInsight ได้เข้าไปช่วยแก้ปัญหาเหล่านี้ด้วยการผนวกรวมข้อมูลทั้งหมดให้กลายเป็น Unified Enterprise-level Big Data Platform ที่จัดเก็บข้อมูลใน Tiered Storage เพื่อประหยัดค่าใช้จ่ายในระยะยาว และสามารถเพิ่มขยายพื้นที่จัดเก็บข้อมูลได้อย่างอิสระ พร้อมเสริมความสามารถในการบริหารจัดการและการรักษาความปลอดภัยให้แก่ข้อมูลทั้งหมดขององค์กรได้ รวมถึงยังรองรับการวิเคราะห์ข้อมูลทั้งหมดเหล่านี้ได้ด้วยความเร็วสูง และเปิดให้พนักงานทั้งหมดในองค์กรสามารถเข้าถึงข้อมูลที่ตนเองมีสิทธิ์เพื่อทำ Data Analytics ได้ด้วยตนเองทันที

ผลลัพธ์นั้นก็ถือว่าน่าสนใจ เพราะ Shanghai Unicom สามารถรักษาฐานลูกค้า VIP เอาไว้ได้มากขึ้น และทำให้การทำการตลาดนั้นถูกปรับเปลี่ยนไปสำหรับลูกค้าแต่ละรายมากยิ่งขึ้นกว่าแต่ก่อน ด้วยการวิเคราะห์ข้อมูลที่รวดเร็วมากขึ้น จากเดิมที่เคยต้องใช้เวลาถึง 1.5 เดือน ลดเหลือเพียง 1 สัปดาห์เท่านั้น

ศึกษารายละเอียดเพิ่มเติมได้ที่ http://e.huawei.com/en/marketing-material/onLineView?MaterialID={AA98CD16-F3B4-47F2-8956-E19EDA470282}

ช่วย China Merchants Bank ให้มีลูกค้าเพิ่มขึ้น 40 เท่าด้วยการวิเคราะห์ข้อมูล

China Merchants Bank (CMB) นั้นเป็นธนาคารที่ต้องการปรับตัวเพื่อให้สามารถแข่งขันในประเทศจีนได้ดีขึ้น และความสามารถในการวิเคราะห์ข้อมูลให้ได้นั้นก็เป็นสิ่งที่จำเป็นต่อการปรับปรุงคุณภาพการให้บริการ, การออกแบบผลิตภัณฑ์หรือบริการใหม่ๆ ให้ตอบโจทย์ความต้องการของลูกค้า, การวัดคุณภาพของพนักงาน และอื่นๆ อีกมากมาย แต่เทคโนโลยีที่มีอยู่เดิมนั้นไม่ตอบโจทย์ต่อการวิเคราะห์ข้อมูลทั้งหมดของธนาคารรวมกันเป็นภาพเดียวได้ เนื่องจากข้อมูลนั้นมีปริมาณมหาศาล และถูกจัดเก็บอยู่ทั้งในรูปของ Structured Data และ Unstructured Data อย่างกระจัดกระจาย

Huawei จึงได้นำเสนอทัั้ง FusionInsight ควบคู่ไปกับบริการที่จะช่วยเร่งให้ธนาคารสามารถใช้งานเทคโนโลยี Big Data Analytics ได้อย่างมีปประสิทธิภาพสูงสุด ทำให้ธนาคารสามารถวิเคราะห์ข้อมูลในทุกๆ ส่วนของธุรกิจได้ในแบบ Real-time ส่งผลให้อัตรา Conversion Rate ในการทำธุรกิจสูงขึ้นกว่าเดิมถึง 40 เท่า, ความผิดพลาดในการทำนายอนาคตลดลง 50% และทำการตลาดน้อยลงถึง 5 เท่าสำหรับลูกค้าแต่ละราย ในขณะที่การอนุมัติบัตรเครดิตแต่ละใบที่เคยใช้เวลาถึง 2 สัปดาห์ ก็ลดลงมาเหลือเพียง 10 นาทีเท่านั้น

ศึกษารายละเอียดเพิ่มเติมได้ที่ http://e.huawei.com/en/marketing-material/onLineView?MaterialID={C73AE346-80F7-4A9C-867E-438F4E2B982D}

ติดต่อทีมงาน Huawei ประเทศไทยได้ทันที

ผู้ที่สนใจในเทคโนโลยี Big Data Analytics จาก Huawei สามารถติดต่อทีมงาน Huawei ประเทศไทยได้ทันทีที่

Huawei Enterprise Business ; Marketing Contact Center

Mobile 095-878-7475 e-mail : Th_enterprise@huawei.com

www.facebook.com/HuaweiEnterpriseThailand

Website : e.huawei.com

from:https://www.techtalkthai.com/big-data-open-source-software-is-now-growing-in-chinese-financial-and-telecommunication-market-by-huawei/

Uncategorized

Dell EMC เปิดตัว Isilon รุ่น All-Flash เร็ว 25 ล้าน IOPS ความจุ 92.4PB #DellEMCWorld

ตุลาคม 20, 2016 Feed News

All Flash Storage ได้กินส่วนแบ่งตลาดจัดเก็บข้อมูลใน Data Center ไปแล้ว 20% ทั่วโลก และ EMC ก็ประกาศเปิดตัว Dell EMC Isilon All-Flash ภายในงาน Dell EMC World 2016 ( #DellEMCWorld ) เป็นที่เรียบร้อย

หลังจากที่ Dell EMC ได้วิจัยในโครงการ Project Nitro ซึ่งเป็นสถาปัตยกรรม Blade ขนาด 4U ที่ได้กลายมาเป็น Dell EMC Isilon All-Flash ในตอนนี้ ทาง Dell EMC ก็ได้ประกาศเปิดตัว Dell EMC Isilon All-Flash ออกมาแล้วพร้อมประกาศเปิดตัวระบบปฏิบัติการ OneFS รุ่นใหม่ล่าสุดมาพร้อมกัน โดยมีคุณสมบัติใหม่ๆ ที่น่าสนใจดังนี้

มีความเร็วสูงถึง 25 ล้าน IOPS และมี Througput สูงถึง 1.5TBps
Chassis ขนาด 4U นั้นมีความจุสูงถึง 96TB และรองรับการเพิ่มขยายเป็น Scale-Out NAS สูงสุดได้ 400 Node ใน 100 Chassis รองรับความจุรวมกัน 92.4PB
มีเทคโนโลยี Next Generation Multi-Protocol Access ที่ทำให้ทุกๆ ข้อมูลสามารถูกเขียนอ่านได้พร้อมๆ กันจากผู้ใช้งานหลายๆ คนผ่านหลายโปรโตคอลพร้อมกันได้ ไม่ว่าจะเป็น NFS, SMB, HDFS, Object, NDMP, FTP และอื่นๆ
สามารถทำ Storage Tiering ได้ด้วยการทำ SmartPools และ CloudPools
มีอัตราการ Utilization สูงถึง 80% และยังประหยัดพื้นที่เพิ่มเติมได้มากกว่านั้นอีก 30% ด้วยเทคโนโลยี Isilon SmartDedupe
รองรับการควบคุมความปลอดภัยด้วยการกำหนดสิทธิ์, การแบ่งเขตการเข้าถึงข้อมูล, การกำหนด Write-Once Read Many (WORM), ระบบ File System Auditing, และเข้ารหัสข้อมูล Data-at-Rest ได้ด้วย Self-Encrypting Drive (SED)

Dell EMC Isilon รุ่น All Flash นี้เปิดให้สั่ง Pre-order ได้แล้ววันนี้ และจะเปิดตัวอย่างเป็นทางการภายในปี 2017 พร้อมกับ OneFS รุ่นใหม่ที่จะเปิดให้ลูกค้าเก่าสามารถอัปเกรดได้ฟรีๆ ด้วย โดยสามารถศึกษารายละเอียดเพิ่มเติมได้ที่ http://www.emc.com/en-us/storage/isilon/index.htm นะครับ

ที่มา: http://www.emc.com/about/news/press/2016/20161019-05.htm

from:https://www.techtalkthai.com/dell-emc-announces-isilon-all-flash-with-25m-iops-at-dell-emc-world-2016/

Uncategorized

Mesosphere ประกาศเปิด Open Source ให้ DC/OS ระบบ Platform สำหรับ Container และ Big Data ในหนึ่งเดียว

เมษายน 20, 2016 Feed News

เป็นอีกข่าวที่เสริมความร้อนแรงให้กับเทคโนโลยี Container และ Big Data Analytics ในช่วงนี้ เมื่อ Mesosphere ประกาศเปิดตัว DC/OS ระบบ Open Source Platform สำหรับ Deploy Application ต่างๆ ได้อย่างหลากหลายและง่ายดาย ซึ่งรวมถึง Docker Container และระบบ Big Data Analytics จากระบบกลางของ DC/OS เพียงระบบเดียว

DC/OS ไม่ได้วางตัวเองเป็นเพียงแค่ Open Source Software เท่านั้น แต่ยังวางตัวเองเป็น Ecosystem ด้วยการจับมือร่วมกับบริษัท Partner ทางด้าน IT กว่า 60 บริษัทขนาดกลางจนถึงใหญ่ทั่วโลก ซึ่งมีทั้งชื่อของ Accenture, Autodesk, Cisco, Confluent, EMC, Equinix, HPE, Microsoft, NGINX, Puppet และ Verizon ในการนำเทคโนโลยีต่างๆ ของแต่ละบริษัทเข้ามา Integrate ร่วมกับ DC/OS และนำ DC/OS ไปสร้าง IT Infrastructure ขนาดใหญ่สำหรับ Cloud, Microservices, Big Data และอื่นๆ อีกมากมาย

เบื้องหลังของระบบ Open Source อย่าง DC/OS นี้ก็หนีไม่พ้น Datacenter Operating System จาก Mesosphere ซึ่งเป็นผลิตภัณฑ์แบบ Commercial นั่นเอง และการเปิด Open Source ในครั้งนี้ก็อยู่ใน Road Map มานานแล้วด้วย โดยมีฟีเจอร์ต่างๆ ที่น่าสนใจดังนี้

มีระบบบริหารจัดการ Container ที่ต่อยอดมาจาก Apache Mesos และ Marathon
สามารถทำการติดตั้ง Application ต่างๆ ที่มีความซับซ่้อนสูง เช่น HDFS, Apache Spark, Apache Kafka, Apache Cassandra และอื่นๆ ได้อย่างง่ายดาย
มีระบบ High Availability และ Fault Tolerance สำหรับ Application, Service และ Workload ทุกรูปแบบ
สามารถตรวจสอบและบริหารจัดการการทำงานได้ผ่าน GUI
มีระบบ Intelligent Workload Scheduling ช่วยเพิ่ม Utilization ของระบบให้โดยอัตโนมัติ
ติดตั้งได้ทั้งบน Bare Metal Server, Virtual Machine และ Cloud
สามารถช่วยลดจำนวน Instance บน AWS ได้ 66%
สามารถประหยัดค่าใช้จ่ายลงไปได้ 57%
สามารถ Deploy ระบบใหม่ๆ ได้ภายใน 40 วินาทีโดยไม่มี Downtime
สามารถสร้างระบบบน Region ใหม่ได้ในเวลา 3 นาที
มี Uptime 1000%
ใช้ DevOps 1 คนก็เพียงพอต่อการบริหารจัดการระบบทั้งหมด

ในขณะเดียวกันนี้ Microsoft ก็ได้เปิดตัว DC/OS ภายในบริการ Azure Container Service เป็นที่เรียบร้อย ทำให้ผู้ที่อยากใช้ DC/OS บน Azure สามารถเริ่มใช้งานได้ทันที

ผู้ที่สนใจสามารถเข้าไปศึกษาเพิ่มเติมได้ที่ https://github.com/dcos และ https://dcos.io/install/ เลยนะครับ

ผู้ที่สนใจโซลูชั่น Open Source Software ต่างๆ รวมถึง Linux/Unix/OpenStack Data Center Infrastructure และระบบ CMS สำเร็จรูปที่มีประสิทธิภาพสูงและปลอดภัยระดับองค์กรพร้อมบริการครบวงจร ทั้ง WordPress และ Magento สามารถติดต่อทีมงาน UnixDev ได้ทันทีที่โทร 081-651-9393 หรืออีเมลล์ info@unixdev.co.th

เกี่ยวกับ UnixDev

UnixDev คือทีมงานผู้เชี่ยวชาญทางด้าน System Engineering ที่ครอบคลุมทั้ง Linux, Unix, Microsoft Windows และ VMware แบบ Full Stack ซึ่งสามารถให้บริการในการตรวจสอบแก้ไขปัญหาและปรับปรุงประสิทธิภาพและความปลอดภัยสำหรับระบบ Hypervisor, Operating System, Application, Web Application ไปจนถึง Database แบบครบวงจร https://www.unixdev.co.th

ที่มา: https://mesosphere.com/blog/2016/04/19/open-source-dcos/

from:https://www.techtalkthai.com/mesosphere-announced-open-source-dcos-for-container-and-big-data/

Uncategorized

IBM ร่วมมือ SanDisk ผนวก Spectrum Scale เข้ากับ InfiniFlash สร้าง Software-Defined All-Flash Unified Storage

มีนาคม 3, 2016 Feed News

IBM และ SanDisk ประกาศความร่วมมือ เตรียมนำ IBM Spectrum Scale มาทำงานบนแพลตฟอร์ม InfiniFlash ซึ่งเป็น All-flash Array ของ SanDisk

IBM Spectrum Scale เป็นเทคโนโลยี High-performance Distributed Parallel File system จาก IBM ซึ่งเป็น Software-defined แบบหนึ่ง สามารถทำงานบนฮาร์ดแวร์แบบใดก็ได้ ในอดีต IBM เคยประกาศรองรับ IBM Spectrum Scale ร่วมกับ Seagate ClusterStor HPC มาแล้ว และในวันนี้ IBM ได้ประกาศร่วมมือกับ SanDisk เพื่อขยายพาร์ทเนอร์ของ Spectrum Scale เพิ่มเติม สำหรับ Spectrum Scale รองรับการใช้งานแอพพลิเคชันหลายประเภท เช่น Cognitive Computing, HDFS, Big Data Analytics และ Compute Clusters

เมื่อ IBM Spectrum Scale ทำงานอยู่บน InfiniFlash ของ SanDisk จะสามารถใช้งาน Unified Storage ได้ รองรับหลายโปรโตคอล เช่น NFS, CIFS, HDFS และ Object ในฮาร์ดแวร์ขนาด 3U มีพื้นที่ใช้งานเริ่มต้น 512TB รองรับการขยายขนาดจนถึง 15PB ให้ความเร็วในการเขียนอ่านข้อมูลสูงสุด 16GB/s และเขียนข้อมูลสูงสุด 7GB/s นอกจากนี้ Infiniflash มีราคาต่อพื้นที่การใช้งานเพียงแค่ $1 ต่อ GB ซึ่งถือว่าค่อนข้างคุ้มค่าในการลงทุน

สำหรับ IBM Spectrum Scale บน InfiniFlash มีความสามารถเด่น ดังนี้

Unified Storage, Data Lakes และ In-place Analytics

รองรับการทำ In-place Analytics ให้กับข้อมูลที่เก็บได้ทันที ด้วยการใช้งานผ่านโปรโตคอล HDFS RPC
มีหลายโปรโตคอลให้ใช้งาน รองรับกับการทำ Data Lake

IaaS สำหรับ Private, Hybrid และ Public Cloud

รองรับการทำงานกับ OpenStack แบบ Full integration (Cinder driver, Heat, Horizon) และรองรับ Havana, Kilo และ Icehouse
รองรับการทำ Cloud Tiering กับ Cleversafe หรือ Private Cloud ของผู้ใช้งานเองได้ หากต้องการทำ Hybrid Cloud

Data Management at Scale

มีระบบ Information Lifecycle Management (ILM), Hierarchical Storage Management (HSM) และ Active File Management
รองรับการทำ Quality of Service (QoS) สำหรับ Storage

Performance and Scale

มีความเร็วในการทำงานแบบ Line rate
รองรับการ Scale-out ด้วยการเพิ่ม Appliances

Data Availability, Disaster Recovery and Security

สามารถนำไปใช้ในโซลูชัน Async DR ได้
รองรับการทำ Snapshots, Replication, Checksum, NIST/FIPS-compliant data at rest encryption และ Secure Erase

Data Processing: Store, Analyze, Query

เก็บข้อมูลได้หลัก PB
ให้ Throughput สูง และ Latency ต่ำ

ที่มา : http://itblog.sandisk.com/software-defined-all-flash-storage-with-ibm-spectrum-scale-sandisk-infiniflash/

from:https://www.techtalkthai.com/software-defined-all-flash-storage-with-ibm-spectrum-scale-sandisk-infiniflash/

Uncategorized

ทดลองเล่น Hadoop และ Big Data Analytics กันง่ายๆ ฟรีๆ ใน 2 ชั่วโมงด้วย Cloudera QuickStart VM

กุมภาพันธ์ 27, 2016 Feed News

Big Data Analytics เป็นคำที่ทุกคนในวงการได้ยินกันมานาน หลายๆ คนก็คงอยากสัมผัสกับเทคโนโลยีเหล่านี้แต่ไม่รู้จะเริ่มต้นยังไง วันนี้ทาง TechTalkThai เลยขอออกมาแชร์ประสบการณ์ในการลองเล่น Apache Hadoop แบบง่ายๆ ใช้เวลาไม่ถึง 2 ชั่วโมง แต่ได้เห็นภาพรวมคร่าวๆ ของเทคโนโลยี Big Data Analytics ต่างๆ มาให้ทุกคนได้ลองเล่นตามกันด้วย Cloudera CDH 5.5 QuickStart VM ที่สามารถลองเล่นได้ทุกคนไม่ว่าจะเป็น IT Manager, Programmer, Netowork Engineer, System Engineer หรือ Security Expert ดังนี้ครับ

รู้จักกับ Cloudera กันก่อน

Cloudera http://www.cloudera.com/ เป็นบริษัทชั้นนำทางด้าน Big Data Platform ที่ดังที่สุดในตลาดรายหนึ่ง โดย Cloudera นี้จะนำ Apache Hadoop และ Open Source Component ต่างๆ ที่เกี่ยวข้องมาแพ็ครวมกันเป็น Distribution ให้ พร้อมมีระบบบริหารจัดการให้เสร็จสรรพ เรียกง่ายคือ Cloudera ทำให้การใช้งาน Apache Hadoop เพื่อทำ Big Data Analytics นั้นง่ายขึ้นนั่นเอง

ลองเล่น Apache Hadoop กันเลย

Cloudera นั้นได้พัฒนา QuickStart VM ขึ้นมาเพื่อให้ทุกคนในสาย IT ได้ลองเข้าถึงเทคโนโลยีและแนวคิดของ Big Data Analytics กันง่ายๆ ผ่านระบบ Lab ที่สามารถทำเองเล่นเองได้เลย ทำให้เราได้ลองใช้เครื่องไม้เครื่องมือต่างๆ ในการวิเคราะห์ข้อมูล, แสดงผล และบริหารจัดการ Infrastructure กันพอเป็นไอเดีย

ก่อนอื่นนั้นทุกคนต้องเลือกก่อนครับว่าจะทดลองใช้ Cloudera QuickStart VM ทางไหน ดังนี้

โหลดมาลองในเครื่องตัวเองได้ที่ http://www.cloudera.com/downloads/quickstart_vms/5-5.html โดยรองรับ VMware (รองรับเฉพาะ CPU Intel), VirtualBox และก็ KVM ครับ ใช้แรมประมาณ 4GB (ทางทีมงานลองใช้าทงนี้แหละ)
เล่นบน Cloudera Live ได้ด้วยการลงทะเบียนที่ http://www.cloudera.com/developers/get-started-with-hadoop-tutorial.html ใครลองแล้วเวิร์คหรือไม่เวิร์คยังไงก็มาบอกกันหน่อยนะครับ พอดีลองเข้าๆ ดูหน้าแรกๆ มันก็เข้าได้บ้างไม่ได้บ้างแล้วเลยไม่ได้ลองต่อ 55

หลังจากเลือก โหลด ติดตั้งอะไรเสร็จเรียบร้อยหมดแล้ว ก็เริ่มเล่นได้ทันทีเลยครับ โดยบน Desktop จะมี Icon Cloudera Home อยู่ ก็ให้เปิด Browser บน VM ได้เลยครับ เราจะถูกส่งไปยังหน้า http://quickstart.cloudera/#/ ซึ่งอยู่ในเครื่องของเราเอง คราวนี้ก็คลิกต่อที่ Start Tutorial เพื่อเริ่มต้นทำ Lab ได้เลย โดยเนื้อหาใน Lab จะมีดังนี้

เตรียม Environment ต่างๆ ได้แก่ HDFS, Hive, Hue, Impala และ YARN (MR2) ซึ่งตรงนี้ Cloudera ทำมาให้หมดแทบจะเสร็จอยู่แล้วครับ
ใช้ Apache Sqoop แปลงข้อมูลจาก MySQL ลงไปใน HDFS และแปลงไฟล์ให้อยู่ใน Format ของ Apache Avro
ใช้ Hive และ Impala ทำการ Query ข้อมูลออกมาจากไฟล์ใน HDFS ด้วยคำสั่งที่คล้ายกับ Statement ปกติใน Relational Database
วิเคราะห์ข้อมูล Structured Data ร่วมกับ Unstructured Data ด้วยการวิเคราะห์ Real-time Log จากการใช้ Flume
ใช้ Apache Spark เพื่อวิเคราะห์ความสัมพันธ์ระหว่างข้อมูลได้อย่างรวดเร็ว
สร้าง Search Index ด้วย Apache Solr
ทำ Extract-Transform-Load (ETL) กับข้อมูล Log ที่ถูกสร้างขึ้นแบบ Real-time ด้วย Flume และ morphline
สร้าง Dashboard ด้วย Interface ของ Hue

จะเห็นได้ว่าระหว่างการทำ Lab นี้เราจะได้รู้จัก Component ใหม่ๆ เพิ่มขึ้นเรื่อยๆ และเห็นความแตกต่างหรือความสัมพันธ์ของ Component เหล่านี้ในการทำ Big Data Analytics แบบพื้นฐานไปด้วย ดังนั้นหลังจากเล่นเสร็จทีมงาน TechTalkThai เลยรู้สึกว่าคุ้มกับเวลาที่เสียไปดี (เสียเวลาไปน้อยมาก แถมถ้าทำบน VMware กด Suspend VM มาเล่นต่อวันหลังได้) และง่ายพอที่ทุกคนในสายงาน IT จะลองเล่นด้วยตัวเองได้ (คือถึงขั้นมีคำสั่งให้ก๊อปแปะลงไปที่ Terminal ได้เลย) เป็นการเริ่มต้นที่ง่ายและกว้างดี เลยเอามาฝากกันเผื่อเป็นประโยชน์ในการเห็นภาพรวมได้กว้างขึ้นครับผม

รอบหน้าถ้าหา Tutorial แบบ Advance ขึ้นกว่านี้ (และฟรี) ได้ก็จะเอามาฝากกันอีกทีนะครับ หรือใครมีตัวไหนแนะนำยังไงแล้วอยากแบ่งปันกัน ก็ส่งข้อมูลเข้ามาได้เลยที่ info@techtalkthai.com นะครับผม

from:https://www.techtalkthai.com/easy-way-on-getting-started-with-hadoop-and-big-data-analytics-within-2-hours-with-cloudera/

Uncategorized

รู้จักกับ IBM Spectrum Scale สุดยอด Software Defined Storage สำหรับการจัดการ Unstructured Data เพื่อ Cloud และ Big Data

พฤศจิกายน 21, 2015 Feed News

สำหรับองค์กรที่ต้องการพัฒนา Application ขนาดใหญ่ ที่มีการประมวลผล Unstructured Data ปริมาณมหาศาล และต้องการมองหาทางออกที่จะช่วยให้การนำข้อมูลเหล่านั้นไปใช้ต่อยอดได้อย่างยืดหยุ่นเพื่อความคุ้มค่าสูงสุด DCS ขอแนะนำ IBM Spectrum Scale โซลูชั่น Software Defined Storage ที่ถูกออกแบบมาเพื่อตอบโจทย์นี้โดยเฉพาะนั่นเอง

ทำความรู้จักกับ IBM Spectrum Scale

สำหรับ IBM Spectrum Scale นั้นก็คือเทคโนโลยีที่พัฒนาต่อยอดมาจาก General Parallel File System หรือที่เรียกย่อๆ ว่า GPFS ซึ่งเป็นผลิตภัณฑ์ชื่อดังที่ได้คว้ารางวัลต่างๆ มามากมายของ IBM นั่นเอง ซึ่งความสามารถของ GPFS นี้ก็คือการเป็น File System ที่รองรับการเก็บข้อมูลขนาดใหญ่กว่าพันล้าน Petabytes ได้ด้วยประสิทธิภาพในระดับหลายร้อย Gigabyte ต่อวินาที พร้อมให้ Application ต่างๆ สามารถเข้าถึงข้อมูลเหล่านี้ได้หลากหลายทั้งแบบ Native, NFS, SMB, OpenStack Cinder, OpenStack Swift, OpenStack S3 และเชื่อมต่อกับ Apache Hadoop เพื่อนำไปใช้งานประมวลผล Big Data Analytics ได้อีกด้วย

โดยสรุปแล้ว IBM Spectrum Scale มีความสามารถดังต่อไปนี้

ติดตั้งบน Hardware และ OS ได้หลากหลาย
รองรับไฟล์สูงสุดได้จำนวน 9 ล้านล้านล้านไฟล์
รองรับพื้นที่จัดเก็บข้อมูลสูงสุด 5 แสนล้านล้านล้านล้านล้านไบต์ หรือประมาณ 5 แสนล้านล้านล้าน Petabyte
รองรับ Cluster ตั้งแต่ 1 – 16,384 Node
สนับสนุน POSIX, GPFS, NFS 4.0, SMB 3.0, OpenStack Cinder, OpenStack Swift, OpenStack S3, Hadoop MapReduce
รองรับการเพิ่มประสิทธิภาพถึง 6 เท่าด้วยการติดตั้ง SSD หรือ Flash ที่เครื่อง Client เพื่อทำ Local Cache
มีระบบบริหารจัดการที่สามารถจัดการไฟล์จำนวนมหาศาลเหล่านี้ได้ผ่านทาง GUI
มีเทคโนโลยี Active File Management (AFM) สำหรับทำ Distributed Disk Caching เพิ่มความเร็วในกรณีที่มีการติดตั้งกระจายหลายสาขา
สามารถทำ Tiering เพื่อลดค่าใช้จ่ายในการจัดเก็บข้อมูลได้ รวมถึงการ Tier ลง Tape ก็สามารถทำได้เช่นกัน
รองรับการทำ High Availability (HA) และ Disaster Recovery (DR) ได้ในทุกระดับ
สามารถเข้ารหัสข้อมูล และลบข้อมูลถาวรได้ด้วยเทคโนโลยีการเข้ารหัส
ทำ Policy-driven Compression และ Quality of Service ได้

รองรับ Hardware และ Operating System ได้หลากหลาย ตามแนวคิดของ Software Defined Storage

ด้วยความที่ IBM Spectrum Scale นี้เป็น Software Defined Storage จึงทำให้สามารถติดตั้งใช้งานได้บน Hardware และ Operating System ที่มีความหลากหลายได้ดี โดยสำหรับ Hardware ที่รองรับนั้นได้แก่ x86 CPU และ IBM POWER ส่วนระบบปฏิบัติการที่รองรับนั้นได้แก่ IBM AIX, Red Hat, SUSE Linux Enterprise Server, Microsoft Windows Server 2012, Microsoft Windows 7 และ IBM z Systems

IBM Spectrum Scale ถูกใช้งานอยู่แล้วทั่วโลก

จากการต่อยอดมาจากหนึ่งในเทคโนโลยีที่ดีที่สุดอันหนึ่งของ IBM ทำให้ IBM Spectrum Scale นั้นเป็นที่นิยมและมีผู้ใช้งานมากมายอยู่แล้วทั่วโลก ดังนี้

มี Production Systems หลายพันแห่งทั่วโลก
รวมพื้นที่จัดเก็บข้อมูลทั่วโลกไปแล้วมากกว่า 30PB
การใช้งานที่ใหญ่สุดนั้นใช้ Cluster ขนาดมากกว่า 10,000 Nodes ภายในระบบเดียว
มีลูกค้าที่มีการใช้งานมากกว่า 10,000 ล้านไฟล์ภายในระบบเดียว

ดังนั้นถ้าหากองค์กรไหนที่กำลังมองหาทางออกในการจัดเก็บข้อมูลปริมาณมหาศาล เพื่อนำไปใช้ประมวลผลต่อได้อย่างยืดหยุ่น หรือพัฒนา Mission Critical Application ก็ตาม IBM Spectrum Scale เองก็เป็นทางเลือกที่น่าสนใจที่ DCS ขอแนะนำเอาไว้ดังนี้

สำหรับองค์กรใดๆ ที่สนใจเทคโนโลยีทางด้าน Server หรือ Storage จาก IBM และต้องการให้ทีมงาน Datapro เข้าไปนำเสนอและช่วยให้คำปรึกษา หรือ ERP Consulting และ Software Provider รายใดที่ต้องการเป็นพาร์ทเนอร์กับ Datapro ในการให้บริการทางด้าน IT Infrastructure ด้วย IBM ก็สามารถติดต่อทีมงาน DCS ได้ทันทีที่คุณดวงเดือน โทร 02-684-8484

ข้อมูลเพิ่มเติม

Datapro Computer Systems Website http://www.datapro.co.th/

from:https://www.techtalkthai.com/dcs-introduce-ibm-spectrum-scale-software-defined-storage-for-unstructured-data/

Uncategorized

VMware เปิดตัว vRealize Log Insight 3.0 เร็วขึ้น 2 เท่า และ Archive ข้อมูลลง Hadoop ได้

กันยายน 15, 2015 Feed News

ระบบวิเคราะห์ Log สำหรับการบริหารจัดการ IT Infrastructure จาก VMware อย่าง vRealize Log Insight นั้น ได้ออกรุ่น 3.0 มาให้ใช้งานกันได้แล้ว โดยมีความสามารถใหม่ๆ ที่น่าสนใจดังนี้

มีความเร็วเพิ่มขึ้น 2 เท่า รองรับการประมวลผลได้มากถึง 15,000 Message ต่อวินาที
ทำ Fault Tolerance และ Cluster ได้ดีขึ้น รองรับสูงสุด 12 Node และวิเคราะห์ข้อมูลได้ 2.5TB ต่อวัน
มี Multi-Function Chart แสดงหลายข้อมูลในกราฟเดียวเพื่อเปรียบเทียบรายละเอียดได้สะดวกขึ้น
มีระบบ Snapshot สำหรับการเรียกดูข้อมูลแต่ละครั้ง เพื่อค้นหาการเรียกข้อมูลเก่าๆ หรือนำมาเปรียบเทียบกันได้
มีระบบ URL Shortener ทำให้สามารถส่งกราฟต่างๆ ให้เพื่อนร่วมงานดูได้ด้วย URL สั้นๆ
สามารถทำ Highlight ไปยัง Event ประเภทที่ต้องการ และเรียกดูเฉพาะข้อมูลที่เกี่ยวข้องกับ Event นั้นๆ ได้
ดูแนวโน้มของ Event ผ่านระบบ Event Trends ได้ตามช่วงระยะเวลาที่กำหนด
รองรับการทำ High Availability
ทำ Rolling Upgrade ได้
Forward Event ผ่าน UDP ได้ จากเดิมที่ทำผ่าน TCP ได้เท่านั้น
Archive ข้อมูลลงไปยัง Hadoop File System (HDFS) ได้โดยตรง
กำหนดค่าบน Agent เป็น Group ได้จากหน้าจอของ vRealize Log Insight แบบศูนย์กลาง
ทำ Parser ได้ที่ฝั่ง Client ที่ติดตั้ง Agent เลย
ส่งข้อมูลจาก Agent มายัง vRealize Log Insigth แบบเข้ารหัสด้วย CFAPI SSL

ผู้ทื่สนใจสามารถ Download ไปทดสอบได้ทันทีที่ https://my.vmware.com/group/vmware/evalcenter?p=vrli&cid=70180000000NQJ0&src=management-blog

ข้อมูลเพิ่มเติม

VMware vRealize Log Insight Website http://www.vmware.com/products/vrealize-log-insight

from:https://www.techtalkthai.com/vmware-announced-vrealize-log-insight-3-0/

techfeedthai

คลังเก็บป้ายกำกับ: HDFS

นักวิจัยค้นพบ Hadoop ทั่วโลกมีข้อมูลรั่ว 5 Petabyte เหตุจากตั้งค่าไม่ปลอดภัย