欧美中文字幕第一页-欧美中文字幕一区-欧美中文字幕一区二区三区-欧美中文字幕在线-欧美中文字幕在线播放-欧美中文字幕在线视频

螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

產品壹佰 ? 6年前掃碼分享

我是創始人李巖：很抱歉！給自己產品做個廣告，點擊進來看看。

HDFS作為Hadoop生態系統的分布式文件系統，它被設計用來存儲海量數據，特別是TB、PB量級別的數據。它的設計的初衷也是存儲大文件，而如果HDFS上存在大量的小文件，會對系統性能帶來嚴重的問題。本文想跟大家聊下小文件的處理。

本文的小文件是指那些大小比HDFS的block (Hadoop 2.x的默認大小128MB)小的多的文件。在HDFS中，文件元信息，例如位置、大小、分塊信息等這些存儲在Namenode的內存中，每一個object占用150 bytes的內存。文件個數越多相應的也會占用Namenode更多的內存。何況HDFS主要是為了流式的訪問大文件而設計的，讀取眾多的小文件顯然也是非常低效的。

▌Hadoop小文件的3類常見情況的處理

1、HDFS中存儲包含了大量小文件

現象：在HDFS上已經存在了大量的小文件和目錄。

方案：通過調用HDFS的sync()方法和append()方法，將小文件和目錄每隔一定時間生成一個大文件，或者可以通過寫程序來合并這些小文件。

2、MapReduce的輸入包含大量小文件

現象：輸入文件中存在大量的小文件

MapReduce程序的Map任務（task）一次可以處理一個塊（block）大小的輸入數據（默認使用FileInputFormat）。如果一個輸入文件的大小大于block，那么會拆成兩個或多個task進行處理；如果小于block，也會用一個task處理該文件。需要處理的數據如果分散存儲在許多小文件中，就會產生大量的map task，如果小文件個數非常多，這會使處理時間變的很慢。

方案：有3種

1）Hadoop Archive:

Hadoop Archive是一個高效地將小文件放入HDFS塊中的文件存檔工具，它能夠將許多小文件打包成一個HAR文件，這樣會同時減少Namenode的內存使用。

2）Sequence File：

Sequence File由一系列的二進制key/value組成，如果key為小文件名，value為文件內容，則可以將大批小文件合并成一個大文件。

1）和2）這里不做介紹，可以參考 ??

http://blog.cloudera.com/blog/2009/02/the-small-files-problem

3）CombineFileInputFormat：

Hadoop有一個專門的類CombineFileInputFormat?來處理小文件，它根據一定的規則，將HDFS上多個小文件合并到一個InputSplit中，同時啟動適量的Map來處理這里面的文件，以減少MR整體作業的運行時間。CombineFileInputFormat類繼承FileInputFormat，主要重寫了ListgetSplits(JobContext var1)方法，我們可以設置mapreduce.input.fileinputformat.split.minsize.per.node、mapreduce.input.fileinputformat.split.minsize.per.rack和mapreduce.input.fileinputformat.split.maxsize?參數的設置來合并小文件。其中mapreduce.input.fileinputformat.split.maxsize參數至關重要，如果沒有設置這個參數（默認沒設置），那么同一個機架上的所有小文件將組成一個InputSplit，最終由一個Map Task來處理。如果設置了這個參數，那么同一個節點（node）上的文件將會組成一個InputSplit。

InputSplit包含的HDFS塊信息存儲在CombineFileSplit?類中。該類包含了每個塊文件的路徑、起始偏移量、相對于原始偏移量的大小和這個文件的存儲節點。CombineTextInputFormat告訴MR程序如何讀取組合的InputSplit，具體如何解析CombineFileSplit中的文件主要在CombineFileRecordReader中實現。該類封裝了TextInputFormat的RecordReader，并對CombineFileSplit中的多個文件循環遍歷并讀取其中的內容。

樣例代碼如下：螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后日志輸出：
可以從日志中很清楚的看出input文件數為Total input paths to process : 152，通過CombineFileInputFormat處理后splits為mapreduce.JobSubmitter: number of splits:1，map數為Launched map tasks=1。可以修改mapreduce.input.fileinputformat.split.maxsize參數，觀察Map Task的個數變化。

3、Hive小文件問題

現象1：?hive輸入的文件過多

方案：設置mapper?輸入文件合并參數

螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

現象2：hive執行中間過程生成的文件過多

方案：設置中間過程合并參數，盡量避免小文件螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

現象3：hive輸出結果生成的文件過多

方案：一種是調整reducer個數，另一種是調整reducer大小螞蟻絆倒大象，不起眼的小文件竟拖了Hadoop大數據的后

/ 參考文章 /

1、https://hadoop.apache.org/docs/r2.7.1/hadoop-project-dist/hadoop-hdfs/HdfsDesign.html

2、https://cwiki.apache.org/confluence/display/Hive/Configuration+Properties

3、http://blog.cloudera.com/blog/2009/02/the-small-files-problem/

隨意打賞

大數據展示大數據采集

每日互動AI一體機GAI Station：安全融合大模型與大數據高效驅動企業業務增長

砍柴網 ? 1分鐘前

當前，大模型從技術熱點邁向產業應用，真正的挑戰浮出水面：高昂的私有化部署成本令人卻步，云端調用又使敏感數據如履薄冰。企業渴望深度融入大模型能力，卻常遭遇“水土不服”。如何將海量、分散的企業數據安全高效地轉化為智能生產力？每日互動推出GAI Station個知·智能工作站，基于20年數據智能服務經驗與行業Know-How
每日互動聯手濟南大數據集團共筑數據要素安全流通新生態

砍柴網 ? 17天前

7月7日,每日互動股份有限公司與濟南大數據集團有限公司正式簽署戰略合作協議,在共建濟南城市可信數據空間,打造“濟南發數站”,推動數據要素市場化運營等方面達成戰略合作。濟南能源集團黨委書記、董事長兼濟南大數據集團董事長潘世英,濟南能源集團黨委委員、副總經理兼濟南大數據集團總經理劉英華,每日互動董事長方毅,每日互動首席數據
深挖大數據價值，共探數智新未來——2025全球數字經濟大會大數據創新應用論壇成功召開

雷鋒網 ? 22天前

雷峰網訊 7月2日，以“深挖大數據價值激發數字經濟新動能”為主題的2025全球數字經濟大會大數據創新應用論壇在北京國家會議中心成功召開。作為2025大會的重要組成部分，大數據創新應用論壇匯聚了政產學研用多方力量，全面圍繞人工智能驅動的大模型應用、隱私計算與數據安全治理、大數據賦能產業數字化轉型等議題展開深入研討，為構
重磅發布 | 城農商數字化指南：擁抱AI+大數據，7天裝上營銷大腦！

砍柴網 ? 1月前

此前，中國人民銀行等七部門聯合印發《推動數字金融高質量發展行動方案》，明確指出要以數據要素和數字技術為關鍵驅動，加快推進金融機構數字化轉型，2027年底基本建成與數字經濟發展高度適應的金融體系，金融機構數字化轉型取得積極成效，數字化經營管理能力明顯增強。
中國—上合組織大數據合作中心“中國廣州數字技術培訓基地”落戶Coremail

砍柴網 ? 1月前

6月17日，中國—上海合作組織數字技術合作發展論壇在新疆維吾爾自治區克拉瑪依市舉行。來自中國及上合組織國家的政府官員、專家學者和企業代表等參與，與會嘉賓共同探討數字技術發展新路徑，為上合組織國家數字化合作擘畫藍圖。論壇上，中國—上海合作組織大數據合作中心正式授牌設立“哈薩克斯坦數字技術交流基地”“中國廣州數字技術培訓基
AI+業財大數據，破解「核算到報告」難題

砍柴網 ? 1月前

【實時見證用友BIP的每一次升級與迭代，6月19日，《用友BIP發布時刻》第11期上線，重磅發布“用友BIP智能會計助理、企業報表助理、合并報表助理、智策”。這一系列發布，旨在徹底破解企業財務數據“不準、不細、不及時”的三大核心難題，重塑從基礎核算到戰略報告的業財數據價值鏈，為企業提供實時、精準、深入的決策支持，實現
復旦消費大數據：京東家電618占比超5成小家電品類爆發式增長

砍柴網 ? 1月前

2025年618圓滿收官，其整體消費數據引發了全社會的廣泛關注。近日，復旦消費大數據實驗室發布了《2025年“618”線上消費數據觀察》。數據顯示，今年618期間，全網零售額接近2萬億元，再創新高，同比增長約9.8%。在國家補貼與各平臺優惠福利的雙重刺激下，消費熱情被全面激發。在此背景下，京東的核心優勢品類—
水滴信用驚艷亮相火山引擎原動力大會，展示企業大數據大模型成果

砍柴網 ? 1月前

6月11日，2025火山引擎春季FORCE原動力大會于北京國家會議中心盛大舉辦。這場聚焦大模型與 AI 云原生等前沿技術的盛會，匯聚了眾多行業精英，圍繞 AI 轉型機遇與創新產品落地路徑展開深度探討。水滴信用作為火山引擎合作伙伴，受邀出席并驚艷亮相，向與會嘉賓展示了大數據大模型成果 —— 水滴信用企業大數據 MCP。大
水滴信用開放平臺開放支持企業大數據MCP企業信息查詢場景

砍柴網 ? 1月前

企業信息查詢是當前商查平臺的主流功能，水滴信用作為專業的企業信息查詢平臺擁有著1000+維度的企業數據，目前已經構建了3.7億市場主體為核心的中國企業信用信息圖譜，現已極大滿足了金融機構風險評估、企業供應鏈風控、集團風險監控、政府動態監管等多類型企業單位的多場景業務開展。隨著大模型
韓國SKT重大數據泄露：2700萬用戶信息遭竊，惡意軟件已潛伏三年

砍柴網 ? 2月前

5 月 24 日消息，韓國最大移動運營商 SK 電訊（SKT）上個月稱其遭遇黑客攻擊，致使用戶 SIM 卡相關信息泄露。SK 電訊本周通報了此次黑客攻擊事件一系列詳情（每天都會舉行簡報會）。根據韓國科學技術信息通信部調查報告，26,957,749 個 SIM 卡信息被泄露。這也是韓國電信史上最嚴重數據泄露事件，甚至超過
Hadoop大數據“存算分離”，柏科數據 ISCloud分布式存儲"提質增效"

砍柴網 ? 3年前

數據湖的發展契機，來源于近年來的AI熱潮和云計算、5G的發展，在日益發展的海量數據時代，數據已成為企業發展的核心資產，通過構建適用于大數據的底層架構，圍繞Hadoop提供語義一致性、數據治理和安全性。Hadoop作為數據湖最常用的解決方案之一，其的部署和需求仍然很大并且正在增長。在最近的一項涉及235名受訪者的調查中，
Hadoop大數據存算分離，杉巖MOS知你所想

砍柴網 ? 3年前

大數據經過了多年的發展，以Hadoop生態為核心的大數據框架已經十分成熟，這個過程伴隨著對存儲需求的不斷變化，從而演進出了數據湖的概念以及在數據湖存儲方面的幾個新需求特征：如數據的分布組織與元數據的高效管理；存儲和計算分離，大幅降低成本；數據全生命周期管理；多訪問協議支持達到All in One的存儲能力；具備數據的智
星環科技孫元浩：用自研框架取代Hadoop，加速實現基礎軟件國產化替代數字觀察

砍柴網 ? 5年前

2019年將近尾聲,談到截止目前,2019年星環科技所取得成績,創始人孫元浩做了一些簡單的總結。 “第一,從產品線來說,從2017年開始,星環科技已經基本確定三條產品線,大數據產品是主要產品線,而人工智能機器學習平臺和容器的智能大數據云平臺,是圍繞客戶在使用大數據基礎軟件的基礎需求上
Hadoop，涼了？

億歐網 ? 5年前

【編者按】雖然大數據依然如日中天，但該領域曾經的領頭羊 Cloudera 、Hortonworks 和 MapR 三家公司最近卻步履蹣跚，多少掩蓋了其幾分風光。Cloudera 和 Hortonworks 合并，而 MapR 開始裁員。與此同時，大數據領域的 Elastic 、Mongo
開源平臺Cloudera暴跌40%，Hadoop不行了嗎？

砍柴網 ? 6年前

Tom Reilly, chief executive officer of Cloudera Inc. 今年6月6日，Hadoop 商業公司Cloudera突然暴跌了40%，一時間引發了大家激烈的討論，在這些討論之中，最具代表性的觀點便是Cloudera的暴跌代表著Hadoop的隕落。
開源平臺Cloudera暴跌40%，Hadoop不行了嗎？

鈦媒體 ? 6年前

Tom Reilly, chief executive officer of Cloudera Inc.文｜郭華今年6月6日，Hadoop商業公司Cloudera突然暴跌了40%，一時間引發了大家激烈的討論，在這些討論之中，最具代表性的觀點便是Cloudera的暴跌代表著Hadoop的隕落。但我認為Cloudera的暴
技術干貨：SQL on Hadoop在快手大數據平臺的實踐與優化

創見網 ? 6年前

快手大數據架構工程師鐘靚近日在 A2M 人工智能與機器學習創新峰會分享了題為《SQL on Hadoop 在快手大數據平臺的實踐與優化》的演講，主要從 SQL on Hadoop 介紹、快手 SQL on Hadoop 平臺概述、SQL on Hadoop 在快手的使用經驗和改進分析、快手 SQL on Ha
曾推出Hadoop卻迅速消失，雅虎研究院是如何在10年間衰落的？

IT思維 ? 6年前

公眾號/AI前線策劃編輯｜蔡芳芳作者｜洪亮劼編輯｜Debra AI 前線導讀：雅虎是最早成功的互聯網公司之一，也是最早意識到需要把基礎研究，特別是機器學習以及人工智能研究，應用到實際產品中的公司。雅虎從很早就開始招聘和培養研究型人才，雅虎研究院就是在這個過程中應運而生的。本文將說
Cloudera和Hortonworks合并，Hadoop將走向何方？

億歐網 ? 6年前

【編者按】在開源已經逐漸成為一種政治正確的時候，開源項目最終會走向哪里？本文針對Cloudera和Hortonworks的宣布合并一事進行發問，回溯 Hadoop 的商業化和合并前后歷程，試圖尋找這一答案。本文首發于IT經理世界，作者李昊原；

評論

提交建議