了解HBase
HBase快速入門
1. 快速啟動(dòng)HBase
Apache HBase配置
1. Apache HBase配置文件
2. HBase基礎(chǔ)條件
3. HBase運(yùn)行模式
4. 開始運(yùn)行HBase
5. HBase默認(rèn)配置
6. HBase配置示例
7. HBase重要配置
8. HBase動(dòng)態(tài)配置
升級(jí)HBase
1. HBase版本號(hào)和兼容性
2. HBase回滾：版本恢復(fù)
3. HBase升級(jí)路徑
HBase Shell
1. 使用Apache HBase Shell
2. HBase shell 技巧
HBase數(shù)據(jù)模型
1. HBase概念視圖
2. HBase物理視圖
3. HBase命名空間
4. HBase表、行與列族
5. HBase數(shù)據(jù)模型操作
6. HBase版本
7. HBase排序順序、列元數(shù)據(jù)以及聯(lián)合查詢
HBase和Schema設(shè)計(jì)
1. HBase模式(Schema) 創(chuàng)建
2. HBase表格模式經(jīng)驗(yàn)法則
Thumb的RegionServer大小規(guī)則
1. HBase列族數(shù)量
2. Rowkey（行鍵）設(shè)計(jì)
3. HBase版本數(shù)量
4. HBase支持的數(shù)據(jù)類型
5. HBase生存時(shí)間（TTL）
6. 保留已刪除的HBase單元格
7. HBase二級(jí)索引和備用查詢路徑
8. HBase限制因素
9. HBase模式（Schema）設(shè)計(jì)案例
10. HBase操作和性能配置選項(xiàng)
11. HBase特殊情況
HBase和MapReduce
1. HBase、MapReduce和CLASSPATH
2. MapReduce掃描緩存
3. 捆綁HBase MapReduce作業(yè)
4. HBase作為MapReduce作業(yè)數(shù)據(jù)源和數(shù)據(jù)接收器
5. 在批量導(dǎo)入時(shí)直接寫入HFiles
6. RowCounter示例
7. Map-Task分割
8. HBase MapReduce示例
Apache HBase安全
1. 為Web UI使用安全HTTP（HTTPS）
2. 將SPNEGO用于Web UI的Kerberos身份驗(yàn)證
3. 客戶端安全訪問Apache HBase
4. 用戶訪問Apache HBase的簡(jiǎn)單方法
5. 安全訪問HDFS和ZooKeeper
6. HBase數(shù)據(jù)安全
7. HBase安全配置示例
HBase架構(gòu)
1. HBase架構(gòu)概述
2. HBase目錄表
3. HBase客戶端
4. HBase客戶端請(qǐng)求過濾器
5. HBase架構(gòu)：Master
HBase架構(gòu)：RegionServer
1. RegionServer接口、進(jìn)程與協(xié)處理器
2. HBase塊緩存
3. RegionServer Offheap讀/寫路徑
4. RegionServer拆分實(shí)現(xiàn)
HBase使用Write Ahead Log（WAL）
1. HBase使用WAL的目的
2. HBase：WAL供應(yīng)方
3. HBase：MultiWAL支持
4. HBase：WAL拆分
5. HBase：WAL壓縮
6. WAL耐久性
7. HBase：禁用WAL
HBase區(qū)域
1. HBase區(qū)域數(shù)量
2. HBase區(qū)域服務(wù)器分配
3. HBase區(qū)域服務(wù)器位置
4. HBase區(qū)域拆分
5. HBase自定義拆分策略
6. HBase手動(dòng)拆分區(qū)域
7. HBase在線區(qū)域合并
Store
1. MEMSTORE
2. Scans
3. HBase使用StoreFile（HFile）
4. 塊和KeyValue
HBase批量加載
1. HBase批量加載架構(gòu)
2. HDFS
HBase：Timeline-consistent高可用讀取
1. HBase時(shí)間軸一致性（Timeline Consistency）
2. HBase時(shí)間軸一致性的權(quán)衡取舍
3. HBase時(shí)間軸一致性：將寫入傳播到區(qū)域副本
4. HBase時(shí)間軸一致性：存儲(chǔ)文件TTL
5. HBase時(shí)間軸一致性：META表區(qū)域的區(qū)域復(fù)制
6. HBase時(shí)間軸一致性：內(nèi)存報(bào)告
7. HBase時(shí)間軸一致性：輔助副本故障切換
8. HBase時(shí)間軸一致性：配置屬性
9. HBase時(shí)間軸一致性：創(chuàng)建具有區(qū)域復(fù)制的表
10. HBase時(shí)間軸一致性：讀取API和用法
HBase：存儲(chǔ)中型對(duì)象（MOB）
1. HBase：為MOB配置列
2. HBase：配置MOB壓縮策略
3. HBase：配置MOB壓縮可合并閾值
4. HBase：測(cè)試MOB
5. HBase：配置MOB緩存
HBase：MOB優(yōu)化任務(wù)
HBase內(nèi)存壓縮
啟用HBase內(nèi)存壓縮
HBase備份與還原
1. HBase備份與還原策略
2. HBase備份與還原的首次配置
3. HBase備份和還原命令
4. HBase備份圖像管理
HBase同步復(fù)制
Apache HBase API
Apache HBase外部API
1. HBase：REST服務(wù)器
2. 將Java數(shù)據(jù)對(duì)象（JDO）與HBase一起使用
3. HBase與Scala一起使用
4. HBase與Jython一起使用
HBase：Thrift API和過濾器語言
1. HBase：常規(guī)過濾字符串語法
2. HBase：復(fù)合過濾器和運(yùn)算符
3. HBase：過濾器計(jì)算順序
4. HBase：過濾器比較運(yùn)算符
5. HBase比較器
6. HBase過濾器語言示例
7. HBase單個(gè)過濾器語法
HBase和Spark
1. HBase：基本Spark
2. Spark Streaming
3. 使用Spark將數(shù)據(jù)批量加載到HBase
4. SparkSQL / DataFrames
Apache HBase協(xié)處理器
1. Apache HBase協(xié)處理器概述
2. Apache HBase協(xié)處理器的類型
3. Apache HBase加載協(xié)處理器
4. HBase觀察者協(xié)處理器示例
5. HBase部署協(xié)處理器的準(zhǔn)則
6. HBase限制協(xié)處理器的使用
Apache HBase性能調(diào)整
1. HBase性能調(diào)整：操作系統(tǒng)
2. HBase性能調(diào)整：網(wǎng)絡(luò)
3. HBase性能調(diào)整：Java GC
4. HBase性能調(diào)整：配置
5. HBase性能調(diào)整：架構(gòu)設(shè)計(jì)
6. HBase性能調(diào)整：一般模式
7. HBase相關(guān)內(nèi)容
8. 從HBase讀取
9. 從HBase刪除
10. HDFS的工作方式
11. Amazon EC2
12. 配置HBase和MapReduce
故障排除和調(diào)試Apache HBase
1. 故障排除和調(diào)試HBase：日志
2. 故障排除和調(diào)試HBase：資源
3. 故障排除和調(diào)試HBase：工具
  1. 內(nèi)置工具
  2. 外部工具
4. 故障排除和調(diào)試HBase：客戶端
5. 故障排除和調(diào)試HBase：MapReduce
6. 故障排除和調(diào)試HBase：NameNode
7. 故障排除和調(diào)試HBase：網(wǎng)絡(luò)
8. 故障排除和調(diào)試HBase：RegionServer
9. 故障排除和調(diào)試HBase：Master
10. 故障排除和調(diào)試HBase：ZooKeeper
11. 故障排除和調(diào)試HBase：Amazon EC2
12. 故障排除和調(diào)試HBase：HBase和Hadoop版本問題
13. 故障排除和調(diào)試HBase：HBase和HDFS

閱讀(4.7k) 書簽贊(0) 我要糾錯(cuò)

HBase批量加載架構(gòu)

2018-06-20 11:31 更新

批量加載架構(gòu)

HBase批量加載過程包含兩個(gè)主要步驟。

通過MapReduce作業(yè)準(zhǔn)備數(shù)據(jù)

批量加載的第一步是使用HFileOutputFormat2從MapReduce作業(yè)生成HBase數(shù)據(jù)文件（StoreFiles）。這種輸出格式以 HBase 的內(nèi)部存儲(chǔ)格式寫出數(shù)據(jù)，以便以后可以非常高效地將其加載到群集中。

為了高效工作，必須對(duì)HFileOutputFormat2進(jìn)行配置，使每個(gè)輸出 HFile 適合單個(gè)區(qū)域。為了做到這一點(diǎn)，輸出將被批量加載到HBase中的作業(yè)使用Hadoop的TotalOrderPartitioner類來將映射輸出分區(qū)到密鑰空間的不相交范圍中，對(duì)應(yīng)于表中區(qū)域的鍵范圍。

HFileOutputFormat2包括一個(gè)方便函數(shù)，configureIncrementalLoad()，它根據(jù)根據(jù)表格的當(dāng)前區(qū)域邊界自動(dòng)設(shè)置TotalOrderPartitioner。

完成數(shù)據(jù)加載

在準(zhǔn)備好數(shù)據(jù)導(dǎo)入之后，無論是通過使用具有“importtsv.bulk.output”選項(xiàng)的importtsv工具，還是使用HFileOutputFormat的其他MapReduce作業(yè)，該completebulkload工具都可用于將數(shù)據(jù)導(dǎo)入到正在運(yùn)行的集群中。這個(gè)命令行工具遍歷準(zhǔn)備好的數(shù)據(jù)文件，并且每個(gè)文件確定文件所屬的區(qū)域。然后，它會(huì)聯(lián)系采用HFile的相應(yīng)RegionServer，將其移動(dòng)到其存儲(chǔ)目錄并使數(shù)據(jù)可供客戶端使用。

如果在批量加載準(zhǔn)備過程中或者在準(zhǔn)備和完成步驟之間區(qū)域邊界發(fā)生了變化，completebulkload公用程序會(huì)自動(dòng)將數(shù)據(jù)文件分成與新邊界相對(duì)應(yīng)的部分。這個(gè)過程并不是最佳效率，因此用戶應(yīng)該注意盡量減少在準(zhǔn)備批量加載和將其導(dǎo)入群集之間的延遲，特別是如果其他客戶端同時(shí)通過其他方式加載數(shù)據(jù)。

$ hadoop jar hbase-server-VERSION.jar completebulkload [-c /path/to/hbase/config/hbase-site.xml] /user/todd/myoutput mytable

該-c config-file選項(xiàng)可用于指定包含適當(dāng)?shù)膆base參數(shù)的文件（例如，hbase-site.xml）（如果CLASSPATH中尚未提供此參數(shù)）（此外，如果zookeeper不是由HBase管理，則CLASSPATH必須包含具有zookeeper配置文件的目錄）。

如果目標(biāo)表在HBase中不存在，則此工具將自動(dòng)創(chuàng)建表。

以上內(nèi)容是否對(duì)您有幫助：

← HBase批量加載

HDFS →

寫筆記

我要補(bǔ)充