Hadoop 文件系统

Hadoop 有一个抽象的文件系统概念。Java 抽象类 org.apache.hadoop.fs.FileSystem 定义了 Hadoop 中一个文件系统的客户端接口,并且该抽象类有几个具体实现,其中常用的如下表:

文件系统 URI 方案 Java 实现 描述
Local file:///path fs.LocalFileSystem 使用客户端检验和的本地磁盘文件系统。使用 RawLocalFileSystem 表示无校验和的本地磁盘文件系统。
HDFS hdfs://host/path hdfs.DistributedFileSystem Hadoop 的分布式文件系统
FTP ftp://host/path fs.ftp.FTPFileSystem 由 FTP 服务器支持的文件系统
SFTP sftp://host/path fs.sftp.SFTPFileSystem 由 SFTP 服务器支持的文件系统
阅读更多

Windows 下搭建 Spark

版本选择

Spark 部署模式分为本地单机(local)和集群模式,本地单机模式常用于本地开发程序与调试。集群模式又分为 Standalone 模式、Yarn 模式、Mesos 模式
通过测试发现,以下版本组合报错信息最少

组件 版本
Spark 3.2.2
Hadoop 3.3.1
Scala 2.12.15
JDK 1.8
阅读更多