河南省建设厅举报网站,外贸平台有哪些?,网站案例英文,wordpress付费观看DataSource(数据源)
在本节中#xff0c;我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源#xff0c;如 Parquet、CSV、JSON 和 JDBC 外#xff0c;我们还提供了一些专门用于机器学习的数据源。
###Image data source#xff08;图像数据源#xf…DataSource(数据源)
在本节中我们将介绍如何在机器学习中使用数据源加载数据。除了一些通用的数据源如 Parquet、CSV、JSON 和 JDBC 外我们还提供了一些专门用于机器学习的数据源。
###Image data source图像数据源 该图像数据源用于从目录加载图像文件它可以通过 Java 库中的 ImageIO 加载压缩图像jpeg、png 等到原始图像表示。加载的 DataFrame 有一个 StructType 列“image”包含存储为图像模式的图像数据。图像列的模式是
originStringType表示图像的文件路径 heightIntegerType图像的高度 widthIntegerType图像的宽度 nChannelsIntegerType图像通道的数量 modeIntegerType与 OpenCV 兼容的类型 dataBinaryType以 OpenCV 兼容的顺序排列的图像字节在大多数情况下为逐行 BGR import org.apache.spark.sql.SparkSession/*** description TODO* date 2024/1/31 15:30* author by fangwen1*/
object ImageDataSource {def main(args: Array[String]): Unit {val spark SparkSession.builder.master(local[*]).appName(ImageDataSource).getOrCreate()//.format(image) 告诉 Spark 读取器数据是以图像格式存储的而 .option(dropInvalid, true) 设置了一个选项指示读取器在加载过程中丢弃任何无效的图像文件。val df spark.read.format(image).option(dropInvalid, true).load(data/mllib/images/origin/kittens)df.select(image.origin, image.width, image.height, image.nChannels, image.mode).show(truncatefalse)//.format(libsvm) 告诉 Spark 读取器数据是以 LIBSVM 格式存储的而 .option(numFeatures, 780) 设置了一个选项指定特征向量的数量为 780。val df1 spark.read.format(libsvm).option(numFeatures, 780).load(data/mllib/sample_libsvm_data.txt)df1.show()}
}