数据与配置.parquet
Parquet 查看器
关于 Parquet
Apache 列式数据格式。
Parquet 是现代列式分析格式——Spark、Athena、DuckDB、BigQuery 外部表以及 Hugging Face datasets hub 的底层存储。hyparquet 不使用 WebAssembly 直接在浏览器中解码,先读取页脚元数据,然后只物化你请求的行。我们采样前 1000 行,使数 GB 文件立即打开;呈现带逻辑类型和重复模式的叶列 schema,并允许你将样本导出为 JSON。嵌套值(列表、结构体、映射)渲染为紧凑 JSON;二进制列以字节长度概要呈现。
常见问题
- 什么是 Parquet 文件?
- Apache Parquet 是为分析查询优化的列式磁盘格式。数据按行组分区,每个行组按列块,每个列块按页——这样引擎就能仅读取所需的列。
- 为什么只有 1000 行?
- Parquet 文件动辄数亿行。我们物化一个样本以保持查看器响应;工具栏中的行数显示来自页脚元数据的真实总数。
- 支持嵌套类型吗?
- 支持。列表、结构体和映射通过 hyparquet 往返,我们将它们渲染为紧凑 JSON。十进制、日期和时间戳在 Schema 标签中以其逻辑类型注解呈现。
- 我的文件会被上传吗?
- 不会。字节在浏览器中本地解析;文件从不离开你的设备。
- 在移动端能用吗?
- 可以。结果表横向滚动并固定行索引,在窄视口下 schema 视图也能干净地堆叠。
更多数据与配置