Datasets:
metadata
license: other
task_categories:
- time-series-forecasting
tags:
- time-series
- tsfile
pretty_name: world_tourism (TsFile format)
world_tourism — TsFile 格式
本目录是 autogluon/fev_datasets 中 world_tourism 子集转换为 Apache TsFile 格式的版本。
来源与引用
- 原始来源:https://www.kaggle.com/datasets/bushraqurban/tourism-and-economic-impact
- 论文/引用:[26]
- 统一格式合集:autogluon/fev_datasets
本数据由外部来源转换为统一格式后再转为 TsFile。许可与引用以原始来源为准,我们不对原始数据主张任何权利。除非另有说明,数据仅供研究用途。
数据统计
| 序列数 | 中位长度 | 观测点数 | 动态列 | 静态列 | 文件 |
|---|---|---|---|---|---|
| 178 | 21 | 3,738 | 1 | 0 | world_tourism.tsfile |
TsFile 存储模型
- 每条原始序列(
id)→ 一个 device(TAG 维度)。 - 随时间变化的 target / 动态协变量 → measurement(FIELD)。
timestamp→Time(INT64 毫秒)。- 表名:world_tourism。
列含义
| 列 | 角色 | TsFile 类型 |
|---|---|---|
Time |
Time(时间列) | INT64 |
id |
TAG(device 维度) | STRING |
target |
FIELD(measurement) | FLOAT |
注:有 75 个原始 id 含非法标识符字符,已规范化为合法 device 名(如 Africa Eastern and Southern→Africa_Eastern_and_Southern, Antigua and Barbuda→Antigua_and_Barbuda, Bahamas, The→Bahamas_The)。
转换说明
- 每行原始数据是一整条序列
(id, timestamp[], 各 target[]),纵向打平为长表后写入 TsFile。 - 数值类型按源列自适应:float32→FLOAT、float64→DOUBLE、整数→INT64、bool→BOOLEAN。
- 时间精度:毫秒(INT64)。
- 大表会被工具自动分片为
<名>_1.tsfile、<名>_2.tsfile…,同属一个逻辑表。
读取示例
from tsfile import TsFileReader
reader = TsFileReader("world_tourism.tsfile")
schemas = reader.get_all_table_schemas()
# 表名:world_tourism;列见下方"列含义"。