# Dataset (DataSet)

![DataSample Process][datasample-process]

Dataset didefinisikan melalui pelbagai tetapan dan maklumat. Berikut adalah penerangan terperinci mengenai setiap bidang dan pilihan tetapan yang berkaitan dengan dataset.

- **Nama (name)**: Menetapkan nama dataset. Nama ini digunakan untuk mengenal pasti dataset secara unik.

- **Penerangan (description)**: Menetapkan penerangan mengenai dataset. Digunakan untuk menjelaskan tujuan, kandungan, atau ciri-ciri dataset.

- **Jenis (type)**: Menetapkan jenis dataset. Anda boleh memilih salah satu daripada dua pilihan.

  - **Pengumpulan Manual (Manual)**: Mewakili dataset di mana data dimasukkan secara manual oleh pengguna.
  - **Pengumpulan Automatik (Automatic)**: Mewakili dataset di mana data dikumpulkan melalui cara automatik seperti sensor.

- **Set Kunci Data (dataKeySet)**: Pilih item yang didaftarkan dalam halaman utama set kunci data. Set kunci data menentukan medan dan atribut data yang akan digunakan dalam dataset.

- **Kunci Partisi (partitionKeys)**: Menetapkan kunci partisi yang digunakan untuk membahagi dan mengatur data. Kunci partisi mengelompokkan dan menyimpan data secara logik, dan menyediakan kecekapan dalam mengurus dan mencari data. Penggunaan kunci partisi membolehkan penyaringan dan pertanyaan data dengan cepat.

- **Jadual (schedule)**: Menetapkan kitaran masukan data. Apabila kitaran masukan ditetapkan, tugas masukan data akan dilaksanakan pada setiap kitaran.

- **Zon Waktu (timezone)**: Menetapkan zon waktu rujukan untuk jadual. Digunakan untuk tugas yang berkaitan dengan penukaran zon waktu.

- **Senario Data Normal (normalScenario)**: Apabila data normal dihasilkan, tetapkan senario yang bermula. Digunakan apabila perlukan pemprosesan susulan data.

- **Senario Data Luar Biasa (outlierScenario)**: Apabila data yang melebihi julat normal dihasilkan, tetapkan senario yang bermula. Digunakan apabila perlukan pemprosesan susulan data.

- **Kebutuhan Ulasan (requiresReview)**: Tetapkan sama ada ulasan data diperlukan. Jika ditetapkan, proses ulasan dan kelulusan pengurus akan dimulakan secara automatik.

- **Garis Kelulusan Ulasan (reviewApprovalLine)**: Apabila data normal dihasilkan, tetapkan garis kelulusan proses ulasan data. Hanya digunakan jika kerja ulasan diperlukan.

- **Garis Kelulusan Data Luar Biasa (outlierApprovalLine)**: Apabila data yang melebihi julat normal dihasilkan, tetapkan garis kelulusan proses tindakan data.

- **Peranan Penyelia (supervisoryRole)**: Menetapkan peranan penyelia dataset. Penyelia mempunyai kuasa dan tanggungjawab ke atas dataset.

- **Peranan Penginputan (entryRole)**: Menetapkan peranan yang mempunyai kebenaran penginputan. Mewakili peranan yang menjalankan tugas penginputan data.

- **Jenis Skrin Penginputan (entryType)**: Menetapkan jenis skrin penginputan. Anda boleh memilih salah satu daripada pilihan berikut.

  - **Generated**: Menggunakan skrin yang diimplementasikan secara automatik.
  - **Board**: Menggunakan skrin Board.
  - **Page**: Pergi ke halaman yang diimplementasikan. Suburl diperlukan.
  - **URL Luaran**: Pergi ke halaman luar. URL penuh diperlukan.

- **Skrin Penginputan (entryView)**: Menetapkan nilai bergantung pada jenis skrin penginputan. Jika jenis skrin Board dipilih, anda boleh menetapkan nilai yang sesuai.

- **Jenis Skrin Pemantauan (monitorType)**: Menetapkan jenis skrin pemantauan. Menawarkan pilihan yang sama dengan jenis skrin penginputan.

- **Skrin Pemantauan (monitorView)**: Menetapkan nilai yang sesuai dengan jenis skrin pemantauan.

- **Jenis Skrin Laporan (reportType)**: Menetapkan jenis skrin laporan. Menawarkan beberapa pilihan yang sama dengan jenis skrin penginputan.

  - **Jasper**: Menghasilkan laporan dengan merender halaman laporan Jasper berdasarkan tetapan pelayan Jasper.
  - **Shiny**: Menghasilkan laporan dengan merender aplikasi halaman Shiny berdasarkan tetapan pelayan Shiny.

- **Skrin Laporan (reportView)**: Menetapkan nilai yang sesuai dengan jenis skrin laporan. Dalam kes Jasper atau Shiny, suburl yang sah dari pelayan tersebut diperlukan.

- **Templat Laporan (reportTemplate)**: Memuat naik fail templat yang diperlukan untuk skrin laporan.

- **Penugasan (assignees)**: Menetapkan orang yang bertanggungjawab untuk menangani pertanyaan mengenai data anomali.

- **Barisan Kelulusan Semakan (reviewApprovalLine)**: Menetapkan barisan kelulusan untuk semakan dataset.

- \*\*Barisan Kel

ulusan Pemprosesan Data Anomali (outlierApprovalLine)\*\*: Menetapkan barisan kelulusan untuk pemprosesan data anomali.

- **Kegunaan (useCase)**: Menunjukkan kegunaan atau tujuan dataset. Termasuk pilihan kegunaan umum seperti "QA," "CCP," "SPC."

- **Item Data (dataItems)**: Menetapkan item data untuk dataset.

- **Jadual Penginputan Data (schedule)**: Menetapkan kitaran penginputan data.

- **Zon Waktu Penginputan Data (timezone)**: Menetapkan zon waktu yang berkaitan dengan penginputan dataset.

- **Keperluan Semakan (requiresReview)**: Menunjukkan sama ada dataset memerlukan semakan.

- **ID Jadual (scheduleId)**: Menetapkan ID jadual dataset.

- **Kitaran Ringkasan (summaryPeriod)**: Apabila kitaran ringkasan ditetapkan, tugas ringkasan secara automatik didaftarkan dalam penjadual. Saat ini, ringkasan mingguan dan bulanan tidak ditawarkan kerana beban kerja. Pilihan kitaran termasuk jam (hour), shift (shift), hari kerja (workdate), dan harian (daily).

- **Tarikh dan Masa Pelaksanaan Ringkasan Seterusnya (summarySchedule)**: Menunjukkan tarikh dan masa pelaksanaan ringkasan seterusnya berdasarkan kitaran ringkasan yang ditetapkan. Tugas ringkasan akan dilaksanakan mengikut kitaran yang ditetapkan.

- **Tanggal Pembuatan (createdAt)**: Menunjukkan tanggal dan waktu pembuatan dataset.

- **Tanggal Pembaruan Terakhir (updatedAt)**: Menunjukkan tanggal dan waktu pembaruan terakhir dataset.

- **Pencipta (creator)**: Menunjukkan pengguna yang menciptakan dataset.

- **Pengemaskini (updater)**: Menunjukkan pengguna yang terakhir mengemaskini dataset.

Tetapan dan maklumat ini membantu dalam mendefinisikan dataset dan menggunakan dataset, membolehkan pemahaman yang jelas mengenai tujuan dan penggunaan dataset.

## Contoh Penggunaan Kunci Partisi (partitionKey)

**Contoh Penggunaan Kunci Partisi (Athena API):**

Athena adalah salah satu perkhidmatan pertanyaan Amazon Web Services (AWS), yang membolehkan pertanyaan dan analisis data yang disimpan di S3 dengan mudah. Mari kita lihat bagaimana menggunakan kunci partisi untuk mencari dan menapis data dengan cepat dalam Athena.

Anggapan:

- Dataset menyimpan data pesanan harian.
- Kunci partisi ditetapkan sebagai "Tanggal (Date)".

**Contoh Pertanyaan Athena:**

Berikut adalah contoh pertanyaan menggunakan Athena untuk mencari data pesanan pada tarikh tertentu.

```sql
SELECT *
FROM "my_dataset"
WHERE "partition_key" = '2023-12-01';
```

Pertanyaan ini mencari semua data pesanan dalam dataset "my_dataset" di mana kunci partisi "Tanggal" adalah '2023-12-01'. Penggunaan kunci partisi membolehkan pencarian data yang diinginkan dengan cepat walaupun dalam set data yang besar.

[datasample-process]: ./images/datasample-process.png
