
สมมุติว่าเราต้องการข้อมูล ที่ส่งมาจากเพื่อนร่วมงานทางอีเมล หรือข้อมูลที่ Download จาก Internet แล้วมีไฟล์ข้อมูลให้เลือก 3 รูปแบบ คือ 1.Text 2.CSV และ 3.Excel เราควรเลือกไฟล์แบบไหนดีเพื่อง่ายต่อการนำไปวิเคราะห์ต่อ?
คำตอบคือ ถ้าเลือกได้ขอเป็น Text หรือ CSV จะดีกว่าเป็น Excel ที่ตอบแบบนี้เพราะอะไร? ก็เพราะว่า Excel นั้นโดยส่วนใหญ่จะมีการออกแบบโดยเน้น 2 ส่วนคู่กัน คือ ข้อมูล + รูปแบบ
คือต้องการ 1)แสดงข้อมูล และ 2)รูปแบบที่สวยงาม เพื่อให้ผู้ดูเข้าใจได้ง่าย เป็นต้น เรามีตัวอย่างจริง เช่นข้อมูล จำนวนนักเรียน นิสิต นักศึกษาในระบบโรงเรียน ในสถานศึกษาของรัฐบาลและเอกชน จำแนกตามระดับการศึกษา และชั้น ปีการศึกษา 2559 – 2563 ที่มีให้ Download จาก Website ของสำนักงานสถิติแห่งชาติ ดังรูป

ข้อมูลที่เห็นในรูปด้านบนก็ดูเข้าใจง่ายดี แต่ถ้านักวิเคราะห์ข้อมูลจะนำข้อมูลนี้ไปวิเคราะห์ต่อ เช่น ไปวิเคราะห์บนโปรแกรม BI หรือต้องการ Import ข้อมูลนี้เข้า Table ใน Database แล้ว จะพบว่าเราไม่สามารถใช้ข้อมูลที่มีรูปแบบ หรือ Format แบบนี้ได้ทันที เกิดความยุ่งยากต่อการนำข้อมูลไปใช้เพื่อวิเคราะห์ต่อ
ดังนั้นถ้าเลือกได้ เราจึงชอบที่จะได้ข้อมูลในรูปแบบ Text file หรือ CSV มากกว่า เพราะไฟล์ทั้ง 2 ชนิดนี้ส่วนใหญ่ข้อมูลจะมีลักษณะของ ตารางข้อมูล ที่ Row แรกเป็นชื่อ Field และ Row ต่อ ๆ ไปเป็นเนื้อข้อมูลดังรูปด้านล่าง ซึ่ง Format แบบนี้นั้น เราสามารถนำนี้ไปใช้ต่อได้ทันที

อย่างไรก็ดีถ้าเราเลือกไม่ได้ หรือมีเพียงทางเลือกเดียวคือ ข้อมูลเป็นไฟล์ Excel และมีรูปแบบดังตัวอย่าง แล้วเราจะมีวิธีการอย่างไรดี ที่จะ Clean Excel Data ให้อยู่ในรูปแบบที่เหมาะสม และไม่ต้องมาแปลงข้อมูลแบบ manual ทุกครั้งไป
จึงเป็นที่มาของบทความนี้ ที่จะอธิบายวิธีการจัดการข้อมูลจาก Excel ด้วยฟังก์ชัน Data Interpreter[1] บนโปรแกรม Tableau Prep
Data Interpreter คืออะไร?
โดยหลักแล้ว Data Interpreter ทำหน้าที่ในการจัดการ Header หรือ Column Name หรือ Field Name เพื่อให้เราได้ข้อมูลที่ต้องการ สำหรับข้อมูลที่ไม่ได้อยู่ในรูปแบบที่สามารถตีความได้ทันที ดังตัวอย่างเช่น (ดูรูปด้านล่างประกอบ)
- Row แรกไม่ใช่ Header (ในรูปเป็นตัวหนังสือ อธิบายชื่อข้อมูล “จำนวนนักเรียน นิสิต ……”)
- มีการ Merge Field ในรูปคือ มีการ Merge แนว Row คือ “ระดับการศึกษา/ชั้น” และ Merge แนว Column คือ ปี พศ. 2559 – พศ. 2563 และ Header ก็ดันมี 2 Rows (Row3 และ Row4) อีกต่างหาก
- การตัดสินใจว่า ตัวเนื้อข้อมูลจะเริ่มที่ Row ไหนดี โดยปกติข้อมูลจะเริ่มที่ Row2 (เพราะ Row 1 คือ Header) แต่ในกรณีนี้ข้อมูลเริ่มที่ Row 5

วิธีการทำ Data Interpreter บน Tableau Prep Builder
- เปิดโปรแกรม Tableau Prep Builder
- Connect Excel Data (ข้อมูลตามรูปที่ 1) จะได้ผลลัพธ์ดังรูปด้านล่าง จะเห็นว่า Tableau อ่านข้อมูลแล้วตีความว่ามีข้อมูล 11 Columns แต่ว่าชื่อ Column ไม่ชัดเจน ดังนั้น Tableau จึงตั้งชื่อ Column ว่า F1, F2,…, F11 โดย F น่าจะย่อมาจากคำว่า “Field”

- เมื่อเรา View ข้อมูลใน Clean Step จะพบว่า เราได้ข้อมูลตรงไปตรงมา เหมือนกับที่เราเห็นด้วยตาบน Excel ดังรูป

จะเห็นว่าข้อมูลนี้เราไม่สามารถนำไปใช้งานได้ จึงจำเป็นต้องปรับแต่งก่อน
- เราจึงจะใช้ฟังก์ชัน Data Interpreter มาช่วยจัดการข้อมูล วิธีการก็แค่ไป Flag ที่เมนู “Cleaned with Data Interpreter” ในแถบด้านซ้ายมือ

- สังเกตว่า Field Name จะถูกตีความใหม่ เป็น รัฐบาล, เอกชน, รัฐบาล1, เอกชน1 .. เป็นต้น

จะสังเกตว่าข้อมูลปี พศ. ขาดหายไป จึงยังไม่ตรงตามที่เราต้องการซะทีเดียว ผู้เขียนพบว่า Tableau ไม่อ่านปี พศ. เพราะข้อมูลเป็นตัวเลข (numeric) ดังนั้นผู้เขียนขอไปแก้ไขข้อมูลโดยเติมคำว่า “Year” นำหน้าปี พศ. ดังรูป ซึ่งจะทำให้ Tableau ตีความว่าเป็น Text

- เมื่อทำการ Refresh ข้อมูลจะเห็นว่า ชื่อ Field มีการระบุปีพศ. มาเพิ่มแล้ว ดังรูป

- เสร็จเรียบร้อยแล้วครับ เมื่อ View Data เราก็จะได้ข้อมูลแบบที่ต้องการ ดังรูป

หมายเหตุ การทำ Data Interpreter มักจะทำควบคู่กับการ Pivot Data เพื่อ Reshape ข้อมูลจาก Column เป็น Row ซึ่งผู้เขียนจะอธิบายในบทความอีกอันหนึ่งชื่อ “Clean Excel Data บน Tableau Prep ตอนที่ 2 – Pivot Data”
สรุป
Data Interpreter จะช่วยให้เราสามารถ Clean ข้อมูลบน Excel ในกรณีที่ไฟล์ Excel นั้นไม่มีการกำหนด Header ที่ชัดเจน ช่วยให้เราไม่จำเป็นต้องมาทำการแปลงข้อมูลแบบ Manual ทุกครั้งที่ข้อมูลมีการเปลี่ยนแปลง และสามารถนำข้อมูลไปสร้าง Flow ในขั้นตอนถัด ๆ ไปได้
[1] ฟังก์ชัน Data Interpreter นั้นสามารถใช้งานได้ทั้งโปรแกรม Tableau Prep Builder และโปรแกรม Tableau Desktop