วิเคราะห์ปัจจัยที่ส่งผลต่อระยะเวลาพักรักษาที่โรงพยาบาลด้วย R programming

สวัสดีครับ บทความนี้ผมจะนำเสนอการวิเคราะห์ข้อมูลผู้ป่วยโดยมีวัตถุประสงค์ คือการหาคุณลักษณะสำคัญที่ส่งผลต่อระยะเวลาที่ต้องพักรักษาในโรงพยาบาลอย่างมีนัยสำคัญเชิงสถิติ

โดยข้อมูลที่จะใช้ประกอบการวิเคราะห์นั้นอ้างอิงจากเว็บ https://www.kaggle.com/datasets/abdallaahmed77/healthcare-risk-factors-dataset ทำการดาวโหลดไฟล์ให้เรียบร้อยและผมจะเปลี่ยนชื่อไฟล์เป็นชื่อ Healthy risk.csv

ในที่นี้จะทำการสุ่มตัวอย่างข้อมูลผู้ป่วย 3000 คนมา เพื่อวิเคราะห์ข้อมูลจากข้อมูลผู้ป่วยทั้งหมด 30000 คน และตัวแปรคุณลักษณะอีก 18 ตัวแปรโดยจะแสดงชื่อตัวแปรดังต่อไปนี้

ตัวแปรที่จะนำมาใช้ในการวิเคราะห์ข้อมูล

ตัวแปรเป้าหมายที่สนใจคือ : LengOfStay ระยะการพักรักษาในโรงพยาบาล ขอเรียกสั้นๆว่า LOS นะครับ

ตัวแปรอื่นๆที่เหลือจะเป็นปัจจัยที่นำมาพิจารณาว่ามีความเชื่อมโยงต่อ LOS มากน้อยเพียงใด

ขั้นตอนการทำจะเริ่มจากเปิดโปรแกรม R studio –> ดาวน์โหลด library ที่ต้องใช้ –> โหลด data set –> การทำความสะอาดข้อมูล –> การวิเคราะห์ข้อมูล –> การสรุป insight ที่น่าสนใจนะครับ

โดยแบ่งเป็น 4 หัวข้อ มาเริ่มต้นที่หัวข้อแรกกันครับ

Data preparation and EDA

เริ่มจากติดตั้งและดาวน์โหลด library –> การนำเข้าข้อมูล — การทำความสะอาดข้อมูล

Load library

สำหรับการติดตั้งและเรียก library ที่จำเป็นเพื่อใช้งาน สามารถทำได้ดังนี้

การติดตั้งและโหลด library

โดยที่

  • tidyverse สำหรับการจัดการข้อมูลและนำเสนอข้อมูลด้วยกราฟ
  • corrplot สำหรับสร้าง visualization ของ correlation matrix
  • broom เพื่อจัดรูปแบบผลลัพธ์ของการทดสอบค่าสถิติให้เป็นระเบียบ

Import data

นำเข้าข้อมูลไฟล์ที่ชื่อว่า healthcare risk.csv แล้วเก็บข้อมูลนี้ในตัวแปรที่ชื่อว่า df

Explore and Clean data

  • Explore data

ก่อนอื่น สำรวจข้อมูลเบื้องต้นด้วยฟังก์ชัน summary หรือ ฟังก์ชัน str

สรุปสถิติและลักษณะข้อมูลเบื้องต้น

โดยที่ summary จะสรุปตัวเลขทางสถิติเบื้องต้น ส่วน str จะบอกชนิดของข้อมูลทุกคอลัมภ์และหน้าตาข้อมูลบางส่วนคร่าวๆ

  • Delete columns

ต่อไป จะทำการลบคอลัมภ์ที่ไม่ต้องการนำมาวิเคราะห์ได้แก่ random_notes และ noise_col ได้ดังต่อไปนี้

การลบคอลัมภ์
  • Duplicate

ต่อไปเป็นการดึงเฉพาะข้อมูลแต่ละแถวที่ไม่ซ้ำกันจากตัวแปร df เพื่อป้องกันการมีข้อมูลบางแถวที่ซ้ำกัน โดยเก็บใส่ในตัวแปรเดิม (df) ตัวแปรดังกล่าวจะถูกอัพเดต ดังต่อไปนี้

ดึงข้อมูลเฉพาะที่ไม่ซ้ำกัน
  • Missing values

ต่อไปจะทำการหาจำนวนข้อมูลที่หายไป(missing values) ที่เป็นค่า NA ของแต่ละคอลัมภ์

การหาจำนวน NA แต่ละคอลัมภ์

จากนั้นจะทำการจัดการคอลัมภ์ที่มีค่า NA โดยจะเริ่มจากจัดการ category columns ที่มีชนิดข้อมูลประเภท character โดยจะแทนค่า NA ด้วย “Unknown” โดยมีวิธีเขียนโค้ดดังต่อไปนี้

category columns : แทน NA ด้วย “Unknown”

จากนั้น category columns ที่มีชนิดข้อมูลประเภท character และคอลัมภ์ที่มีข้อมูลเพียงสองค่า คือ 0 หรือ 1 ซึ่งเป็นตัวแปรเชิงกลุ่ม จำเป็นต้องเปลี่ยนชนิดข้อมูลให้เป็น factor เพื่อให้โปรแกรมเข้าใจว่าเป็นตัวแปรเชิงกลุ่ม สามารถทำได้ ดังนี้

Category columns(character หรือ 0/1) : เปลี่ยนชนิดข้อมูลให้เป็น factor

ต่อไปจะสำรวจข้อมูล numeric columns (ตัวแปรเชิงปริมาณ) ที่มีค่า NA โดยแสดงกราฟ histogram เพื่อดูการกระจายตัวของข้อมูลดังกล่าว

จากกราฟ โชว์เฉพาะการกระจายข้อมูลของ Glucose ซึ่งจะมีลักษณะเบ้ขวาแสดงว่ามีผู้ป่วยส่วนน้อยที่มีระดับน้ำตาลสูงผิดปกติ (Outlier)

ดังนั้นจะอัพเดตข้อมูลด้วยการแทนที่ค่า NA ด้วยค่า median ของแต่ละ numeric columns เพราะค่า median ซึ่งเป็นค่าที่อยู่ตรงกลางของข้อมูลของแต่ละคอลัมภ์ จะทนทานต่อค่าผิดปกติ (Outliers) ที่ดึงค่าเฉลี่ย (mean) ให้สูงเกินจริง ทำให้โอกาสที่การประมาณค่าที่หายไปมีความแม่นยำกว่า

กรณีที่ตัวแปรเป็น numeric แทนที่ NA ด้วยค่า median ของตัวแปรนั้น

เพียงเท่านี้ก็จะไม่มี missing values อยู่ในตารางและพร้อมสำหรับการวิเคราะห์ข้อมูลต่อไป

Descriptive analysis and Correlation

ต่อไปนี้จะทำการวิเคราะห์ข้อมูลเบื้องต้น ไม่ว่าจะเป็นการดูการกระจายตัวของ LOS รวมไปถึงการหาค่าทางสถิติไม่ว่าจะเป็นค่า mean ที่แบ่งกลุ่มตามตัวแปรเชิงกลุ่ม และการหาค่าระดับความสัมพันธ์ของ LOS กับตัวแปรเชิงปริมาณอื่น

1.1 การกระจายข้อมูลกลุ่มตัวอย่างของ LOS เป็นอย่างไร

ฮิสโทแกรมแสดงการกระจายตัวของ LOS

พบว่าผู้ป่วยส่วนมากมี LOS ไม่เกิน 9 วันมีเพียงผู้ป่วยจำนวนน้อยรายมากที่มี LOS นานผิดปกติ

การใช้ ggplot แสดงการกระจายตัวของ LOS

1.2 สถิติเปรียบเทียบกลุ่มด้วยค่าเฉลี่ย (mean): หาค่าเฉลี่ยของ LOS โดยแบ่งกลุ่มตามตัวแปรเชิงกลุ่ม

LOS แบ่งกลุ่มตามสภาวะสุขภาพ
LOS แบ่งกลุ่มตามเพศ
LOS แบ่งกลุ่มตามประวัติทางการแพทย์ของครอบครัว
LOS แบ่งกลุ่มตามการสูบบุหรี่
LOS แบ่งกลุ่มตามการบริโภคแอลกอฮอล์

สำหรับปัจจัยเชิงกลุ่มอย่างสภาวะสุขภาพผู้ป่วย (Medical_condition) พบว่าผู้ป่วยที่เป็นโรคมะเร็ง(cancer) นั้นมี LOS เฉลี่ย 12.9 วันซึ่งนานกว่าของผู้ป่วยโรคอื่นมากและผู้ป่วยที่มีสุขภาพดีไม่ได้มีโรคร้ายแรงมี LOS เพียง 1.47 วัน

สำหรับปัจจัยเชิงกลุ่มที่แบ่งได้เป็น 2 levels นั้นพบว่าผู้ป่วยกลุ่ม Yes มีค่าเฉลี่ย LOS มากกว่าของผู้ป่วยกลุ่ม No เล็กน้อยโดยทั้งสองกลุ่มจะมี LOS เฉลี่ยอยู่ที่ประมาณ 4-5 วัน

การใช้ ggplot เพื่อแสดงค่าเฉลี่ย LOS แยกตาม category columns

จากการหาค่าเฉลี่ยของข้อมูลตัวอย่างข้างต้นพบว่าแต่ละตัวแปรเชิงกลุ่มที่แบ่งกลุ่มผู้ป่วย มีค่าเฉลี่ย LOS แต่ละกลุ่มที่แตกต่างกัน แต่ทั้งนี้ยังไม่สามารถสรุปกลับไปยังข้อมูลระดับประชากรได้ว่าแต่ละตัวแปรเชิงกลุ่มมีผลต่อความแตกต่างของ LOS อย่างมีนัยสำคัญทางสถิติหรือไม่

ดังนั้นสิ่งที่จะทำต่อไปนี้ในข้อ 2.1 คือ

  • สำหรับตัวแปรเชิงกลุ่ม 2 levels ที่แบ่งเป็นกลุ่ม Yes และ No จะต้องทดสอบสมมติฐาน T-test เพื่อสรุปไปยังข้อมูลระดับประชากรให้ได้ว่าผู้ป่วยกลุ่ม Yes จะมีค่าเฉลี่ย LOS มากว่าของผู้ป่วยกลุ่ม No อย่างมีนัยสำคัญหรือไม่
  • สำหรับตัวแปรเชิงกลุ่ม >= 3 levels จะต้องทดสอบสมมติฐานด้วย Anova test เพื่อสรุปไปยังข้อมูลประชากรให้ได้ว่ามีผู้ป่วยอย่างน้อย 2 กลุ่มหรือไม่ที่มีค่าเฉลี่ย LOS แตกต่างกัน

1.3 ระดับความสัมพันธ์เบื้องต้นระหว่างปัจจัยเชิงปริมาณต่างๆ กับ LOS เชิงเส้นเป็นอย่างไร

Correlation matrix แสดงระดับความสัมพันธ์ของ Numeric columns 2 ตัวแปร

จากการทำ Correlation matrix ของข้อมูลกลุ่มตัวอย่างนี้พบว่าตัวแปรเชิงปริมาณแต่ละตัวมีระดับความสัมพันธ์เชิงเส้นตรงกับ LOS ไม่เกิน +/- 0.26 (|r| <= 0.26 โดยที่ +/- แสดงถึงทิศทางของความสัมพันธ์) ซึ่งถือว่ามีความสัมพันธ์เชิงค่อนข้างน้อย

การหาค่าสัมประสิทธิ์ของ correlation(r) แต่ละคู่ตัวแปรในรูปแบบ correlation matrix

เพื่อให้เห็นภาพของความสัมพันธ์ชัดขึ้น ผมจะโชว์กราฟ scatter plot กราฟหนึ่งที่แสดงความสัมพันธ์ระหว่าง Stress levels และ LOS ของกลุ่มตัวอย่าง ดังต่อไปนี้

กราฟแสดงความสัมพันธ์ระหว่าง Stress_levels และ LOS

ทั้งนี้แม้ว่าค่า r จากข้อมูลตัวอย่างจะค่อนข้างน้อย แต่เพื่อสรุปผลกลับไปยังข้อมูลระดับประชากรได้ เราจะต้องสร้างโมเดล Multiple linear regression เพื่อที่นำไปสู่การดูผลการทดสอบสมมติฐานทีละตัวแปรเชิงปริมาณ ว่ามีตัวแปรใดบ้างที่เมื่อมีการเปลี่ยนแปลงค่าจะมีความเกี่ยวข้องต่อการเปลี่ยนแปลงของค่า LOS เชิงเส้นอย่างมีนัยสำคัญทางสถิติ ดังจะแสดงข้อที่ 2.2

Diagnostic analysis and Hypothesis testing

ในส่วนนี้จะทำการตั้ง Hypothesis test ประกอบด้วย

  • H₀ เรียกว่า Null hypothesis
  • H₁ เรียกว่า Alternative hypothesis

เพื่อทดสอบสมมติฐานต่างๆ และเพื่อทราบว่าผลจากการวิเคราะห์โดยหาค่าสถิติของข้อมูลที่ได้จากข้อ 1.2 และ 1.3 เป็นผลลัพธ์ที่มีนัยสำคัญทางสถิติหรือเกิดขึ้นโดยบังเอิญที่ได้มาจากการสุ่มตัวอย่าง โดยจะทำการทดสอบสมมติฐาน ดังจะแสดงต่อไปนี้

2.1 T-test or Anova-test: ทดสอบว่ามีปัจจัยเชิงกลุ่มใดบ้างที่ส่งผลต่อความแตกต่างของ LOS อย่างมีนัยสำคัญทางสถิติโดยทดสอบที่นัยสำคัญ α = 0.05

ทดสอบ t-test ด้วยฟังก์ชัน t.test กรณีที่ตัวแปรมี levels = 2 และ ทดสอบ anova test กรณี levels >=3

หมายเหตุ: ในกรณีของ t-test จะต้องทดสอบความแปรปรวนโดยสถิติ F-test ก่อนเพื่อเช็คว่าความแปรปรวนของ LOS ทั้งสองกลุ่มเท่ากันหรือไม่ แล้วค่อยทำการทดสอบ t-test ต่อไป เนื่องจากการทดสอบ t-test ในกรณีที่ความแปรปรวนเท่ากัน จะไม่เหมือนกับกรณีที่ความแปรปรวนไม่เท่ากันนั่นเองครับ

ในที่นี้แบ่งออกเป็น 2 กรณีแยกตามจำนวนกลุ่มย่อย (levels) ที่ต้องการทดสอบ

1) เปรียบเทียบ 2 กลุ่ม ทดสอบโดย Independent T-test

  • ทำการทดสอบว่าแต่ละกลุ่มผู้ป่วยตามคุณลักษณะที่นำมาทดสอบนั้นมี LOS เฉลี่ยต่างกันหรือไม่ต่างกัน
  • ตัวแปรเชิงกลุ่มที่นำมาแบ่งกลุ่มผู้ป่วยเพื่อทดสอบความแตกต่างเฉลี่ยของ LOS ต้องมีเพียง 2 levels เท่านั้น ได้แก่ตัวแปร Smoking, alcohol และ Family_history
  • ทั้ง 3 ตัวแปรแบ่งเป็นกลุ่ม Yes และ No

โดยมีลักษณะของ Hypothesis testing ดังนี้

H0:μYesμNo0H_0 : \mu_{\text{Yes}} – \mu_{\text{No}} \le 0
H1:μYesμNo>0H_1 : \mu_{\text{Yes}} – \mu_{\text{No}} > 0

โดยที่ μYes และ μNo แทนค่าเฉลี่ย LOS ระดับประชากรของกลุ่ม Yes และ กลุ่ม No

หมายเหตุ : การดูผลการทดสอบที่ระดับนัยสำคัญ 0.05 หรือคือระดับความเชื่อมั่นเป็น 0.95 นั้น ถ้าค่าของ Null hypothesis ซึ่งเป็นค่า 0 หรือจำนวนจริงลบ อยู่ในช่วงความเชื่อมั่น 95% หมายความว่า ถ้าทำการสุ่มข้อมูลตัวอย่าง 100 ครั้ง มั่นใจว่าจะมี 95 ครั้งที่มีค่าของ Null hypothesis อยู่ในช่วงดังกล่าวดังนั้นจะสรุปว่า ไม่ปฏิเสธ H₀ นั่นคือ สรุปว่า μYes ≤ μNo

ในทางตรงกันข้าม ถ้าค่า Null hypothesis ซึ่งเป็นค่า 0 หรือจำนวนจริงลบไม่อยู่ในช่วงความเชื่อมั่น 95% จะสรุปได้ว่าปฏิเสธ H₀ นั่นคือ μYes > μNo อย่างมีนัยสำคัญทางสถิติ

ตารางต่อไปนี้จะแสดงผลการทดสอบสมมติฐาน t-test

  • ถ้าผลการทดสอบเป็น Reject H₀ จะสรุปว่า μYes > μNo อย่างมีนัยสำคัญทางสถิติ
  • ถ้าผลการทดสอบเป็น Fail to reject H₀ จะไม่สามารถสรุปได้ว่า μYes > μNo อย่างมีนัยสำคัญทางสถิติ
VariableMean dataConfidence intervalResult testMean result
Smokingสูบบุหรี่ (ใช่, ไม่ใช่)[0.593, Inf]Reject H₀กลุ่มผู้ป่วยที่สูบบุหรี่มี LOS เฉลี่ยมากกว่าผู้ป่วยที่ไม่สูบบุหรี่
Alcoholแอลกอฮอล์ (ใช่, ไม่ใช่)[0.0619, Inf]Reject H₀กลุ่มผู้ป่วยที่บริโภคแอลกอฮอล์ มี LOS เฉลี่ยมากกว่าผู้ป่วยที่ไม่ได้บริโภคแอลกอฮอล์
Family_historyประวัติทางการแพทย์ของครอบครัว (มี , ไม่มี)[0.151, Inf]Reject H₀กลุ่มผู้ป่วยที่มีคนในครอบครัวที่มีประวัติการรักษาโรคสำคัญ มี LOS เฉลี่ยมากกว่าผู้ป่วยที่ไม่ได้มีคนในครอบครัวมีประวัติรักษาโรคสำคัญ

ทั้ง Smoking , Alcohol และ Family history มีผลต่อความแตกต่างของค่าเฉลี่ย LOS อย่างมีนัยสำคัญทางสถิติ

2) เปรียบเทียบ 3 กลุ่มขึ้นไป ทดสอบโดย Anova-test

  • ทดสอบว่าแต่ละกลุ่มผู้ป่วยตามคุณลักษณะที่สนใจนั้นว่ามีอย่างน้อย 2 กลุ่มหรือไม่ที่มี LOS เฉลี่ยที่แตกต่างกัน
  • ตัวแปรเชิงกลุ่มที่นำมาแบ่งกลุ่มผู้ป่วยเพื่อทดสอบความแตกต่างเฉลี่ยของ LOS ต้องมีจำนวนกลุ่มตั้งแต่ 3 levels ขึ้นไป

โดยมีลักษณะของ Hypothesis testing ดังนี้

H0:μ1=u2=...=μkH_0 : \mu_1 = u_2 = … = \mu_{\text{k}}
H1:μiμji,jH_1 : \mu_{\text{i}} \neq \mu_{\text{j}} สำหรับบาง i,j

โดยที่ μk แทนค่าเฉลี่ยประชากรของกลุ่มที่ k

ตาราง ต่อไปนี้จะแสดงผลลัพธ์ของการทดสอบสมมติฐาน anova test โดยจะดูจาก p-value

  • ถ้าผลการทดสอบ p-value <=0.05 จะ Reject H₀ คือมีอย่างน้อย 2 กลุ่มผู้ป่วยที่มี LOS เฉลี่ยไม่เท่ากันอย่างมีนัยสำคัญทางสถิติ
  • ถ้าผลการทดสอบ p-value > 0.05 ไม่สามารถ Reject H₀ จะสรุปว่าผู้ป่วยทุกกลุ่มย่อยมี LOS เฉลี่ยเท่ากัน
VariableMean datap-valueResult testMean result
Genderเพศ (3 กลุ่ม)
– ชาย
– หญิง
– ไม่ทราบเพศ
0.0956Fail to Reject H₀ทุกๆกลุ่มมีค่า LOS เฉลี่ยเท่ากัน
Medical_conditionสภาวะสุขภาพที่รายงาน (7 กลุ่ม)
– สุขภาพแข็งแรง
– เบาหวาน
– มะเร็ง
– ความดันโลหิตสูง
– หอบหืด
– โรคอ้วน
– ข้ออักเสบ
– ไม่ทราบโรคของผู้ป่วย
0Reject H₀มีอย่างน้อย 2 กลุ่มที่มีค่าเฉลี่ยของ LOS แตกต่างกัน

จากข้อ 1.2 พบว่าถ้าแบ่งกลุ่มผู้ป่วยตาม Gender แต่กลุ่มจะมีค่าเฉลี่ย LOS ต่างกันเล็กน้อยแต่ไม่เพียงพอที่จะสรุปผลในทางประชากรได้ว่าแต่ละกลุ่มมีค่าเฉลี่ย LOS ต่างกันอย่างมีนัยสำคัญทางสถิติ

ในส่วนของ Medical_condition จากข้อ 1.2 พบว่าค่าเฉลี่ย LOS ของกลุ่มผู้ป่วยโรคมะเร็งสูงกว่าของกลุ่มอื่นมากดังนั้นจะทำการทดสอบ t-test ว่าค่าเฉลี่ย LOS ของกลุ่มผู้ป่วยโรคดังกล่าวมากกว่ากลู่มผู้ป่วยโรคอื่นๆ อย่างมีนัยสำคัญจริงๆหรือไม่

สร้าง list ที่เก็บข้อมูลประเภทตารางของข้อมูลผู้ป่วยแยกตามโรค (1 ตาราง/โรค)
ทดสอบความแตกต่างของค่าเฉลี่ย LOS ตามคุณลักษณะ Medical_condition โดยเปรียบเทียบระหว่างกลุ่ม Cancer กับ กลุ่มอื่น

จากการทดสอบนั้น พบว่าค่าเฉลี่ย LOS ของผู้ป่วยกลุ่มที่เป็นโรคมะเร็งมากกว่าค่าเฉลี่ย LOS ของกลุ่มผู้ป่วยโรคอื่นๆ ทุกกลุ่มอย่างมีนัยสำคัญทางสถิติ

2.2 การเปลี่ยนแปลงของปัจจัยเชิงปริมาณใดบ้างที่มีผลกระทบต่อการเปลี่ยนแปลงของ LOS อย่างมีนัยสำคัญทางสถิติโดยทดสอบที่นัยสำคัญ α = 0.05

ในที่นี้เราจะสร้างโมเดล Multiple linear regression (MLR) ประกอบด้วยตัวแปรเป้าหมายอย่าง LOS พร้อมด้วยตัวแปรเชิงปริมาณที่เหลือเป็นตัวแปรต้น เช่น Glucose พร้อมด้วยสรุปผลการทดสอบสมมติฐานของ Model ดังต่อไปนี้

lm_los สร้างสมการ MLR พร้อมวิธีสรุปผลการทดสอบสมมติฐานด้วยฟังก์ชัน summary
แสดงผลโมเดล MLR

จากผลการทำโมเดลด้านบน จะได้สมการ MLR ดังต่อไปนี้

LOS=b0+0.01Age+0.006Glucose+.....0.353SleepHoursLOS = b_0 + 0.01*Age +0.006*Glucose+…..-0.353*SleepHours

จากโมเดลดังกล่าวที่สร้างจากกลุ่มข้อมูลตัวอย่าง ถ้าดูในส่วนของ Estimate ของแต่ละตัวแปร จะสรุปได้ว่า

  • Stress_levels (SL) มีผลกระทบเชิงบวกต่อการเปลี่ยนแปลงของ LOS มากสุด (+0.21) คือถ้า SL เพิ่ม 1 ระดับ LOS จะเพิ่มขึ้น 0.21 วัน
  • Sleep_hours (Sh) มีผลกระทบเชิงลบต่อการเปลี่ยนแปลงของ LOS มากสุด (-0.35) คือถ้า Sh เพิ่ม 1 ชั่วโมง LOS จะลดลง 0.35 วัน

ทั้งนี้จำเป็นต้องดูผลลัพธ์จากการทดสอบสมมติฐานด้วย เพื่อสรุปไปยังข้อมูลระดับประชากรได้ว่า มีตัวแปรใดบ้างที่มีผลต่อการเปลี่ยนแปลงของ LOS จริงๆอย่างมีนัยสำคัญ

โดยทดสอบสมมติฐานของโมเดลดังกล่าวดังต่อไปนี้

H0:βi=0H_0 : \beta_{\text{i}} = 0
H1:βi0H_1 : \beta_{\text{i}} \neq 0

โดยที่เราจะทดสอบที่นัยสำคัญ α = 0.05

และผลลัพธ์ของการทดสอบสมมติฐานของ MLR โดยที่พิจารณาทีละตัวแปรจะเป็นดังนี้

  • ถ้าผลการทดสอบของ xi คือ Pr(>|t|) <= 0.05 จะ Reject H0 สรุปว่าเมื่อกำหนดปัจจัยอื่นคงที่ การเปลี่ยนแปลงของ xi มีผลต่อการเปลี่ยนแปลงของ LOS
  • ถ้าผลการทดสอบของ xi คือ Pr(>|t|) <= 0.05 ไม่สามารถ Reject H0 ได้ สรุปว่าเมื่อกำหนดปัจจัยอื่นคงที่ การเปลี่ยนแปลงของ xi ไม่มีผลต่อการเปลี่ยนแปลงของ LOS

จากผลการทดสอบนั้นกล่าวได้ว่าเกือบทุกปัจจัยที่ส่งผลต่อการเปลี่ยนแปลงของ LOS อย่างมีนัยสำคัญทางสถิติยกเว้น 2 ตัวแปรนี้ คือ Cholesterol (CHO) และ Triglycerides (TRI) ที่ไม่มีผลต่อการเปลี่ยนแปลงของ LOS อย่างมีนัยสำคัญทางสถิติเลย แม้ว่าจากข้อ 1.3 ระดับความสัมพันธ์เชิงเส้นของกลุ่มตัวอย่างระหว่าง CHO กับ LOS และ TRI กับ LOS จะไม่เท่ากับ 0 ก็ตาม

และถ้าพิจารณาจาก R-squared = 0.2 (ต่ำ) แสดงว่าโมเดลนี้อธิบาย LOS ได้เพียง 20% นั่นคืออีก 80% ที่เหลือมาจากปัจจัยอื่นซึ่งมีความเป็นไปได้ที่จะมาจากปัจจัยเชิงกลุ่มดังที่ได้ทดสอบ t-test และ anova test ของข้อ 2.1 ก็พบว่ามีตัวแปรเชิงกลุ่มอีกหลายตัวแปรที่มีผลต่อความแตกต่างของค่า LOS

Summary insights

  • จากกลุ่มตัวอย่าง ระยะเวลาการพักรักษาของผู้ป่วยส่วนใหญ่ไม่เกิน 9 วัน
  • ระยะเวลาที่ต้องพักรักษาของผู้ป่วยไม่ได้ถูกอธิบายด้วยตัวแปรเชิงปริมาณเดี่ยวๆเพียงอย่างเดียว (R-square ประมาณ 20% และ |r| <= 0.26) แต่ถูกขับเคลื่อนจากปัจจัยเชิงกลุ่มเป็นหลักได้แก่ ปัจจัยสภาวะสุขภาพ การสูบบุหรี่ การบริโภคแอลกอฮอล์ ประวัติการรักษาโรคสำคัญของคนในครอบครัว เหล่านี้ล้วนส่งผลต่อความแตกต่างของระยะเวลาที่ต้องพักรักษาในโรงพยาบาล
  • ถ้าแบ่งกลุ่มผู้ป่วยตามสภาวะสุขภาพ (แบ่งตามโรค) จะพบว่าจากกลุ่มตัวอย่างผู้ป่วยกลุ่มโรคมะเร็งมีค่าเฉลี่ยที่ต้องใช้เวลาพักรักษานานประมาณ 13 วันและจากการทดสอบสมมติฐาน พบว่าผู้ป่วยกลุ่มโรคมะเร็งต้องรักษาตัวนานกว่าผู้ป่วยกลุ่มที่เหลือทุกกลุ่มอย่างมีนัยสำคัญทางสถิติ
  • สำหรับปัจจัยเชิงปริมาณเมื่อพิจารณาทีละปัจจัยโดยควบคุมปัจจัยอื่นให้มีค่าคงที่ พบว่า
    • ถ้าระดับความเครียดสูงขึ้นจะมีผลกระทบเชิงบวกต่อระยะเวลาการรักษาตัวมากที่สุด
    • ถ้าชั่วโมงการนอนหลับที่สูงขึ้นจะมีผลกระทบเชิงลบต่อระยะเวลาการรักษาตัวมากที่สุด

Comments

Leave a Reply

Discover more from Napat Rakpongnat's data portfolio

Subscribe now to keep reading and get access to the full archive.

Continue reading