วิเคราะห์ปัจจัยที่ส่งผลต่อระยะเวลาพักรักษาที่โรงพยาบาลด้วย R programming

สวัสดีครับ บทความนี้ผมจะนำเสนอการวิเคราะห์ข้อมูลผู้ป่วยโดยมีวัตถุประสงค์ คือการหาคุณลักษณะสำคัญที่ส่งผลต่อระยะเวลาที่ต้องพักรักษาในโรงพยาบาลอย่างมีนัยสำคัญเชิงสถิติ

โดยข้อมูลที่จะใช้ประกอบการวิเคราะห์นั้นอ้างอิงจากเว็บ https://www.kaggle.com/datasets/abdallaahmed77/healthcare-risk-factors-dataset ทำการดาวโหลดไฟล์ให้เรียบร้อยและผมจะเปลี่ยนชื่อไฟล์เป็นชื่อ Healthy risk.csv

ในที่นี้จะทำการสุ่มตัวอย่างข้อมูลผู้ป่วย 3000 คนมา เพื่อวิเคราะห์ข้อมูลจากข้อมูลผู้ป่วยทั้งหมด 30000 คน และตัวแปรคุณลักษณะอีก 18 ตัวแปรโดยจะแสดงชื่อตัวแปรดังต่อไปนี้

ตัวแปรเป้าหมายที่สนใจคือ : LengOfStay ระยะการพักรักษาในโรงพยาบาล ขอเรียกสั้นๆว่า LOS นะครับ

ตัวแปรอื่นๆที่เหลือจะเป็นปัจจัยที่นำมาพิจารณาว่ามีความเชื่อมโยงต่อ LOS มากน้อยเพียงใด

ขั้นตอนการทำจะเริ่มจากเปิดโปรแกรม R studio –> ดาวน์โหลด library ที่ต้องใช้ –> โหลด data set –> การทำความสะอาดข้อมูล –> การวิเคราะห์ข้อมูล –> การสรุป insight ที่น่าสนใจนะครับ

โดยแบ่งเป็น 4 หัวข้อ มาเริ่มต้นที่หัวข้อแรกกันครับ

Data preparation and EDA

เริ่มจากติดตั้งและดาวน์โหลด library –> การนำเข้าข้อมูล — การทำความสะอาดข้อมูล

Load library

สำหรับการติดตั้งและเรียก library ที่จำเป็นเพื่อใช้งาน สามารถทำได้ดังนี้

โดยที่

tidyverse สำหรับการจัดการข้อมูลและนำเสนอข้อมูลด้วยกราฟ
corrplot สำหรับสร้าง visualization ของ correlation matrix
broom เพื่อจัดรูปแบบผลลัพธ์ของการทดสอบค่าสถิติให้เป็นระเบียบ

Import data

นำเข้าข้อมูลไฟล์ที่ชื่อว่า healthcare risk.csv แล้วเก็บข้อมูลนี้ในตัวแปรที่ชื่อว่า df

Explore and Clean data

Explore data

ก่อนอื่น สำรวจข้อมูลเบื้องต้นด้วยฟังก์ชัน summary หรือ ฟังก์ชัน str

โดยที่ summary จะสรุปตัวเลขทางสถิติเบื้องต้น ส่วน str จะบอกชนิดของข้อมูลทุกคอลัมภ์และหน้าตาข้อมูลบางส่วนคร่าวๆ

Delete columns

ต่อไป จะทำการลบคอลัมภ์ที่ไม่ต้องการนำมาวิเคราะห์ได้แก่ random_notes และ noise_col ได้ดังต่อไปนี้

Duplicate

ต่อไปเป็นการดึงเฉพาะข้อมูลแต่ละแถวที่ไม่ซ้ำกันจากตัวแปร df เพื่อป้องกันการมีข้อมูลบางแถวที่ซ้ำกัน โดยเก็บใส่ในตัวแปรเดิม (df) ตัวแปรดังกล่าวจะถูกอัพเดต ดังต่อไปนี้

ดึงข้อมูลเฉพาะที่ไม่ซ้ำกัน

Missing values

ต่อไปจะทำการหาจำนวนข้อมูลที่หายไป(missing values) ที่เป็นค่า NA ของแต่ละคอลัมภ์

การหาจำนวน NA แต่ละคอลัมภ์

จากนั้นจะทำการจัดการคอลัมภ์ที่มีค่า NA โดยจะเริ่มจากจัดการ category columns ที่มีชนิดข้อมูลประเภท character โดยจะแทนค่า NA ด้วย “Unknown” โดยมีวิธีเขียนโค้ดดังต่อไปนี้

category columns : แทน NA ด้วย “Unknown”

จากนั้น category columns ที่มีชนิดข้อมูลประเภท character และคอลัมภ์ที่มีข้อมูลเพียงสองค่า คือ 0 หรือ 1 ซึ่งเป็นตัวแปรเชิงกลุ่ม จำเป็นต้องเปลี่ยนชนิดข้อมูลให้เป็น factor เพื่อให้โปรแกรมเข้าใจว่าเป็นตัวแปรเชิงกลุ่ม สามารถทำได้ ดังนี้

Category columns(character หรือ 0/1) : เปลี่ยนชนิดข้อมูลให้เป็น factor

ต่อไปจะสำรวจข้อมูล numeric columns (ตัวแปรเชิงปริมาณ) ที่มีค่า NA โดยแสดงกราฟ histogram เพื่อดูการกระจายตัวของข้อมูลดังกล่าว

จากกราฟ โชว์เฉพาะการกระจายข้อมูลของ Glucose ซึ่งจะมีลักษณะเบ้ขวาแสดงว่ามีผู้ป่วยส่วนน้อยที่มีระดับน้ำตาลสูงผิดปกติ (Outlier)

ดังนั้นจะอัพเดตข้อมูลด้วยการแทนที่ค่า NA ด้วยค่า median ของแต่ละ numeric columns เพราะค่า median ซึ่งเป็นค่าที่อยู่ตรงกลางของข้อมูลของแต่ละคอลัมภ์ จะทนทานต่อค่าผิดปกติ (Outliers) ที่ดึงค่าเฉลี่ย (mean) ให้สูงเกินจริง ทำให้โอกาสที่การประมาณค่าที่หายไปมีความแม่นยำกว่า

กรณีที่ตัวแปรเป็น numeric แทนที่ NA ด้วยค่า median ของตัวแปรนั้น

เพียงเท่านี้ก็จะไม่มี missing values อยู่ในตารางและพร้อมสำหรับการวิเคราะห์ข้อมูลต่อไป

Descriptive analysis and Correlation

ต่อไปนี้จะทำการวิเคราะห์ข้อมูลเบื้องต้น ไม่ว่าจะเป็นการดูการกระจายตัวของ LOS รวมไปถึงการหาค่าทางสถิติไม่ว่าจะเป็นค่า mean ที่แบ่งกลุ่มตามตัวแปรเชิงกลุ่ม และการหาค่าระดับความสัมพันธ์ของ LOS กับตัวแปรเชิงปริมาณอื่น

1.1 การกระจายข้อมูลกลุ่มตัวอย่างของ LOS เป็นอย่างไร

พบว่าผู้ป่วยส่วนมากมี LOS ไม่เกิน 9 วันมีเพียงผู้ป่วยจำนวนน้อยรายมากที่มี LOS นานผิดปกติ

1.2 สถิติเปรียบเทียบกลุ่มด้วยค่าเฉลี่ย (mean): หาค่าเฉลี่ยของ LOS โดยแบ่งกลุ่มตามตัวแปรเชิงกลุ่ม

LOS แบ่งกลุ่มตามประวัติทางการแพทย์ของครอบครัว

สำหรับปัจจัยเชิงกลุ่มอย่างสภาวะสุขภาพผู้ป่วย (Medical_condition) พบว่าผู้ป่วยที่เป็นโรคมะเร็ง(cancer) นั้นมี LOS เฉลี่ย 12.9 วันซึ่งนานกว่าของผู้ป่วยโรคอื่นมากและผู้ป่วยที่มีสุขภาพดีไม่ได้มีโรคร้ายแรงมี LOS เพียง 1.47 วัน

สำหรับปัจจัยเชิงกลุ่มที่แบ่งได้เป็น 2 levels นั้นพบว่าผู้ป่วยกลุ่ม Yes มีค่าเฉลี่ย LOS มากกว่าของผู้ป่วยกลุ่ม No เล็กน้อยโดยทั้งสองกลุ่มจะมี LOS เฉลี่ยอยู่ที่ประมาณ 4-5 วัน

การใช้ ggplot เพื่อแสดงค่าเฉลี่ย LOS แยกตาม category columns

จากการหาค่าเฉลี่ยของข้อมูลตัวอย่างข้างต้นพบว่าแต่ละตัวแปรเชิงกลุ่มที่แบ่งกลุ่มผู้ป่วย มีค่าเฉลี่ย LOS แต่ละกลุ่มที่แตกต่างกัน แต่ทั้งนี้ยังไม่สามารถสรุปกลับไปยังข้อมูลระดับประชากรได้ว่าแต่ละตัวแปรเชิงกลุ่มมีผลต่อความแตกต่างของ LOS อย่างมีนัยสำคัญทางสถิติหรือไม่

ดังนั้นสิ่งที่จะทำต่อไปนี้ในข้อ 2.1 คือ

สำหรับตัวแปรเชิงกลุ่ม 2 levels ที่แบ่งเป็นกลุ่ม Yes และ No จะต้องทดสอบสมมติฐาน T-test เพื่อสรุปไปยังข้อมูลระดับประชากรให้ได้ว่าผู้ป่วยกลุ่ม Yes จะมีค่าเฉลี่ย LOS มากว่าของผู้ป่วยกลุ่ม No อย่างมีนัยสำคัญหรือไม่
สำหรับตัวแปรเชิงกลุ่ม >= 3 levels จะต้องทดสอบสมมติฐานด้วย Anova test เพื่อสรุปไปยังข้อมูลประชากรให้ได้ว่ามีผู้ป่วยอย่างน้อย 2 กลุ่มหรือไม่ที่มีค่าเฉลี่ย LOS แตกต่างกัน

1.3 ระดับความสัมพันธ์เบื้องต้นระหว่างปัจจัยเชิงปริมาณต่างๆ กับ LOS เชิงเส้นเป็นอย่างไร

Correlation matrix แสดงระดับความสัมพันธ์ของ Numeric columns 2 ตัวแปร

จากการทำ Correlation matrix ของข้อมูลกลุ่มตัวอย่างนี้พบว่าตัวแปรเชิงปริมาณแต่ละตัวมีระดับความสัมพันธ์เชิงเส้นตรงกับ LOS ไม่เกิน +/- 0.26 (|r| <= 0.26 โดยที่ +/- แสดงถึงทิศทางของความสัมพันธ์) ซึ่งถือว่ามีความสัมพันธ์เชิงค่อนข้างน้อย

การหาค่าสัมประสิทธิ์ของ correlation(r) แต่ละคู่ตัวแปรในรูปแบบ correlation matrix

เพื่อให้เห็นภาพของความสัมพันธ์ชัดขึ้น ผมจะโชว์กราฟ scatter plot กราฟหนึ่งที่แสดงความสัมพันธ์ระหว่าง Stress levels และ LOS ของกลุ่มตัวอย่าง ดังต่อไปนี้

กราฟแสดงความสัมพันธ์ระหว่าง Stress_levels และ LOS

ทั้งนี้แม้ว่าค่า r จากข้อมูลตัวอย่างจะค่อนข้างน้อย แต่เพื่อสรุปผลกลับไปยังข้อมูลระดับประชากรได้ เราจะต้องสร้างโมเดล Multiple linear regression เพื่อที่นำไปสู่การดูผลการทดสอบสมมติฐานทีละตัวแปรเชิงปริมาณ ว่ามีตัวแปรใดบ้างที่เมื่อมีการเปลี่ยนแปลงค่าจะมีความเกี่ยวข้องต่อการเปลี่ยนแปลงของค่า LOS เชิงเส้นอย่างมีนัยสำคัญทางสถิติ ดังจะแสดงข้อที่ 2.2

Diagnostic analysis and Hypothesis testing

ในส่วนนี้จะทำการตั้ง Hypothesis test ประกอบด้วย

H₀ เรียกว่า Null hypothesis
H₁ เรียกว่า Alternative hypothesis

เพื่อทดสอบสมมติฐานต่างๆ และเพื่อทราบว่าผลจากการวิเคราะห์โดยหาค่าสถิติของข้อมูลที่ได้จากข้อ 1.2 และ 1.3 เป็นผลลัพธ์ที่มีนัยสำคัญทางสถิติหรือเกิดขึ้นโดยบังเอิญที่ได้มาจากการสุ่มตัวอย่าง โดยจะทำการทดสอบสมมติฐาน ดังจะแสดงต่อไปนี้

2.1 T-test or Anova-test: ทดสอบว่ามีปัจจัยเชิงกลุ่มใดบ้างที่ส่งผลต่อความแตกต่างของ LOS อย่างมีนัยสำคัญทางสถิติโดยทดสอบที่นัยสำคัญ α = 0.05

ทดสอบ t-test ด้วยฟังก์ชัน t.test กรณีที่ตัวแปรมี levels = 2 และ ทดสอบ anova test กรณี levels >=3

หมายเหตุ: ในกรณีของ t-test จะต้องทดสอบความแปรปรวนโดยสถิติ F-test ก่อนเพื่อเช็คว่าความแปรปรวนของ LOS ทั้งสองกลุ่มเท่ากันหรือไม่ แล้วค่อยทำการทดสอบ t-test ต่อไป เนื่องจากการทดสอบ t-test ในกรณีที่ความแปรปรวนเท่ากัน จะไม่เหมือนกับกรณีที่ความแปรปรวนไม่เท่ากันนั่นเองครับ

ในที่นี้แบ่งออกเป็น 2 กรณีแยกตามจำนวนกลุ่มย่อย (levels) ที่ต้องการทดสอบ

1) เปรียบเทียบ 2 กลุ่ม ทดสอบโดย Independent T-test

ทำการทดสอบว่าแต่ละกลุ่มผู้ป่วยตามคุณลักษณะที่นำมาทดสอบนั้นมี LOS เฉลี่ยต่างกันหรือไม่ต่างกัน
ตัวแปรเชิงกลุ่มที่นำมาแบ่งกลุ่มผู้ป่วยเพื่อทดสอบความแตกต่างเฉลี่ยของ LOS ต้องมีเพียง 2 levels เท่านั้น ได้แก่ตัวแปร Smoking, alcohol และ Family_history
ทั้ง 3 ตัวแปรแบ่งเป็นกลุ่ม Yes และ No

โดยมีลักษณะของ Hypothesis testing ดังนี้

H_0 : \mu_{\text{Yes}} – \mu_{\text{No}} \le 0

H_1 : \mu_{\text{Yes}} – \mu_{\text{No}} > 0

โดยที่ μ_Yes และ μ_No แทนค่าเฉลี่ย LOS ระดับประชากรของกลุ่ม Yes และ กลุ่ม No

หมายเหตุ : การดูผลการทดสอบที่ระดับนัยสำคัญ 0.05 หรือคือระดับความเชื่อมั่นเป็น 0.95 นั้น ถ้าค่าของ Null hypothesis ซึ่งเป็นค่า 0 หรือจำนวนจริงลบ อยู่ในช่วงความเชื่อมั่น 95% หมายความว่า ถ้าทำการสุ่มข้อมูลตัวอย่าง 100 ครั้ง มั่นใจว่าจะมี 95 ครั้งที่มีค่าของ Null hypothesis อยู่ในช่วงดังกล่าวดังนั้นจะสรุปว่า ไม่ปฏิเสธ H₀ นั่นคือ สรุปว่า μ_Yes ≤ μ_No

ในทางตรงกันข้าม ถ้าค่า Null hypothesis ซึ่งเป็นค่า 0 หรือจำนวนจริงลบไม่อยู่ในช่วงความเชื่อมั่น 95% จะสรุปได้ว่าปฏิเสธ H₀ นั่นคือ μ_Yes > μ_No อย่างมีนัยสำคัญทางสถิติ

ตารางต่อไปนี้จะแสดงผลการทดสอบสมมติฐาน t-test

ถ้าผลการทดสอบเป็น Reject H₀ จะสรุปว่า μ_Yes > μ_No อย่างมีนัยสำคัญทางสถิติ
ถ้าผลการทดสอบเป็น Fail to reject H₀ จะไม่สามารถสรุปได้ว่า μ_Yes > μ_No อย่างมีนัยสำคัญทางสถิติ

Variable	Mean data	Confidence interval	Result test	Mean result
Smoking	สูบบุหรี่ (ใช่, ไม่ใช่)	[0.593, Inf]	Reject H₀	กลุ่มผู้ป่วยที่สูบบุหรี่มี LOS เฉลี่ยมากกว่าผู้ป่วยที่ไม่สูบบุหรี่
Alcohol	แอลกอฮอล์ (ใช่, ไม่ใช่)	[0.0619, Inf]	Reject H₀	กลุ่มผู้ป่วยที่บริโภคแอลกอฮอล์ มี LOS เฉลี่ยมากกว่าผู้ป่วยที่ไม่ได้บริโภคแอลกอฮอล์
Family_history	ประวัติทางการแพทย์ของครอบครัว (มี , ไม่มี)	[0.151, Inf]	Reject H₀	กลุ่มผู้ป่วยที่มีคนในครอบครัวที่มีประวัติการรักษาโรคสำคัญ มี LOS เฉลี่ยมากกว่าผู้ป่วยที่ไม่ได้มีคนในครอบครัวมีประวัติรักษาโรคสำคัญ

ทั้ง Smoking , Alcohol และ Family history มีผลต่อความแตกต่างของค่าเฉลี่ย LOS อย่างมีนัยสำคัญทางสถิติ

2) เปรียบเทียบ 3 กลุ่มขึ้นไป ทดสอบโดย Anova-test

ทดสอบว่าแต่ละกลุ่มผู้ป่วยตามคุณลักษณะที่สนใจนั้นว่ามีอย่างน้อย 2 กลุ่มหรือไม่ที่มี LOS เฉลี่ยที่แตกต่างกัน
ตัวแปรเชิงกลุ่มที่นำมาแบ่งกลุ่มผู้ป่วยเพื่อทดสอบความแตกต่างเฉลี่ยของ LOS ต้องมีจำนวนกลุ่มตั้งแต่ 3 levels ขึ้นไป

โดยมีลักษณะของ Hypothesis testing ดังนี้

H_0 : \mu_1 = u_2 = … = \mu_{\text{k}}

H_1 : \mu_{\text{i}} \neq \mu_{\text{j}} สำหรับบาง i,j

โดยที่ μ_k แทนค่าเฉลี่ยประชากรของกลุ่มที่ k

ตาราง ต่อไปนี้จะแสดงผลลัพธ์ของการทดสอบสมมติฐาน anova test โดยจะดูจาก p-value

ถ้าผลการทดสอบ p-value <=0.05 จะ Reject H₀ คือมีอย่างน้อย 2 กลุ่มผู้ป่วยที่มี LOS เฉลี่ยไม่เท่ากันอย่างมีนัยสำคัญทางสถิติ
ถ้าผลการทดสอบ p-value > 0.05 ไม่สามารถ Reject H₀ จะสรุปว่าผู้ป่วยทุกกลุ่มย่อยมี LOS เฉลี่ยเท่ากัน

Variable	Mean data	p-value	Result test	Mean result
Gender	เพศ (3 กลุ่ม) – ชาย – หญิง – ไม่ทราบเพศ	0.0956	Fail to Reject H₀	ทุกๆกลุ่มมีค่า LOS เฉลี่ยเท่ากัน
Medical_condition	สภาวะสุขภาพที่รายงาน (7 กลุ่ม) – สุขภาพแข็งแรง – เบาหวาน – มะเร็ง – ความดันโลหิตสูง – หอบหืด – โรคอ้วน – ข้ออักเสบ – ไม่ทราบโรคของผู้ป่วย	0	Reject H₀	มีอย่างน้อย 2 กลุ่มที่มีค่าเฉลี่ยของ LOS แตกต่างกัน

จากข้อ 1.2 พบว่าถ้าแบ่งกลุ่มผู้ป่วยตาม Gender แต่กลุ่มจะมีค่าเฉลี่ย LOS ต่างกันเล็กน้อยแต่ไม่เพียงพอที่จะสรุปผลในทางประชากรได้ว่าแต่ละกลุ่มมีค่าเฉลี่ย LOS ต่างกันอย่างมีนัยสำคัญทางสถิติ

ในส่วนของ Medical_condition จากข้อ 1.2 พบว่าค่าเฉลี่ย LOS ของกลุ่มผู้ป่วยโรคมะเร็งสูงกว่าของกลุ่มอื่นมากดังนั้นจะทำการทดสอบ t-test ว่าค่าเฉลี่ย LOS ของกลุ่มผู้ป่วยโรคดังกล่าวมากกว่ากลู่มผู้ป่วยโรคอื่นๆ อย่างมีนัยสำคัญจริงๆหรือไม่

สร้าง list ที่เก็บข้อมูลประเภทตารางของข้อมูลผู้ป่วยแยกตามโรค (1 ตาราง/โรค)

ทดสอบความแตกต่างของค่าเฉลี่ย LOS ตามคุณลักษณะ Medical_condition โดยเปรียบเทียบระหว่างกลุ่ม Cancer กับ กลุ่มอื่น

จากการทดสอบนั้น พบว่าค่าเฉลี่ย LOS ของผู้ป่วยกลุ่มที่เป็นโรคมะเร็งมากกว่าค่าเฉลี่ย LOS ของกลุ่มผู้ป่วยโรคอื่นๆ ทุกกลุ่มอย่างมีนัยสำคัญทางสถิติ

2.2 การเปลี่ยนแปลงของปัจจัยเชิงปริมาณใดบ้างที่มีผลกระทบต่อการเปลี่ยนแปลงของ LOS อย่างมีนัยสำคัญทางสถิติโดยทดสอบที่นัยสำคัญ α = 0.05

ในที่นี้เราจะสร้างโมเดล Multiple linear regression (MLR) ประกอบด้วยตัวแปรเป้าหมายอย่าง LOS พร้อมด้วยตัวแปรเชิงปริมาณที่เหลือเป็นตัวแปรต้น เช่น Glucose พร้อมด้วยสรุปผลการทดสอบสมมติฐานของ Model ดังต่อไปนี้

lm_los สร้างสมการ MLR พร้อมวิธีสรุปผลการทดสอบสมมติฐานด้วยฟังก์ชัน summary

จากผลการทำโมเดลด้านบน จะได้สมการ MLR ดังต่อไปนี้

LOS = b_0 + 0.01*Age +0.006*Glucose+…..-0.353*SleepHours

จากโมเดลดังกล่าวที่สร้างจากกลุ่มข้อมูลตัวอย่าง ถ้าดูในส่วนของ Estimate ของแต่ละตัวแปร จะสรุปได้ว่า

Stress_levels (SL) มีผลกระทบเชิงบวกต่อการเปลี่ยนแปลงของ LOS มากสุด (+0.21) คือถ้า SL เพิ่ม 1 ระดับ LOS จะเพิ่มขึ้น 0.21 วัน
Sleep_hours (Sh) มีผลกระทบเชิงลบต่อการเปลี่ยนแปลงของ LOS มากสุด (-0.35) คือถ้า Sh เพิ่ม 1 ชั่วโมง LOS จะลดลง 0.35 วัน

ทั้งนี้จำเป็นต้องดูผลลัพธ์จากการทดสอบสมมติฐานด้วย เพื่อสรุปไปยังข้อมูลระดับประชากรได้ว่า มีตัวแปรใดบ้างที่มีผลต่อการเปลี่ยนแปลงของ LOS จริงๆอย่างมีนัยสำคัญ

โดยทดสอบสมมติฐานของโมเดลดังกล่าวดังต่อไปนี้

H_0 : \beta_{\text{i}} = 0

H_1 : \beta_{\text{i}} \neq 0

โดยที่เราจะทดสอบที่นัยสำคัญ α = 0.05

และผลลัพธ์ของการทดสอบสมมติฐานของ MLR โดยที่พิจารณาทีละตัวแปรจะเป็นดังนี้

ถ้าผลการทดสอบของ x_i คือ Pr(>|t|) <= 0.05 จะ Reject H₀ สรุปว่าเมื่อกำหนดปัจจัยอื่นคงที่ การเปลี่ยนแปลงของ xi มีผลต่อการเปลี่ยนแปลงของ LOS
ถ้าผลการทดสอบของ x_i คือ Pr(>|t|) <= 0.05 ไม่สามารถ Reject H₀ ได้ สรุปว่าเมื่อกำหนดปัจจัยอื่นคงที่ การเปลี่ยนแปลงของ x_i ไม่มีผลต่อการเปลี่ยนแปลงของ LOS

จากผลการทดสอบนั้นกล่าวได้ว่าเกือบทุกปัจจัยที่ส่งผลต่อการเปลี่ยนแปลงของ LOS อย่างมีนัยสำคัญทางสถิติยกเว้น 2 ตัวแปรนี้ คือ Cholesterol (CHO) และ Triglycerides (TRI) ที่ไม่มีผลต่อการเปลี่ยนแปลงของ LOS อย่างมีนัยสำคัญทางสถิติเลย แม้ว่าจากข้อ 1.3 ระดับความสัมพันธ์เชิงเส้นของกลุ่มตัวอย่างระหว่าง CHO กับ LOS และ TRI กับ LOS จะไม่เท่ากับ 0 ก็ตาม

และถ้าพิจารณาจาก R-squared = 0.2 (ต่ำ) แสดงว่าโมเดลนี้อธิบาย LOS ได้เพียง 20% นั่นคืออีก 80% ที่เหลือมาจากปัจจัยอื่นซึ่งมีความเป็นไปได้ที่จะมาจากปัจจัยเชิงกลุ่มดังที่ได้ทดสอบ t-test และ anova test ของข้อ 2.1 ก็พบว่ามีตัวแปรเชิงกลุ่มอีกหลายตัวแปรที่มีผลต่อความแตกต่างของค่า LOS

Summary insights

จากกลุ่มตัวอย่าง ระยะเวลาการพักรักษาของผู้ป่วยส่วนใหญ่ไม่เกิน 9 วัน
ระยะเวลาที่ต้องพักรักษาของผู้ป่วยไม่ได้ถูกอธิบายด้วยตัวแปรเชิงปริมาณเดี่ยวๆเพียงอย่างเดียว (R-square ประมาณ 20% และ |r| <= 0.26) แต่ถูกขับเคลื่อนจากปัจจัยเชิงกลุ่มเป็นหลักได้แก่ ปัจจัยสภาวะสุขภาพ การสูบบุหรี่ การบริโภคแอลกอฮอล์ ประวัติการรักษาโรคสำคัญของคนในครอบครัว เหล่านี้ล้วนส่งผลต่อความแตกต่างของระยะเวลาที่ต้องพักรักษาในโรงพยาบาล
ถ้าแบ่งกลุ่มผู้ป่วยตามสภาวะสุขภาพ (แบ่งตามโรค) จะพบว่าจากกลุ่มตัวอย่างผู้ป่วยกลุ่มโรคมะเร็งมีค่าเฉลี่ยที่ต้องใช้เวลาพักรักษานานประมาณ 13 วันและจากการทดสอบสมมติฐาน พบว่าผู้ป่วยกลุ่มโรคมะเร็งต้องรักษาตัวนานกว่าผู้ป่วยกลุ่มที่เหลือทุกกลุ่มอย่างมีนัยสำคัญทางสถิติ
สำหรับปัจจัยเชิงปริมาณเมื่อพิจารณาทีละปัจจัยโดยควบคุมปัจจัยอื่นให้มีค่าคงที่ พบว่า
- ถ้าระดับความเครียดสูงขึ้นจะมีผลกระทบเชิงบวกต่อระยะเวลาการรักษาตัวมากที่สุด
- ถ้าชั่วโมงการนอนหลับที่สูงขึ้นจะมีผลกระทบเชิงลบต่อระยะเวลาการรักษาตัวมากที่สุด

วิเคราะห์ปัจจัยที่ส่งผลต่อระยะเวลาพักรักษาที่โรงพยาบาลด้วย R programming