1.1. Thu thập và phân loại dữ liệu
Nhận xét: Trong các dữ liệu thống kê thu thập được, có những dữ liệu thống kê là số (số liệu) nhưng cũng có những dữ liệu thống kê không phải là số.
Ví dụ: Kết quả thu thập thông tin về các môn thể thao ưa thích của các học sinh khối lớp 7 ở một trường trung học cơ sở như sau:
– Các môn thể thao ưa thích là: Cầu lông, Bóng bàn, Bóng chuyển, Bóng đá.
– Số lượng học sinh ưa thích mỗi môn thể thao đó lần lượt là: 50, 30, 40, 80.
Trong hai loại dữ liệu thống kê thu thập được ở trên, dữ liệu thống kê nào là số liệu? Dữ liệu thống kê nào không phải là số liệu?
Giải
– Dãy dữ liệu thứ nhất là tên các môn thể thao học sinh ưa thích nên không phải là dãy số liệu.
– Dãy dữ liệu thứ hai là số lượng học sinh ưa thích mỗi môn thể thao đó nên là dãy số liệu.
1.2. Tính hợp lí của dữ liệu
Ví dụ 1: Đông Nam Bộ là vùng kinh tế phát triển nhất Việt Nam có dân số đông và dẫn đầu cả nước về xuất khẩu, đầu tư trực tiếp nước ngoài, cũng như nhiều yếu tố kinh tế xã hội khác. Bạn Hạnh ghi lại số liệu từ trang web https://www.gso.gov.vn về tỉ lệ tăng dân số của các tỉnh/hành phố vùng Đông Nam Bộ năm 2019 như Bảng 1. Bạn Hạnh đã ghỉ nhằm số liệu của một tỉnh/thành phố trong bảng đó. Theo em, bạn Hạnh đã ghi nhầm số liệu của tỉnh/thành phố nào?
Giải
Số liệu tỉ lệ tăng dân số của tỉnh Bình Dương đã bị ghi nhầm vì tỉ lệ tăng dân số của các địa phương đều dưới 10%.
Ví dụ 2: Trong cuộc thi chạy cự li 100 m của học sinh nam nhân ngày Thể thao Việt Nam 27/3, có năm học sinh An, Bình, Cường, Dũng, Đông tham gia với kết quả chạy được thống kê như sau:
Sau khi xem lại kết quả, ban tổ chức nhận ra có thể đã ghi nhầm số liệu của một học sinh.
a) Ban tổ chức có thể đã ghi nhầm số liệu của học sinh nào?
b) Hãy chỉ ra cách chọn một học sinh chạy nhanh nhất để dự thi cấp liên trường.
Giải
a) Kết quả của bạn Dũng có thể bị sai vì kỉ lục thế giới chạy cự li 100 m nam có thời gian vẫn lồn hơn 9,1 giây.
b) Nếu không tính bạn Dũng thì bạn Cường chạy nhanh nhất. Chọn một thời điểm phù hợp để hai bạn Cường và Dũng cùng chạy, nếu ai chạy nhanh hơn thì chọn người đó dự thi cấp liên trường.
1.3. Mô tả và biểu diễn dữ liệu trên các bảng, biểu đồ
Ở lớp 6, chúng ta đã làm quen với việc mô tả và biểu diễn dữ liệu trên các bảng, biểu đổ (bảng số liệu, biểu đỗ tranh, biểu đỗ cột, biểu đồ cột kép).
Trong mục này, chúng ta tiếp tục tìm hiểu sâu hơn việc đọc hiểu, rút ra những thông tin cần thiết từ những dạng biểu diễn dữ liệu đã học và nhận biết những dạng biểu diễn khác nhau cho một tập dữ liệu.
Ví dụ: Biểu đồ cột kép ở Hình 2 biểu diễn kim ngạch xuất khẩu sản phẩm ngành dệt may và ngành đa giày của Việt Nam trong các năm 2017, 2018, 2019, 2020. Ở đây, kim ngạch xuất khẩu một loại hàng hoá là số tiền thu được khi xuất khẩu loại hàng hoá đó.
a) Nêu cách xác định kim ngạch xuất khẩu sản phẩm ngành dệt may của Việt Nam trong mỗi năm từ 2017 đến 2020.
b) Nêu cách xác định kim ngạch xuất khẩu sản phẩm ngành da giày của Việt Nam trong mỗi năm từ 2017 đến 2020.
c) Lập bảng số liệu thống kê kim ngạch xuất khẩu sản phẩm ngành dệt may và ngành da giày của Việt Nam theo mẫu sau (đơn vị: tỉ đô la Mỹ):
Giải
a) Nhìn vào cột (màu xanh) biểu thị kim ngạch xuất khẩu sản phẩm ngành dệt may của Việt Nam trong năm 2017, ta thấy trên đỉnh cột đó ghi số 31,8 và đơn vị tính ghi trên trục thẳng đứng là tỉ đô la Mỹ. Vậy kim ngạch xuất khẩu sản phẩm ngành dệt may của Việt Nam trong năm 2017 là 31,8 tỉ đô la Mỹ. Tương tự như trên, ta xác định được kim ngạch xuất khẩu sản phẩm ngành dệt may trong các năm 2018, 2019, 2020 lần lượt là: 36,2; 38,8; 35,0 (tỉ đô la Mỹ).
b) Nhìn vào cột (màu cam) biểu thị kim ngạch xuất khẩu ngành da giày của Việt Nam trong năm 2017, ta thấy trên đỉnh cột đó ghi số 17,9 và đơn vị tính ghi trên trục thẳng đứng là tỉ đô la Mỹ. Vậy kim ngạch xuất khẩu ngành da giày của Việt Nam trong năm 2017 là 17,9 tỉ đô la Mỹ.
Tương tự như trên, ta xác định được kim ngạch xuất khẩu ngành da giày của Việt Nam trong các năm 2018, 2019, 2020 lần lượt là: 19,6; 22,1; 19,9 (tỉ đô la Mỹ).