• Thứ Sáu, 22/05/2009 11:16 (GMT+7)

    Website các bộ, ngành: Cần đổi mới phương pháp thống kê

    Phần lớn các bộ, cơ quan ngang bộ đều đã có website. Cái đích mà các website này hướng đến đáp ứng nhu cầu thông tin cho người dân và hỗ trợ việc điều hành của Nhà Nước. Thế nhưng, chất lượng và hiệu quả mang lại của các trang thông tin này là việc đáng bàn!

    Sơ sài, vụn vặt!

    Thử truy tìm thông tin thống kê (TK) về lao động, thất nghiệp mà theo lời bộ trưởng bộ Lao Động, Thương Binh và Xã Hội (LĐTB&XH) khi trả lời chất vấn trước Ủy Ban Thường Vụ Quốc Hội ngày 20/3/2009 là khó để TK. Trước tiên, vào trang www.molisa.gov.vn của bộ LĐTB&XH. Ngoài mẫu tin về trả lời chất vấn của bộ trưởng đã được hiệu chỉnh tròn trịa và một số tin trong mục việc làm-tiền lương thì không tìm đâu ra con số TK về thất nghiệp trong cả nước ở thời điểm khủng hoảng này, dù chỉ là dự đoán!

    Tuy nhiên, những con số về lao động thất nghiệp, kể cả của năm 2009 lại được nói đến không ít, ở nơi này nơi khác trên các website và trên các báo online cũng như báo giấy...

    Sau đây là một vài mẫu tin rời rạc, hàm lượng thông tin không đủ để hỗ trợ cho việc TK, xử lý dữ liệu:

    “Theo TK của 40 tỉnh thành đến hết tháng 1/2009 đã có trên 85.000 người mất việc, trên 40.000 người bị cắt giảm việc làm và trên 20.000 tạm nghỉ chờ việc. Ông cục trưởng cục Việc Làm (bộ LĐTB&XH) cho biết: Báo cáo từ các địa phương mới chỉ là số liệu năm 2008 nên chưa có con số thất nghiệp chính thức của năm 2009. Dự báo 6 tháng đầu năm 2009, cả nước sẽ có khoảng 300 nghìn lao động thất nghiệp, 6 tháng cuối năm sẽ tăng thêm khoảng 100 nghìn nữa...”.

    Cũng theo thông tin từ các website, theo TK của bộ LĐTB&XH, cả nước có khoảng hơn 2.000 lao động bị mất việc làm do chủ sử dụng lao động bỏ trốn. Trao đổi với báo VietNamNet chiều 3/3/2009, bộ trưởng bộ LĐTB&XH cho hay sẽ không thể tạo mới 1,7 triệu việc làm trong năm nay như mục tiêu dự kiến… Bộ phải dựa vào hệ thống các tỉnh báo cáo lên thì mới có con số TK về lao động thất nghiệp, mất việc làm… Còn chủ nhiệm Ủy Ban về Các Vấn Đề Xã Hội của Quốc Hội thì cho hay: trước tình trạng lao động thất nghiệp đang nóng bỏng, Ủy Ban sẽ đề nghị bộ LĐTB&XH làm rõ giải pháp thực hiện chỉ tiêu tạo mới 1,7 triệu việc làm trong năm 2009...

    “Sự phát triển ứng dụng CNTT trong nhiều lĩnh vực dẫn đến một khối lượng lớn dữ liệu được thu thập và lưu trữ. Tuy nhiên, tại Việt Nam hiện chỉ có khoảng 5% đến 10% dữ liệu là luôn được khai thác”, Nguyễn Lãm.

    Chỉ có số liệu cũ!

    Theo vụ dân số của tổng cục TK (bộ Kế Hoạch và Đào Tạo), tại thời điểm điều tra mẫu (1/4/2008), trên 2 triệu dân thì có 4,6% lao động thất nghiệp. Vào mục số liệu TK về dân số và lao động của trang www.gso.gov.vn thì thấy rất nhiều dữ liệu, nhiều bảng TK về tỷ lệ lao động, thất nghiệp, nhưng số liệu chỉ có từ năm 1996 cho đến năm 2007!

    Hiện tại trên GSOnet có 4 loại cơ sở dữ liệu (CSDL) nhưng là của những năm từ 2004 trở về trước: CSDL lưu trữ các bảng danh mục (đơn vị hành chính (2001, 2004), ngành kinh tế quốc dân, các dân tộc Việt Nam, hàng hóa xuất-nhập khẩu (năm 1997), đăng ký doanh nghiệp (2002 – 2004); CSDL lưu trữ các bảng biểu tổng hợp kết quả các cuộc tổng điều tra về dân số và nhà ở năm 1989, 1/4/1999; CSDL lưu trữ thông tin ban đầu từ các cuộc tổng điều tra về số liệu mẫu 3% tổng điều tra dân số và nhà ở thời điểm 1/4/1999, tổng điều tra nông thôn, nông nghiệp và thủy sản năm 2001, tổng điều tra cơ sở kinh tế-hành chính sự nghiệp năm 2002...; CSDL về một số cuộc điều tra: Y tế quốc gia 2001-2002, biến động dân số hàng năm (2001, 2002, 2003, 2004), khảo sát mức sống hộ gia đình (2004)...

    Qua website của tổng cục TK (TCTK), ta có thể thấy: nhiều dữ liệu cần thiết cho điều hành của Nhà Nước và cho nhu cầu thông tin của người dân đều đã có tổ chức TK, lưu trữ và có thể đáp ứng yêu cầu ở một mức độ nào đó. Tiếc thay, thông tin lại chậm hơn nhiều năm so với thời điểm hiện tại! Không biết sự chậm trễ về việc cập nhật CSDL của website TCTK nguyên nhân do đâu, vì công nghệ, vì khoa học hay vì quản lý?

    Dù là nguyên nhân gì, chúng ta vẫn có thể hy vọng khi gần đây, TCTK đã có dự án “Hiện đại hóa TCTK”, thực hiện các giải pháp công nghệ cao xây dựng hệ thống thông tin cho ngành mà trước mắt, cho cuộc tổng điều tra dân số và nhà ở 1/4/2009. Cuộc điều tra lần này là cuộc điều tra lớn nhất, phức tạp nhất từ trước đến nay, được tiến hành trên gần 87 triệu dân với 21 triệu hộ, trên 63 tỉnh thành về dân số, nhà ở. Cùng với các thông tin về đặc điểm dân số như tuổi, giới tính, dân tộc, tôn giáo, thành thị, nông thôn, tình trạng di cư, trình độ học vấn, tình trạng khuyết tật, hôn nhân... thì thông tin về lao động, việc làm cũng được điều tra. Việc thu thập, xử lý dữ liệu cho các cuộc điều tra lần này được thực hiện với công nghệ quét và nhận dạng tự động ký tự thông minh (ICR), cho phép tự động gần như hoàn toàn khâu thu nhận và xử lý phiếu điều tra; Phiếu điện tử (e-form) mà công cụ chính là các máy PDA được trang bị cho các điều tra viên để thu thập số liệu bằng các hình thức khác như email, web, ĐTDĐ.

    Khả năng có được dữ liệu kịp thời trên các trang tin của bộ, ngành đáp ứng yêu cầu điều hành của Nhà Nước là có thể thực hiện được nếu có biện pháp tổ chức nghiên cứu áp dụng các phương pháp phân tích thích hợp trong ngữ cảnh của đất nước ta và được hoàn thiện hệ thống thông tin của bộ ngành.

    Phương pháp mới cho TK


    Để có thông tin đáp ứng nhu cầu điều hành của Nhà Nước cũng như nhu cầu cần biết của người dân, các trang thông tin bộ, ngành phải xây dựng các CSDL ngành hay quốc gia. Việc xây dựng CSDL, trong đó có việc phân tích thiết kế, phương pháp thu thập CSDL đang đặt ra hàng loạt vấn đề cần giải quyết.

    Chọn công nghệ gì cũng là vấn đề. Đã có nhiều công nghệ được áp dụng có hiệu quả ở các nước, trong đó có những công nghệ liên quan đến lưu trữ, tìm kiếm những dạng dữ liệu khác nhau, từ văn bản đến hình ảnh, âm thanh. Vì thế, nếu được đầu tư việc chọn lựa công nghệ thích hợp, tuy không đơn giản, nhưng vẫn có thể thực hiện. Vấn đề mấu chốt là tri thức về ngành và sự hiểu biết về những ngành có liên quan.

    Một vấn đề quan trọng là phải đẩy mạnh nghiên cứu áp dụng những phương pháp mới cho việc xử lý dữ liệu. Phải có sự phối hợp giữa các ngành với TCTK để nghiên cứu khai thác kết quả của cuộc tổng điều tra dân số lần này cho việc thiết kế xây dựng CSDL về công dân, CSDL về tài nguyên quốc gia. Những thông tin cần thiết không định kỳ, như con số lao động thất nghiệp ở thời điểm hiện nay chẳng hạn, luôn đòi hỏi phải có một phương pháp điều tra, xử lý thích hợp mới đáp ứng được.

    Cần liên kết mạnh hơn nữa giữa các ngành với các trường đại học. TCTK đã làm nhiều cuộc điều tra dân số, đã thành nghề, có nhiều kinh nghiệm.Tuy nhiên, ngày nay đã hình thành một số hướng khoa học mới liên quan đến xử lý dữ liệu. Một số ĐH ở nước ta đã đào tạo suốt trong nhiều năm qua theo những hướng khoa học này như khai khoáng dữ liệu (Data Mining), từ bậc ĐH đến thạc sĩ, tiến sĩ. Hàng năm, có khá nhiều luận văn ở các bậc học về khai khoáng dữ liệu, nhưng rất hiếm thấy những luận văn khai khoáng dữ liệu ở “mỏ TCTK”! Đầu tư cho hiện đại hóa ngành là rất cần thiết, nhưng cần có biện pháp để khai thác nguồn tri thức ở các ĐH và các viện nghiên cứu để giải quyết vấn đề này một cách hiệu quả.

    Tham khảo cách làm ở Mỹ
    Trang web của văn phòng TK Mỹ giúp hình dung được một mô hình trang thông tin TCTK. Vào trang www.bls.gov/ thì thấy ngay mục việc làm, thất nghiệp. Vào CSDL thất nghiệp có thể thấy gần 50 bảng TK dưới dạng TXT, PDF. Vào mục 24, sẽ thấy số liệu của năm 2007, 2008 về tổng số người theo giới tính, trong số đó có tỷ lệ người thất nghiệp. Tỷ lệ thất nghiệp cũng được phân theo tuổi, tình trạng hôn nhân, chủng tộc, sắc tộc. Mỗi tình trạng được xét theo độ tuổi 16 và trên 16, tuổi 25 và trên 25, về hôn nhân thì phân ra: Góa, ly dị, ly thân, độc thân; Về chủng tộc: Da trắng, da đen và Mỹ gốc Phi, châu Á…

     

    Nhiều quyết định trong các hoạt động khác nhau của xã hội, trong đó có việc điều hành của Nhà Nước, đòi hỏi có thông tin kịp thời mà các phương pháp TK truyền thống thì chưa đáp ứng được yêu cầu này. Vì thế, đã hình thành một hướng nghiên cứu mới là khai khoáng dữ liệu mà phương pháp của nó đang được áp dụng một cách rộng rãi trong nhiều lĩnh vực trên thế giới. Khai khoáng dữ liệu cũng đã được nghiên cứu, ứng dụng ngay tại nước ta cho một số lĩnh vực, tuy chưa nhiều. Khai khoáng dữ liệu là quá trình trích rút thông tin có giá trị của dữ liệu được lưu trữ ở CSDL, ở kho dữ liệu... Các phương pháp khai khoáng dữ liệu thường được sử dụng là: Luật kết hợp (Association rules), phân nhóm (Clustering) và phân loại (Classification). Trong đó, luật kết hợp là phương pháp được quan tâm nhiều hơn cả. Các lĩnh vực toán học như mạng nơ ron, lý thuyết tập mờ, biểu diễn tri thức… thường được áp dụng vào khai khoáng dữ liệu.


    So với phương pháp khác như máy học, khai khoáng dữ liệu có lợi thế hơn ở chỗ có thể áp dụng đối với CSDL nhiễu, CSDL không đầy đủ hoặc biến đổi liên tục. Quá trình khai khoáng dữ liệu có thể có các bước: Tinh lọc dữ liệu (data cleaning), tích hợp dữ liệu (data integration), chọn dữ liệu (data selection), chuyển đổi dữ liệu (data transformation), khai khoáng dữ liệu (data mining), đánh giá mẫu (pattern evaluation), trình diễn dữ liệu (knowlegde presentation). Tuy phương pháp TK là một trong những nền tảng xuất phát của khai khoáng dữ liệu, nhưng phương pháp TK lại không khai thác được tri thức hàm chứa trong dữ liệu cần xử lý, còn khai khoáng dữ liệu thì làm được điều này.

    Nguyễn Lãm

    ID: B0905_70