Thu thập dữ liệu Ngoài nguồn tham khảo và nguồn chính, chúng tôi cũng có thể thu thập dữ liệu từ bên thứ ba, đây là quy trình phổ biến đối với dữ liệu thứ cấp. Nó sử dụng việc thu thập dữ liệu từ các nghiên cứu cũ để tiến hành nghiên cứu mới.

Chúng ta sẽ kiểm tra dữ liệu thứ cấp bằng các ví dụ, nguồn và phương pháp phân tích sau:

Dữ liệu thứ cấp là gì?

Dữ liệu thứ cấp là dữ liệu đã có sẵn, không phải tự thu thập và công bố rộng rãi nên dễ thu thập, không tốn nhiều thời gian và chi phí. Có thể hiểu rằng dữ liệu cũ do người khác thu thập cho các mục đích khác được chúng tôi sử dụng lại cho nghiên cứu của riêng mình.

Một phần dữ liệu có thể được coi là dữ liệu thứ cấp cho nghiên cứu này, nhưng ngược lại, nó cũng có thể được coi là dữ liệu sơ cấp cho một nghiên cứu khác. Đây là trường hợp khi dữ liệu được sử dụng lại, làm dữ liệu chính cho nghiên cứu đầu tiên và dữ liệu thứ cấp cho nghiên cứu thứ hai.

Nguồn dữ liệu phụ

Các nguồn dữ liệu thứ cấp chẳng hạn như sách, dữ liệu cá nhân, tạp chí, báo, trang web, hồ sơ của chính phủ, …dữ liệu thứ cấp được biết là có sẵn so với dữ liệu chính. Sử dụng các tài nguyên này đòi hỏi ít nghiên cứu và nhân lực.

Các nguồn dữ liệu phụ trợ đã trở nên dễ truy cập hơn do sự tiện lợi của cơ sở Internet. Dưới đây là một số ví dụ:

Sách

Sách là nguồn thu thập dữ liệu truyền thống nhất. Ngày nay, không khó để tìm một cuốn sách về bất kỳ chủ đề nào bạn có thể nghĩ đến.

Khi nghiên cứu, bạn chỉ cần tìm kiếm những cuốn sách liên quan đến chủ đề đang nghiên cứu rồi chọn trong thư viện sách có sẵn về lĩnh vực đó. Khi những cuốn sách được lựa chọn tốt được coi là một nguồn dữ liệu thực sự và rất hữu ích.

Xuất bản nguồn

Có nhiều tài nguyên đã xuất bản cho các chủ đề nghiên cứu khác nhau. Tính xác thực của dữ liệu từ các nguồn này chủ yếu thuộc về các tác giả và công ty xuất bản.

Các tài nguyên đã xuất bản có thể được in ra hoặc đọc trực tuyến trên Internet, nếu phù hợp. Các tác giả và nhà xuất bản được tự do quyết định có trả tiền hay không.

Nguồn cá nhân không được tiết lộ

Có thể không có sẵn và dễ truy cập hơn các tài nguyên đã xuất bản. Chúng chỉ có thể được truy cập nếu các nhà nghiên cứu chia sẻ chúng với các nhà nghiên cứu khác, chứ không phải với bên thứ ba.

Ví dụ: nhóm quản lý sản phẩm của một tổ chức có thể cần dữ liệu về phản hồi của khách hàng để đánh giá suy nghĩ của khách hàng về sản phẩm của tổ chức và đưa ra đề xuất cải tiến. Họ sẽ cần thu thập dữ liệu từ dịch vụ khách hàng, nơi thu thập dữ liệu chủ yếu để cải thiện dịch vụ khách hàng.

Tạp chí

Việc thu thập dữ liệu khiến tạp chí trở nên phổ biến hơn sách. Điều này là do các tạp chí được cập nhật thường xuyên và các ấn phẩm mới được phát hành hàng ngày thay vì sách.

Ngoài ra, tên tạp chí thường cụ thể hơn khi đề cập đến nghiên cứu. Ví dụ: chúng tôi có thể tìm thấy một tạp chí có tiêu đề chi tiết “Thu thập dữ liệu thứ cấp cho dữ liệu định lượng”, trong khi một cuốn sách sẽ chỉ có tiêu đề “Thu thập dữ liệu thứ cấp”.

Báo

Thông tin viết trên báo chí thường rất đáng tin cậy. Do đó, nó trở thành một trong những nguồn đáng tin cậy nhất để thu thập dữ liệu thứ cấp. Dữ liệu được chia sẻ bởi các phương tiện truyền thông thường là chính trị, kinh tế và giáo dục hơn là khoa học. Do đó, báo chí không phải là nguồn tốt nhất để thu thập dữ liệu khoa học.

Trang web

Thông tin được chia sẻ trên trang web hầu hết không được quản lý và do đó kém tin cậy hơn các nguồn khác.

Tuy nhiên, có một số trang web được quản lý chỉ chia sẻ dữ liệu xác thực và có thể được các nhà nghiên cứu tin cậy. Hầu hết các trang web này thường là các trang web của chính phủ hoặc các tổ chức tư nhân được trả tiền để thu thập dữ liệu.

Blog

Blog là nguồn dữ liệu trực tuyến phổ biến nhất nhưng dữ liệu này có thể không thực như các nguồn khác. Hầu như ai cũng có blog và nhiều người sử dụng blog đó để hướng lưu lượng truy cập đến trang web của họ hoặc để kiếm tiền thông qua quảng cáo trả tiền.

Vì vậy, viết blog không phải lúc nào cũng đáng tin cậy. Ví dụ: một blogger có thể viết những điều tốt đẹp về một sản phẩm vì nhà sản xuất đã trả tiền cho họ để làm như vậy, ngay cả khi những lời đó không đúng sự thật.

Nhật ký

Nhật ký được gọi là hồ sơ cá nhân, vì vậy các nhà nghiên cứu hiếm khi sử dụng chúng để thu thập dữ liệu.

Mặt khác, nhật ký thường mang tính cá nhân, trừ khi mọi người chia sẻ nhật ký công khai chứa các sự kiện cụ thể trong cuộc sống của họ. Một ví dụ là cuốn nhật ký của Anne Frank ghi lại chính xác cuộc chiến tranh của Đức quốc xã.

Hồ sơ chính phủ

Hồ sơ chính phủ là nguồn dữ liệu thứ cấp quan trọng và xác thực. Chúng chứa thông tin hữu ích cho nghiên cứu tiếp thị, quản lý, khoa học xã hội và nhân văn.

Một số hồ sơ này bao gồm; dữ liệu điều tra dân số, hồ sơ sức khỏe, hồ sơ cơ sở giáo dục, v.v. thường được thu thập để hỗ trợ lập kế hoạch, phân bổ vốn và ưu tiên các dự án phù hợp.

Podcast

Trong thời đại ngày nay, podcast được nhiều người nghe và đang dần thay thế radio.

Giống như một đài phát thanh trực tuyến, nó ngày càng trở nên phổ biến. Thông tin thường được chia sẻ trong podcast và người nghe có thể sử dụng thông tin đó làm nguồn thu thập dữ liệu.

Các công cụ thu thập dữ liệu thứ cấp là gì?

Các công cụ thường dùng để thu thập dữ liệu thứ cấp bao gồm: bot, thiết bị, thư viện,… Để đơn giản hóa quá trình thu thập dữ liệu từ website của các nguồn dữ liệu thứ cấp trên, nghiên cứu các công cụ quan trọng mà mọi người sử dụng được giải thích dưới đây.

Người máy

Có rất nhiều dữ liệu trực tuyến và rất khó để các nhà nghiên cứu duyệt qua tất cả dữ liệu. Để đơn giản hóa quy trình thu thập dữ liệu này, các lập trình viên đã tạo ra các chương trình để thực hiện quét web tự động các dữ liệu liên quan.

Những

bot này là “rô-bốt phần mềm” được lập trình để thực hiện một số nhiệm vụ nhất định cho các nhà nghiên cứu. Các doanh nghiệp thường sử dụng bot để lấy dữ liệu từ các diễn đàn và phương tiện truyền thông xã hội để phân tích cạnh tranh.

Thiết bị kết nối Internet

Đây có thể là điện thoại di động, PC hoặc máy tính bảng có kết nối internet. Chúng được sử dụng để truy cập các tạp chí, sách, blog… để thu thập dữ liệu thứ cấp.

Thư viện

Đây là một công cụ thu thập dữ liệu thứ cấp truyền thống dành cho các nhà nghiên cứu. Các thư viện chứa tài liệu liên quan trong mọi lĩnh vực nghiên cứu mà bạn có thể nghĩ đến và mọi người đều có thể truy cập được.

Các nhà nghiên cứu có thể quyết định ngồi trong thư viện một lúc để thu thập dữ liệu cũ hoặc mượn tài liệu một lúc và trả lại sau khi họ đã thu thập dữ liệu họ cần.

Đài phát thanh

là một trong những nguồn thu thập dữ liệu thứ cấp mà chúng tôi cần có đài để truy cập. Sự xuất hiện của công nghệ thậm chí đã có thể nghe đài trên điện thoại di động, tưởng rằng không cần đài.

Phân tích dữ liệu thứ cấp

Phân tích dữ liệu thứ cấp là quá trình phân tích dữ liệu được thu thập từ một nhà nghiên cứu khác, người chủ yếu thu thập dữ liệu cho các mục đích khác. Các nhà nghiên cứu sử dụng dữ liệu thứ cấp để tiết kiệm thời gian và nguồn lực mà lẽ ra phải dùng để thu thập dữ liệu sơ cấp.

Phân tích dữ liệu thứ cấp có thể là định lượng hoặc định tính tùy thuộc vào loại dữ liệu mà nhà nghiên cứu đang xử lý. Phương pháp định lượng hoạt động trên dữ liệu số và thực hiện phân tích toán học, trong khi phương pháp định tính sử dụng từ ngữ để cung cấp thông tin chi tiết về dữ liệu.

Cách phân tích dữ liệu thứ cấp

Phân tích dữ liệu thứ cấp có các giai đoạn riêng biệt liên quan đến các sự kiện trước, trong và sau khi thu thập dữ liệu. Các giai đoạn này bao gồm:

Tuyên bố mục đích

Trước khi thu thập dữ liệu thứ cấp để phân tích, bạn cần giải thích mục đích của mình. Hiểu lý do tại sao bạn cần thu thập dữ liệu – mục đích cuối cùng của nghiên cứu của bạn và dữ liệu sẽ giúp bạn đạt được điều gì.

Điều này sẽ giúp bạn định hướng tốt hơn việc thu thập dữ liệu và chọn các nguồn dữ liệu cũng như phương pháp phân tích tốt hơn.

Thiết kế nghiên cứu

Bạn sẽ cần phát triển một kế hoạch về cách bạn sẽ tiến hành các hoạt động nghiên cứu của mình. Nó nên có một kế hoạch rõ ràng, chẳng hạn như mô tả loại dữ liệu cần thu thập, nguồn thu thập dữ liệu, phương pháp thu thập dữ liệu, công cụ và thậm chí cả phương pháp phân tích.

Sau khi xác định được mục đích nghiên cứu, nhà nghiên cứu cần thiết kế một quy trình nghiên cứu để định hướng cho quá trình phân tích dữ liệu.

Đề xuất câu hỏi nghiên cứu

Chỉ biết mục đích của nghiên cứu là chưa đủ, bạn cần đặt câu hỏi nghiên cứu, vì điều này sẽ giúp xác định rõ hơn dữ liệu thứ cấp. Bởi vì chúng thường là một tập hợp dữ liệu để bạn lựa chọn, nên việc đặt câu hỏi đúng sẽ giúp thu thập dữ liệu thực.

Ví dụ, một nhà nghiên cứu đang cố gắng thu thập dữ liệu về thức ăn cho cá để giúp cá lớn nhanh hơn phải đặt ra những câu hỏi sau: Nên ăn loại cá nào? Dữ liệu là định lượng hay định tính? Các thành phần trong thực phẩm là gì? Tốc độ tăng trưởng của cá sau khi cho ăn,…

Xác định dữ liệu thứ cấp

Sau khi đặt câu hỏi nghiên cứu, họ sử dụng nó như một hướng dẫn để xác định dữ liệu liên quan từ kho dữ liệu. Ví dụ: nếu loại dữ liệu được thu thập là định tính, nhà nghiên cứu có thể lọc ra dữ liệu định tính. Dữ liệu phụ trợ phù hợp sẽ là dữ liệu trả lời chính xác câu hỏi được đánh dấu ở trên.

Ví dụ: khi tìm lời giải cho một bài toán quy hoạch tuyến tính, lời giải sẽ là một con số thỏa mãn cả mục tiêu và các ràng buộc. Bất kỳ câu trả lời nào không thỏa mãn cả hai đều không phải là một giải pháp thích hợp.

Đánh giá dữ liệu thứ cấp

Giai đoạn này được nhiều người phân loại là giai đoạn phân tích dữ liệu thực sự, vì đây là nơi thực hiện phân tích thực tế. Tuy nhiên, các giai đoạn được đánh dấu ở trên là một phần của quy trình phân tích dữ liệu vì chúng ảnh hưởng đến cách thực hiện phân tích.

Khi một bộ dữ liệu có vẻ khả thi về mặt đáp ứng các yêu cầu ban đầu ở trên, bước tiếp theo trong quy trình là đánh giá mức độ phù hợp của bộ dữ liệu với chủ đề nghiên cứu. Dữ liệu được đánh giá để đảm bảo rằng nó thực sự giải quyết được tuyên bố vấn đề và trả lời câu hỏi nghiên cứu.

Ưu điểm của dữ liệu thứ cấp

Dễ truy cập

Các nhà nghiên cứu dễ dàng tiếp cận hầu hết các nguồn dữ liệu thứ cấp. Những tài nguyên này có thể được truy cập trực tuyến thông qua các thiết bị di động.

Những người không có quyền truy cập Internet cũng có thể truy cập chúng bằng bản in. Chúng thường có sẵn trong thư viện, hiệu sách và thậm chí có thể cho người khác mượn.

Rẻ

Dữ liệu phụ hầu hết yêu cầu ít hoặc không có quyền truy cập miễn phí cho bất kỳ ai. Nhiều sách và tạp chí có sẵn trực tuyến để tải xuống miễn phí.

Những người không có kết nối Internet có thể mượn sách miễn phí từ các thư viện công cộng. Các nhà nghiên cứu không phải chi tiền cho các cuộc khảo sát và họ không phải chi tiền cho sách.

Tiết kiệm thời gian

Lượng thời gian dành cho việc thu thập dữ liệu thứ cấp thường rất ít so với thời gian dành cho việc thu thập dữ liệu sơ cấp.

Điều tra duy nhất cần thiết để thu thập dữ liệu thứ cấp là quá trình tìm nguồn dữ liệu mong muốn. Điều này sẽ tiết kiệm rất nhiều thời gian cho các nhà nghiên cứu.

Nghiên cứu so sánh và theo chiều dọc

Dữ liệu thứ cấp giúp dễ dàng thực hiện các nghiên cứu theo chiều dọc mà không phải chờ đợi nhiều năm để đưa ra kết luận.

Ví dụ: bạn muốn so sánh dân số của quốc gia dựa trên điều tra dân số được thực hiện 5 năm trước và điều tra dân số hiện tại. Thay vì chờ đợi 5 năm, giờ đây chúng ta có thể dễ dàng so sánh bằng cách thu thập dữ liệu điều tra dân số từ 5 năm trước và bây giờ.

Tạo thông tin chi tiết mới

Có thể có những điều mà những người thu thập dữ liệu cấp dưới chưa từng thấy, nhưng qua lăng kính và góc nhìn của những người khác, những điều mới sẽ được khám phá.

Ví dụ: khi khách hàng phàn nàn với nhóm dịch vụ khách hàng về sự cố khi sử dụng ứng dụng, họ có thể quyết định tạo hướng dẫn sử dụng để hướng dẫn khách hàng cách sử dụng ứng dụng. Tuy nhiên, khi các nhà phát triển sản phẩm truy cập dữ liệu này, họ phát hiện ra rằng vấn đề nằm ở thiết kế ui/ux và cần phải khắc phục.

Nhược điểm của dữ liệu cũ

Chất lượng dữ liệu:

Dữ liệu được thu thập thông qua các nguồn thứ cấp có thể không xác thực bằng dữ liệu được thu thập trực tiếp từ các nguồn chính.

Đây là một thiếu sót rất phổ biến của các nguồn tài nguyên trực tuyến do thiếu cơ quan quản lý để giám sát loại nội dung được chia sẻ. Do đó, việc sử dụng dữ liệu đó có thể tác động tiêu cực đến nghiên cứu đang diễn ra.

Dữ liệu không liên quan

Các nhà nghiên cứu dành nhiều thời gian để sàng lọc dữ liệu không liên quan trước khi tìm thấy thứ họ muốn. Điều này là do dữ liệu không được thu thập chủ yếu cho các nhà nghiên cứu.

Trong một số trường hợp, các nhà nghiên cứu thậm chí có thể không tìm thấy dữ liệu chính xác mà họ cần, vì vậy họ cần tìm giải pháp thay thế tốt nhất tiếp theo.

Dữ liệu phóng đại

Một số nguồn dữ liệu được biết là ngày càng phóng đại thông tin được chia sẻ. Điều này phổ biến đối với nhiều người viết blog trực tuyến, những người thậm chí sẽ chia sẻ thông tin sai lệch để đạt được lưu lượng truy cập web.

Ví dụ: một công ty khởi nghiệp công nghệ tài chính có thể thổi phồng số tiền mà họ xử lý để thu hút nhiều khách hàng hơn.

Thông tin lỗi thời

Một số nguồn dữ liệu đã lỗi thời và không có dữ liệu mới nào có thể thay thế dữ liệu cũ.

Ví dụ: các cuộc tổng điều tra quốc gia thường không được cập nhật hàng năm. Nhưng có sự thay đổi dân số hàng năm và không ai tính toán được con số đó, vì vậy quốc gia cần ai đó cập nhật con số đó trước khi nó trở nên quá lỗi thời.

Kết luận

Dữ liệu thứ cấp có nhiều công dụng trong nghiên cứu, kinh doanh và thống kê. Các nhà nghiên cứu chọn dữ liệu thứ cấp vì những lý do khác nhau, chẳng hạn như giá cả, tính sẵn có và thậm chí cả nhu cầu nghiên cứu.

Mặc dù thông tin đã cũ nhưng trong một số trường hợp, dữ liệu thứ cấp có thể là nguồn dữ liệu duy nhất. Điều này có thể là do chi phí tiến hành nghiên cứu cao, hoặc do ủy thác cho một cơ quan cụ thể (chẳng hạn như điều tra dân số quốc gia).

Tóm lại, dữ liệu thứ cấp có những nhược điểm có thể ảnh hưởng tiêu cực đến kết quả nghiên cứu, nhưng nó cũng có một số ưu điểm so với dữ liệu sơ cấp. Tất cả phụ thuộc vào hoàn cảnh, các nhà nghiên cứu tham gia và loại nghiên cứu đang được thực hiện.

Bài viết được dịch từ đây

Nếu bạn có ý định trở thành một nhà phân tích dữ liệu chuyên nghiệp thì bạn có thể tham khảo các khóa học chuyên nghiệp toàn diện của combo 4 khóa học trong 1 bootcamp Bộ 200lab: https://200lab.io/khoa-hoc/khoa-hoc-data-analysis

Ngoài ra, bạn có thể nhấp vào liên kết này để tham gia nhóm và nhận thêm thông tin hữu ích về dữ liệu!

Kiểm tra tiếng Anh trực tuyến

Bạn đã biết trình độ tiếng Anh hiện tại của mình chưa?
Bắt đầu làm bài kiểm tra

Nhận tư vấn lộ trình từ ACET

Hãy để lại thông tin, tư vấn viên của ACET sẽ liên lạc với bạn trong thời gian sớm nhất.