Đề tài trên Thảo luận Thành viên:Tranminh360/Lưu Thảo luận Cấu trúc 1

Vinhtantran (thảo luậnđóng góp)

Có một số điểm muốn bàn với em (và có thể sẽ đưa vào Hướng dẫn chính thức của Wikisource trong tương lai):

  1. Dấu câu nên theo đúng cách viết như ngày nay, ví dụ dấu hai chấm (:), dấu chấm than, chấm phẩy,... không có khoảng trắng phía trước và có một khoảng trắng phía sau. Việc phải thật chính xác như văn bản gốc đối với các dấu câu này không quá quan trọng, mà nó có 2 lý do nên làm, (1) nếu để ý kĩ, trong những cuốn sách cũ, khoảng trắng phía sau các dấu đó vẫn dài hơn phía trước, có thể là một hạn chế nào đó trong cách sắp chữ khi xưa, và (2) khi hiển thị trên Wikisource, nếu bị ngắt dòng, các dấu câu sẽ không bị nhảy dòng và nằm lơ lửng rất buồn cười.
  2. Khi em thêm văn bản từ nguồn sẵn có, và em rà lại để thêm các dấu gạch nối hoặc sửa chính tả, chính em đã thực hiện việc hiệu đính nội dung cho nó. Vì vậy anh nghĩ chuyển trạng thái của Trang sang Đã hiệu đính đối với các trang như vậy cũng không có gì sai. Ở các ngôn ngữ khác có khả năng OCR tốt, việc tạo tự động Trang từ OCR thì là trạng thái đỏ, còn hễ có ai rà lại một lần là đã đủ sang vàng. Do đó, mình gõ văn bản bằng tay, thậm chí dùng văn bản có sẵn và chỉnh sửa cho khớp, thì rất đáng để đặt màu vàng.

Vậy đã, có gì nghĩ ra thêm thì nhắn sau nhé.

LMQ2401 (thảo luậnđóng góp)

Về khoảng cách trước các dấu hai chấm (:), dấu chấm than (!), chấm phẩy (;) là do chịu ảnh hưởng của tiếng Pháp, luôn có khoảng trắng trước và sau các dấu này. Để tránh trường hợp các dấu này bị tự động xuống dòng thì chúng ta nên dùng khoảng-cách-không-ngắt-dòng/non-breaking space, mã của kí tự này là :  

Tranminh360 (thảo luậnđóng góp)

Bạn nói đúng, xem các văn bản tiếng Pháp như fr:L’Absence (Polonius) đều có khoảng trắng trước các dấu hai chấm, chấm than, chấm phẩy. Thậm chí sách giáo khoa hiện nay ở Việt Nam vẫn in như vậy, họ nói là do mục đích thẩm mĩ.

Tranminh360 (thảo luậnđóng góp)

Nhưng tôi thấy tiếng Anh cũng làm vậy mà, ví dụ như en:Page:Virgil (Collins).djvu/53, nhưng trong bản text họ đều đặt các dấu này vào sát từ đứng trước, để cho khỏi nhảy dòng.

Vinhtantran (thảo luậnđóng góp)

Tôi đề nghị nên quyết định giữa (1) thống nhất cách trình bày dấu câu, hoặc (2) thống nhất giữ y hệt như bản gốc, hoặc (3) tùy biên tập viên.

Tôi vẫn thiên về ý (1). Dù sao đó chỉ là lựa chọn về định dạng, không thể hiện được gì về tính nguyên bản của tác phẩm. Chúng ta cần sự hài hòa giữa cách thể hiện nguyên văn nội dung gốc và cách trình bày cho hợp với không gian Wikisource hiện đại.

Nói thêm là ngay cả những bản chuyển chữ của các từ điển trên Wikisource cũng vì cố gắng làm sao cho giống tác phẩm gốc (trình bày làm 2 cột) mà làm vỡ sự kết nối khi nối trang với nhau (xem thử trang này, nó không thuận tiện khi đọc Từ điển Việt–Bồ–La/C). Tuy nhiên, chưa có thống nhất về cách trình bày thì biên tập viên cứ làm thế nào mình cảm thấy thoải mái nhất thôi.

LMQ2401 (thảo luậnđóng góp)
Tranminh360 (thảo luậnđóng góp)
Tranminh360 (thảo luậnđóng góp)

en:Help:Proofread/Proofreading example#Corrections cũng quy định sau khi sửa lỗi chính tả từ OCR, sửa ngắt dòng, loại bỏ khoảng trắng trước dấu câu, chèn hình ảnh, dùng bản mẫu định dạng, đặt liên kết wiki là đã có thể đánh dấu là "đã hiệu đính" rồi. Còn phê chuẩn thì phải đọc lại và soát lỗi (en:Help:Proofread/Proofreading example#Validated text: A second person needs to read the page and approve the final version as correct. They do so by reading through for errors, comparing the final version against the original page image and, if everything is in order, saving the page again with the "Validated" (green) page status) chứ không phải cứ đánh dấu phê chuẩn là xong.

Vinhtantran (thảo luậnđóng góp)

Đúng rồi, phải làm một cái gì đó thì mới đổi tình trạng trang được. Chuyển từ vàng sang xanh cũng cần người hiệu đính phải đọc tác phẩm bằng cả hai con mắt chứ không đùa.

Tranminh360 (thảo luậnđóng góp)
Vinhtantran (thảo luậnđóng góp)

Có vẻ nó không tự do. OCR tiếng Anh, Pháp, Đức thì mã nguồn mở hoặc miễn phí hằng hà sa số. Nói thật, ngay bộ gõ tiếng Việt AVIM hiện nay nếu khi xưa tác giả không có tinh thần mã nguồn mở thì chắc chẳng bao giờ Wikimedia được hưởng lợi. @Tranminh360 có thể tìm một số phần mềm nào đó cài trên máy tính rồi chép vào Wikisource sau.

Vinhtantran (thảo luậnđóng góp)

Cuốn này cần phải phê chuẩn thêm vài trang nữa (phần tác phẩm chính) là đủ để có thể đưa làm tác phẩm chọn lọc tiếp theo. Tôi có thể sẽ chạy bot để thêm khoảng trắng trước vài ký tự ?, :, ..., nhưng tôi không dám hứa trước. Dù sao nó cũng không quá cấp thiết. Nhờ @Tranminh360 phê chuẩn nốt chúng.

Tranminh360 (thảo luậnđóng góp)
Tranminh360 (thảo luậnđóng góp)
Trả lời “Thêm văn bản vào cuốn Trở vỏ lửa ra”