Microsoft Word 產生的 HTML 是所有文書處理器中最 bloated 的之一。其貼上輸出包含 XML 命名空間、針對不同 Office 版本的條件註解和 MsoNormal 段落 class。Publish Helper 可移除所有 Word 特定的標記,交付乾淨的 HTML。
Word 貼上的內容包含 XML 命名空間宣告(xmlns:o、xmlns:w)、針對特定 Office 版本的條件註解、MsoNormal 和 MsoListParagraph class,以及帶有 mso- 前綴屬性的 inline styles,這些屬性沒有任何瀏覽器能理解。圖片通常以 VML 或 base64 data URI 的形式嵌入,並帶有 Word 特定的 wrapper。
Microsoft Word 輸出
<p class="MsoNormal" style="margin-bottom:0cm;line-height:normal"><b><span style="font-size:14.0pt;font-family:'Calibri',sans-serif;mso-ascii-theme-font:minor-latin">Introduction</span></b></p> <p class="MsoNormal" style="margin-bottom:0cm;line-height:normal"><span style="font-size:11.0pt;font-family:'Calibri',sans-serif;mso-ascii-theme-font:minor-latin">This is a paragraph with </span><b><span style="font-size:11.0pt">bold text</span></b><span style="font-size:11.0pt"> and </span><i><span style="font-size:11.0pt">italic text</span></i><span style="font-size:11.0pt">.</span></p>
乾淨的 HTML
<h2>Introduction</h2> <p>This is a paragraph with <strong>bold text</strong> and <em>italic text</em>.</p>
Word 產生的 HTML 是為了能夠往返回 Word 而設計的,而非為網頁設計。它包含 XML 命名空間、Office 特定的 CSS 屬性(mso- 前綴)和條件註解 — 這些都不是瀏覽器能理解的。Google Docs 的 HTML 雖然多餘,但至少使用標準的 CSS 屬性。
可以。Word 經常將項目符號列表轉換為帶有 MsoListParagraph class 和手動縮排的段落。Publish Helper 的清理功能會移除 Word 特定的 class 和內聯邊距,同時保留內容結構。
Word 有時會以 base64 data URI 或 VML 標記的形式嵌入圖片。Publish Helper 會保留標準的 img 標籤,但移除 Word 特定的 wrapper 和 VML 內容。建議將圖片另外上傳到您的 CMS 以獲得最佳效果。
Last updated: March 2026