From a8253ca49ca817020c8e56274b380dcf3162f079 Mon Sep 17 00:00:00 2001
From: Michael Peter Christen <mc@yacy.net>
Date: Wed, 6 Nov 2013 18:05:02 +0100
Subject: [PATCH] added missing unicode transformation in href link contents
 during parsing

---
 source/net/yacy/document/parser/html/ContentScraper.java | 3 ++-
 1 file changed, 2 insertions(+), 1 deletion(-)

diff --git a/source/net/yacy/document/parser/html/ContentScraper.java b/source/net/yacy/document/parser/html/ContentScraper.java
index 0ba77481f..06ad0dae2 100644
--- a/source/net/yacy/document/parser/html/ContentScraper.java
+++ b/source/net/yacy/document/parser/html/ContentScraper.java
@@ -467,7 +467,8 @@ public class ContentScraper extends AbstractScraper implements Scraper {
     public void scrapeTag1(final String tagname, final Properties tagopts, char[] text) {
         // System.out.println("ScrapeTag1: tagname=" + tagname + ", opts=" + tagopts.toString() + ", text=" + UTF8.String(text));
         if (tagname.equalsIgnoreCase("a") && text.length < 2048) {
-            final String href = tagopts.getProperty("href", EMPTY_STRING);
+            String href = tagopts.getProperty("href", EMPTY_STRING);
+            href = CharacterCoding.html2unicode(href);
             AnchorURL url;
             if ((href.length() > 0) && ((url = absolutePath(href)) != null)) {
                 final String ext = MultiProtocolURL.getFileExtension(url.getFileName());