גוגל משתמשת ב-Crawlers אוטומטיים ו-Fetchers כדי לבצע פעולות ולאסוף מידע עבור מוצריה.
באופן אוטומטי או בתגובה לבקשת משתמשים.
המונח "Crawler" (לפעמים גם מתוך "רובוט" או "עכביש") הוא מונח כללי לאלגוריתם שמשמש לגילוי וסריקת אתרי אינטרנט באופן אוטומטי על ידי מעקב אחרי קישורים מדף אינטרנט אחד אל דף אינטרנט אחר.
ה-Crawler הראשי של Google נקרא Googlebot.
אחרי ש-OpenAI הכריזה לאחרונה שמנהלי אתרים יוכלו לחסום את מערכותיה מלסרוק את התוכן שלהם.
על ידי עדכון לקובץ robots.txt של האתר.
גוגל גם מחפשת לתת למנהלי האתרים יותר שליטה על המידע שלהם.
והאם הם יאפשרו לסורקים של גוגל לגשת למידע למטרת חיפוש ואימון AI ג׳נרטיבי.
“Today we’re announcing Google-Extended, a new control that web publishers can use to manage whether their sites help improve Bard and Vertex AI generative APIs, including future generations of models that power those products. By using Google-Extended to control access to content on a site, a website administrator can choose whether to help these AI models become more accurate and capable over time.”
Google is now allowing web admins to block systems from scraping sites for AI training. Protecting data & privacy is key to the success of #AI. #DataSecurity #Privacyhttps://t.co/MU1RbiW1PU
— AI Briefly (@ArtIntel_b) September 30, 2023
ההכרזה של גוגל מגיעה לאחר החלטת openai לעשות זאת.
ובהחלט יש קווים דימיון מאוד ברורים בצורת הניסוח של גוגל לזה של openai.
וזה לשם השגת אתרים נוספים שיאפשרו גישה לנתונים עם ההבטחה לשפר את המודלים שלה.
כפי שמפורט בדוקומנטציה של chatgpt:
“Retrieved content is only used in the training process to teach our models how to respond to a user request given this content (i.e., to make our models better at browsing), not to make our models better at creating responses.”
ברור שגוגל ו-OpenAI שניהם רוצים להמשיך ולהביא כמה שיותר נתונים מהרשת ככל האפשר.
אך היכולת לחסום את מודלי הבינה המלאכותית מסריקת התוכן באתר כבר תופס תאוצה ומפרסמים עושים זאת כדי להגן על זכויות היוצרים ולמנוע ממערכות AI ג׳נרטיביות לשכפל את יצירתם.
ועם הדיון המתחמם בנוגע לתקנות הקשורות לבינה מלאכותית.
החברות המובילות כבר רואות את התמונה הגדולה.
בסופו של דבר זה יוביל ליותר הפעלת תקנות ורגולציות בנוגע למערכות נתונים שמשמשות לבניית מודלי AI ג׳נרטיביים.
במקרה של גוגל ו-openai זה כבר מאוחר מידי כי פעילות הסריקה והאימון של המודלים כמו זו של OpenAI, שבנתה את מודלי ChatGPT (עד GPT-4) על פי נתונים שנסרקו מהרשת לפני 2021.
לכן, חלק מהמודלים שאומנו בשפה כבר נבנו לפני שהאישורים הללו הפכו לציבוריים.
אך בהסתכלות לעתיד, נראה כי יתכן ויהיו פחות אתרי אינטרנט שהם יוכלו לגשת אליהם למטרת אימון מערכות AI ג׳נרטיביות.
אף שזה יהיה מעניין לראות האם זה גם יתייחס לשוק ה-SEO, כשיותר אנשים משתמשים ב-Generative AI לחיפוש ברשת.
ChatGPT קיבל אמש גישה לרשת הפתוחה.
כדי לשפר את דיוק התגובות שלו, תוך שגוגל בודקת AI ג׳נרטיבי בחיפוש כחלק מניסויי Search Labs שלה.
ChatGPT can now browse the internet to provide you with current and authoritative information, complete with direct links to sources. It is no longer limited to data before September 2021. pic.twitter.com/pyj8a9HWkB
— OpenAI (@OpenAI) September 27, 2023
לבסוף, זה עשוי להגיע לכך שאתרים ירצו להיות כלולים במערכות הנתונים של כלים אלו.
כדי לוודא שהם מופיעים בשאילתות ומונחי חיפוש רלוונטיים.
זה עשוי להביא לשינוי גדול שיחזור לאפשר לכלי AI לגשת שוב לתוכן במועד מאוחר יותר.
כך או כך, זה הוגן שגוגל יתאימו את עצמם לדיונים הנוגעים לפיתוח ולשימוש בבינה מלאכותית המתנהלים כיום.
ויבטיחו שהם מעניקים למנהלי אתרים שליטה נוספת על הנתונים שלהם.
לפני שעדכונים בחוק ורגולציות יכולו להיכנס לתוקף.
גוגל מדברת גם על כך שכאשר היישומים של הבינה המלאכותית הולכים ומתרחבים.
מפרסמי אתרים ברשת "יתמודדו עם גדילת המורכבות של ניהול מקרים של תחום בצמיחה".
וכי היא מחוייבת להשתתף בדיון עם קהילות הרשת והבינה המלאכותית כדי לחקור את הדרכים הטובות ביותר להתמודד.
אשר ברוב המקרים יהיו לטובת כל הצדדים.
אתם יכולים לקרוא עוד על החסימה של גוגל לבוטים ai שסורקים מידע כאן
מזמינים אתכם להמשיך להתעדכן בכל החדשות החמות בדיגיטל בעמוד החדשות של ספיד